Transcript of OpenAI O1 (Strawberry): То, что НЕ показали другие! Сравним O1, GPT4o и Claude в Бизнес кейсе

Начало на днях компания openi Представила свою новую модель которая официально называется Open o1 или по-русски o1 а не официально Strawberry Что означает клубничка почему такое странное название Да кто ж его знает насчёт Клубнички Остаётся только гадать А вот насчёт о1 есть некоторые гипотезы Но об этом чуть позже главное ведь не название правда А то что скрывается внутри этой Клубнички Всем привет я Маша Маск подпишись и я открою те себе будущее в своём Telegram канале Я уже выкладывала краткий пост про эту новость но вы просили более детальный разбор и Сегодня я расскажу об этом подробнее поехали Итак что же такое Что такое модель O1? модель о1 по факту о1 - это коллекция моделей искусственного интеллекта от Open которая была разработана для разных типов задач в этой коллекции нам уже доступны две модели о1 Mini и o1 preview Почему О1 была разработана не для сложных задач многие блогеры даже крупные говорят о том что модель о1 была разработана для решения сложных задач то есть разработчики создавали эту модель для реально сложных задач Однако это не совсем корректная формулировка во-первых сложности - это понятие субъективное что для одного человека или системы может быть сложным для другого простым а во-вторых такая формулировка слишком размыта и непонятно что имеется в виду под сложностью задач на самом деле В чем основное отличие модели О1 от остальных? основное отличие модели о1 от остальных заключается не в их способности решать сложные задачи А в методе их обучения модели о1 Mini и о1 preview были обучены с помощью метода с подкреплением Что отличает их от других моделей например gpt 4 или gpt 4o которые в свою очередь были обучены преимущественно методом обучения с учителем что это значит попробую попытаюсь объяснить обучение с Метод «Обучение с подкреплением» подкреплением - это метод в машинном обучении с помощью которого модель искусственного интеллекта взаимодействует с окружающей средой и пробует раз действия получая при этом обратную связь за правильные действия модель получает награду то есть положительный сигнал который говорит о том что она действует правильно за неверное действия модель может получить наказание или отсутствие награды что говорит ей о том что путь не эффективен таким образом модель учится на своих ошибках и успехах и это позволяет ей становиться эффективнее и эффективнее с каждым разом этот процесс похож на то Как учится человек То есть он пробует разные действия совершает ошибки и исправляет в случае неудач только у модели это происходит автоматически с помощью алгоритмов Но со стороны это выглядит так же как и у человека как будто она использует критическое мышление А обучение с учителем как у gpt Метод «Обучение с учителем» 4 - это Метод при котором модель учится на заранее размеченный данных То есть когда известны ответы то есть ей показывают примеры вопросов и дают правильные ответы и Она запоминает эти задачи по этим примерам это тоже самое как ученик заучивать готовые шаблоны задач и когда Ему попадается похожая задача он её с лёгкостью решает Но если вдруг задача каким-то образом отклоняется от шаблона то вот здесь уже у ученика возникают сложности наглядный Пример с Ричардом Фейнманом пример из жизни описал замечательный учёный Ричард фейнман лауреат Нобелевской премии по физике за разработку атомной бомбы в своей книге Вы шутите Мистер феном который я вам от души рекомендую он поделился опытом преподавания в математических школах Бразилии и вот что он отметил что даже самые успешные ученики могли решать задачу только по ранее выученный формулам то есть действовали по шаблону и если задача отличалась от шаблона то у них возникали сложности также происходит и с gpt 4o когда она получает задачи которых не видела в процессе обучения таким образом метод с подкреплением как у о1 или о1 priew позволяют модели искусственного интеллекта быть более гибкими и адаптивными к новым условиям А обучение с учителем как у gpt 4 и gpt 4o помогают быстро и эффективно решать задачи похожие на уже изученные но может быть менее эффективным в нестандартных задачах где требуется адаптивность и гибкость когда коллеги демонстрируют Почему высокие результаты математических тестов не говорят о том, что О1 «умнее» других результаты математических тестов с официальной страницы Open и делают выводы о том что модели о1 значительно умнее чем например gpt 4o Это тоже не совсем корректно превосходство модели о1 в математических задачах связана не с тем что она умнее других моделей А с тем что они были разработаны для решения определённых специфичных типов задач включая математические технические и научные что важно понимать модели о1 Что важно понимать про использование О1 лучше всего справляются с задачами где требуется чёткое логическое решение в несколько шагов это важно для задач где требуется провести последовательные вычисления например об решении уравнений давайте рассмотрим пример если нам нужно решить линейный уравнение 2X + 3 = 11 для начала нам нужно вычесть 3 с обеих сторон затем нам нужно обе стороны поделить на два и таким образом мы получим результат модели о1 оптимизированы для такого типа задач поскольку они способны держать в памяти несколько шагов решения и Выполнять их последовательно это особенно актуально в математике в программировании и задачах где требуется чёткое выполнение нескольких шагов gpt 4 gpt 4o в свою очередь обучены на большем количестве знаний содержащих разные сведения о мире это тоже важно понимать это делает её более эффективным там где очень важен широкий контекст и понимание разнообразных тем то есть там где важна не столько последовательность шагов сколько способность быстро находить ответы опираясь на огромный массив знаний таким образом модели о1 не превосходят модели gpt 4 и gpt 4o во всём А вот то что делает их реально Что делает модели О1 реально уникальными 19:03 – Уникальные функции Obsidian уникальными заключается в следующем рассмотрим Как работает модель о1 И в чём заключается её сила модели о1 способны Глу глубоко анализировать данные благодаря уникальному методу тот Train of thought что переводится цепочка мыслей или ход мыслей таким образом они не просто выдают быстрый ответ А строят цепочку размышлений прежде чем выдать ответ поэтому они и обрабатывают информацию зачастую значительно дольше иногда до 30 секунд в зависимости от сложности задач когда модель о1 получает Как модель О1 работают с запросами и почему она стоит дороже других задачу она её декомпозировать модель могла понять суть и рассмотреть разные варианты решения Это то же самое что если бы вы решали сложную задачу и разбивали её на несколько шагов затем модель начинает выполнять задачу Шаг за шагом на каждом этапе она сохраняет информацию которую уже использовала и добавляет к ней новую Например если модель на Первом шаге поняла один Аспект задачи то на следующем шаге она учитывает не только этот Аспект но и то что добавилось нового таким образом каждым шагом контекст задачи увеличивается то есть на шаге три у модели будет информация о шаге один и шаге два и плюс ещё шаги три То есть она складывает всю информацию чтобы получить более полную картину всей задачи Это позволяет ей принимать Более точные решения поскольку она не забывает что сделала на предыдущих шагах и добавляет новые данные на каждом шаге рассуждая с учётом всего контекста и это очень полезно и важно для задачи где требуется чёткая логическая последовательность действий Именно поэтому модель о1 стоит дороже потому что с каждым новым шагом она учитывает не только новые данные но и предыдущие Что требует больше вычислительных мощностей чем больше шагов тем больше вычислительных мощностей нужно таким образом и стоимость выше теперь поговорим о Кому доступны модели доступности этих моделей пользователи тарифов gpt Plus и Team уже имеют доступ к этим моделям а пользователи тарифов Enterprise education получат их с 12 сентября однако стоит помнить о Ограничения и лимиты некоторых ограничениях для пользователей подписки gpt Plus для которых эти модели уже доступны есть следующие недельные лимиты 30 сообщений в модели о1 preview и 50 сообщений в модели о1 Mini каждый запрос и ответ считается отдельным сообщением в будущем компания планирует увеличить эти тарифы когда это неизвестно А ещё в будущем они планируют модель о1 Mini дать всем бесплатно Стоимость при использовании API модель один также доступный через AP но здесь стоимость значительно дороже чем предыдущие версии например ввод данных В1 preview обойдётся в 15 долларов за миллион токенов а вывод в 60 долларов за миллион токенов в то время как gpt 4о в три раза дешевле стоит такая высокая стоимость связана с тем что модель тратит значительно больше ресурсов на генерацию ответа теперь чтобы понять как Практическая часть: сравнение o1-mini с GPT4o и Claude 3,5 эти модели работают Давайте посмотрим их в деле проведём небольшой тест а я выберу для сравнения три модели o1 Mini gpt 4o и clot а для экономии времени я каждой этой модели дам одинаковый промт Пусть это будет несложная логическая Задачка Например у вас есть три коробки одна с яблоками другая с апельсинами и одна со смешанными фруктами все коробки подписаны неправильно Вы можете взять один фрукт из любой коробки и таким образом нужно определить что В каждой коробке то есть такая простенькая задача для упрощения я выберу два критерия это точность решения и чёткость объяснения Итак даём задание gpt 4о смотрим моментально отвечает чтобы определить что находится в каждой коробки достаточно взять один фрукт из коробки который подписаны как смешанные фрукты потому что подписи на всех коробках Точно неверны вы выберите один фрукт с надписью смешанные фрукты допустим это апельсин Это означает что в Короб как смешанные фрукты на самом деле находятся только апельсины правильно теперь у вас остаются две коробки с неправильными подписями одна подписана как апельсины другая как яблоки поскольку надпись перепутана то в ней должны быть яблоки и в оставшееся коробке которые подписаны как яблоки Вы должны не должны быть смешанные фрукты решение правильно и объяснил довольно Понятно теперь откроем лот 3 и зададим Точно такую же задачу это интересная логическая задача тоже моментально отвечает он Расписал в четыре действия у нас есть три коробки То есть он пишет дано да то есть его подход Мне нравится если честно больше мы знаем что все надписи неверны это Ключевая информация То есть он объясняет логичнее всего взять фрукты с коробки с надписью смешанно почему то есть он объясняет как будто бы он рассуждает потому что мы точно знаем что в коробке не может быть смешанных фруктов и он предлагает объяснить какую-то часть решения на самом деле Если сравнивать ответ gt4 Тод мне нравится больше с точки зрения логики и чёткости объяснения Давайте теперь Попросим у о1 мини которая хороша у нас в Математике и программировании Ту же самую задачу он довольно быстро ответил пару секунд потому что задача для него несложная и он пишет чтобы определить что находится в каждой коробке Следуйте следующему шагу Возьмите один фрукт из коробки как смешаные фрукты поскольку все подписи неверны эта коробка не содержит смешанные фрукты она может содержать только яблоки или только персин таким образом взяв всего один фрукт из коробки подписанный так ну в общем понятно все они решили правильно Ну если честно подход к лода мне ближе Я думаю что эта задача наверное не самая показательная для того чтобы оценить как вообще работают эти модели Вы можете сами протестировать И посмотреть грузите вас сложными техническими задачами я не буду А теперь давайте посмотрим как работает модель o1 preview то есть модель которая Бизнес-кейс: сравнение o1-preview с GPT4o и Claude 3,5 предназначена для самых сложных и многофункциональных задач Давайте ей зададим какой-то конкретный сложный многоступенчатый бизнес-кейс я подготовила этот бизнес-кейс заранее и сейчас я предложу его разным моделям открываем о1 preview и задаём этот бизнес-кейс есть компания tby это международная e-commerce платформа который продаёт бытовую технику и электронику на пяти рынках США Европа Азия Латинская Америка и Африка А сегодня утром на трёх из семи складов произошёл сбой в системе учёта что привело к значительным задержкам в обработке заказов в двух регионах Европе и Латинской Америке одновременно в Азии произошёл резкий скачок спроса на два популярных товара смартфоны и наушники что вызвало нехватку на складе это потенциально грозит убытками и ухудшением репутации если ситуация не будет быстро исправлена имеющиеся данные то есть дано объёмы задержки по регионам по Европе задержка в обработке 20% Азия Увеличение спроса на 50% общем давайте я всё это зачитывать не буду я в своём Telegram канале выложу этот бизнес-кейс и выложу Результаты работы нескольких моделей сейчас нажму кнопку генерации чтобы модель начала обработку данных Как видим идёт задержка так пока у нас gpt o1 preview думает и вообще принимает данные на вход зайдём в Клод и дадим точно такое же задание Клод у нас анализирует и выдаёт ответ моментально вот идёт анализ текущей ситуации вот он описывает основные риски общие принципы прозрачность честность регулярные обновление в общем выложу всё это в Telegram канале Вы посмотрите внимательно Изучите и каждый из вас сделает свои собственные выводы Какая из моделей работает круче И каждый из вас может сделать собственные выводы по работе о1 и других моделей чат gpt ещё даже не приступил к работе Вот видите у него прошёл у него пошёл процесс думая А значит оценка оценка соответствия то есть Пока У нас Клод там Практически уже выдал всю информацию насколько я понимаю в итоге чат же пти думал над ответом 28 секунд а Клод выдал нам ответ очень быстро а качество этих ответов у вас будет возможность оценить самим поэтому Те кто не подписан на мой Telegram канал обязательно подпишитесь по оценкам специалистов искусственный интеллект в ближайшие несколько лет заменит до 30% Труда сотрудников уровня J и midle поэтому чтобы не попасть в число этих 30% важно осваивать навыки работы с нейросетями чтобы всегда быть востребованным специалистом и я уверена что нейросети нас с вами не заменят А вот быть нам хорошими помощниками они точно смогут мо видео на этом подходит к концу если оно было полезным обязательно Подписывайтесь ставьте свои сердечки пишите комментарии донать донаты Здесь и звёздочки в телеграме и помните что Это должен знать каждый! Здесь вы всегда можете прокачать свой интеллект вместе с искусственным пока

OpenAI O1 (Strawberry): То, что НЕ показали другие! Сравним O1, GPT4o и Claude в Бизнес кейсе

Share your thoughts