OpenAI
представила o1 - первую в запланированной серии «рассуждающих» моделей, способных отвечать на более сложные вопросы быстрее человека. Модель, которая ранее носила кодовое название
Strawberry, была выпущена вместе с более компактной и дешевой версией o1-mini.
Процесс обучения модели был принципиально иным, в результате она может «думать», прежде чем выдать ответ. Вместе с тем новинка уступает GPT-4o в знании фактов, а также не может использовать интернет и обрабатывать файлы. Еще o1 работает медленнее и стоит сильно дороже GPT-4o. OpenAI называет выпуск o1 «предварительным».
Ранее OpenAI обучала модели GPT, по сути, копировать то, что они видели в своих обучающих данных. В случае с o1 был применен иной подход: модель научилась самостоятельно решать задачи благодаря обучению с подкреплением. Этот метод предполагает поощрение правильных действий и наказание за ошибки. Кроме того, модель использует механизм «цепочки рассуждений», позволяющий ей последовательно анализировать запросы, подобно тому, как это делают люди. Система «думает», прежде чем отвечать. В результате o1 стала более точной и галлюцинирует меньше. Впрочем, полностью эта проблема не исчезла.
Главное, что отличает новую модель от GPT-4o, - способность решать сложные задачи, связанные с написанием кода, математикой и анализом данных, гораздо лучше, чем ее предшественники, а также объяснять свои рассуждения. OpenAI протестировала o1 на квалификационном экзамене для Международной математической олимпиады. В то время как GPT-4o решила правильно только 13% задач, o1 набрала 83%.
Журналисту The Verge продемонстрировали работу o1, попросив ее решить следующую задачу: «Принцессе столько лет, сколько будет принцу, когда принцессе будет вдвое больше, чем было принцу, когда возраст принцессы был вдвое меньше суммы их нынешних возрастов. Сколько лет принцу и принцессе? Приведите все решения этого вопроса». Модель обрабатывала запрос 30 секунд, после чего выдала верный ответ. OpenAI разработала интерфейс, демонстрирующий ход рассуждений модели в реальном времени. o1 использовала такие фразы, как «Мне интересно», «Я размышляю» и «Хорошо, давайте посмотрим», что создавало иллюзию мыслительного процесса. На самом деле сознания у нее нет, и такой интерфейс разработчики сделали, чтобы показать, что она «глубже погружается в проблемы» и более «человечна».