Перейти к основному содержимому

Рассуждающие модели

Кратко их суть показана на картинке к посту. Это немного шизофреничные, рефлексирующие модели, которые всё время ведут внутренний диалог сами с собой. Говорят, что именно так работает мышление у человека. Интересно, что этот механизм сначала реализовали сами пользователи с помощью промтов ещё в обычных GPT 4. Они заставляли нейронку составлять детальный план своих рассуждений, а затем его критически оценивать. Более того, можно задать нейронке сразу 2 роли и просить их вести диалог в процессе работы. Например, писатель пишет текст, а критик его критикует. Писатель вносит правки и улучшает текст по итогу критики. Сейчас подобный механизм встроен в рассуждающие модели и они сами успешно себя гнобят.

Зачем вообще нужны рассуждающие модели?

Хороший вопрос. Первая модель о1 вообще не произвела фурора, т.к. такой механизм уже реализовали сами пользователи. Модель о2 миру вообще не показывали. О3 показали только в обрезанном варианте как o3-mini, т.к. она была слишком прожорливая. Доступ к полноценной о3 был только на подписке за $200, но очевидцы модели не были в таком уж диком восторге, чтобы платить каждый месяц по $200.

Однако, именно на полной модели о3 реализован режим «Deep research» и мы можем точно сказать, что он работает очень круто и хорошо понимает пользователя. Это уровень работы офисного менеджера среднего уровня. То есть, нейронка таких ребят уже отправила мести дворы. Сейчас доступ к о3 стал более доступным и добавили также о4. Правда, опять в обрезанном виде с приставкой «mini».

Чем обычный GPT4 не угодил?

GPT4 был реально прорывной моделью, однако у него есть проблемы, мешающие его использованию в бизнесе:

— Он плохо справлялся с логическими задачами;
— Он плохо считал, делал ошибки даже в подсчёте символов текста;
— Часто придумывал несуществующие факты (галлюцинировал);
— Не всегда правильно понимал запрос пользователя.

Эти проблемы как раз отчасти решали рассуждающие модели. Модель 4.5 как будто позаимствовала лучшие особенности у рассуждающих моделей и заметно прокачалась. Возможно, процесс рассуждения просто скрыт от пользователя. Однако, 4.5 оказалась настолько дорогой, что пришлось её как-то упрощать и оптимизировать. Так появилась модель 4.1. Обе модели сейчас доступны в ограниченном режиме: 4.5 даёт сделать несколько запросов в день, а 4.1 вообще доступна только по API. Зато она очень дешёвая и контекстное окно просто огромное, аж миллион токенов. Контекстное окно можно сравнить с оперативной памятью. Чем оно больше, тем больше разной информации пользователя может качественно обработать нейронка.

Хронология апгрейдов

В начале 2025‑го OpenAI решила разделить развитие «мозгов» на две ветки:

  • Reasoning‑линия (o‑series) — модели, которые строят явный внутренний диалог, могут сами вызывать тулзы (Python, веб‑поиск, генерацию изображений) и даже «видят» картинки;
  • GPT‑линия — классические LLM, прокачиваемые масштабом данных и вниманием к скорости и цене.

Короткий таймлайн:

Дата СобытиеКомментарий
 Февраль 2025  Превью GPT‑4.5Прорыв по «эмпатии», но ценник $75 /$150 за 1 M токенов — рекорд рынка 
 Март 2025  Релиз o3 / o3‑miniПервая публичная reasoning‑модель; полная версия доступна в режиме Deep research 
 15 апреля 2025  Выход GPT‑4.1 (standard/mini/nano)1 M токенов, цена от $0.10 in 
 16 апреля 2025  Анонс o4‑miniУпрощённое reasoning‑ядро, дешевле o3, 200 k контекста 
 30 апреля 2025  Retire GPT‑4 в ChatGPTВ интерфейсе Plus его сменит GPT‑4o; через API 4‑ку оставят 

Что ещё особенного в reasoning‑моделях

Автономные инструменты

o‑модели сами решают, когда:

  • пойти в веб‑поиск,
  • запустить Python‑скрипт,
  • вскрыть PDF и сграбить таблицу.
    User получит единый ответ, а не 10 скриншотов терминала. На практике «Deep research» экономит 3–4 ч аналитика на каждый репорт.

Мультимодальность

o3 умеет «думать картинками»: подсовываете диаграмму или мок‑ап — модель делает критику дизайна или читает график, не вызывая сторонние Vision‑LLM.

GPT‑4.1 — миллион токенов и ускорение в 2 раза

Под капотом

OpenAI переписала планировщик внимания и сжала матрицы весов (плюс distillation‑трюки) — поэтому то же железо тянет 1 M контекста без каскадного обрезания.

Бенчмарки

  • SWE‑bench Verified: 54.6 % (+21 п. п. к 4o) citeturn3search0
  • MMLU: 80.1 % — сравнимо с 4o mini и всего на 2 п. п. ниже 4.5 citeturn3search1turn3search2
  • MultiChallenge (Scale): 38.3 % (+10.5 п. п. к 4o) citeturn3search7

Экономика

МодельInputOutputКонтекст
4.1 standard$2 /M$8 /M1 M
4.1 mini$0.40 /M$1.60 /M1 M
4.1 nano$0.10 /M$0.40 /M1 M

При тех же данных стоимость падает до 83 % против 4o; задержка — почти вдвое ниже.

GPT‑4.5 — «терапевт» с золотой ложкой

4.5 обучали на расширенной «эмоциональной» выборке: лучше схватывает подтекст, шутки и тон. На «сложных разговорах» в UX‑тестах люди чаще оценивали его как «человечней» citeturn1news16turn1news17.Но:

  • Цена = х8 к 4o,
  • Контекст = 128 k токенов,
  • жёсткая квота — несколько чатов в сутки citeturn1search2turn1search3.
    Потому 4.5 берут точечно: high‑stakes переговоры, генерация чувствительного пиара, UX‑копирайтинг luxury‑брендов.

Быстрый выбор модели под задачу

ЗадачаРекомендацияПочему
TL;DR PDF на 300 стр.GPT‑4.1 miniОбработает файл «цельным куском», цена $0.4 in.
Сбор фактов + таблицаo3Self‑browse + Python + визуализация.
Чат‑бот в приложении4.1 nano50 ms TTFB, ультра‑дёшево.
Математика / код‑ревьюo4‑miniReasoning‑ядро, 200 k контекста.
Эмо‑копирайтинг премиумGPT‑4.5Лучший «EQ» среди LLM.

Реальные кейсы

  • Fintech‑стартап сократил время «KYC‑чеков» с 5 мин до 40 с, внедрив o3‑агента, который сам собирает выписки, парсит PDF‑счета и пишет краткий риск‑репорт.
  • Маркетплейс перевёл каталог (2 млн позиций) на испанский за 4 дня на 4.1 mini вместо 14 дней ручного труда — экономия $18 k.
  • E‑learning‑платформа заменила GPT‑4o на 4.1 nano для автодополнения кода студентам; latency упала c 400 мс до 120 мс, retention вырос на 12 % .

Что дальше

  • Retire GPT‑4 — 30 апреля он исчезнет из ChatGPT, уступив место 4o.
  • GPT‑5 обещают «скрестить» reasoning и GPT‑ветку в одну SKU; релиз ориентировочно Q3 2025.
  • Нейминг‑хаос продолжится: ArsTechnica уже шутит, что «4.1 > 4.5, если ты OpenAI» 

Итог

Если нужно мыслить — берите o‑series; если важно много текста дешево — 4.1; если нужен «человечный» tone of voice — 4.5. А чтобы разобраться, как встроить всё это в ваш продукт и не разориться на токенах, пишите нашему менеджеру Сергею @motin86 — подберём набор моделей и вычислим ROI с калькулятором. Или просто оставьте заявку у нас на сайте.


Источники

  1. The Verge — OpenAI’s upgraded o3 model can use images when reasoning 
  2. Axios — New OpenAI models «think» with images
  3. OpenAI Blog — Introducing Deep Research 
  4. OpenAI Blog — Introducing GPT‑4.5 
  5. OpenAI Blog — GPT‑4.1 in the API
  6. WinBuzzer — Launch preview GPT‑4.1/o3/o4‑mini 
  7. OpenAI Pricing page 
  8. OpenAI Community Forum — GPT‑4.5 pricing 
  9. ArsTechnica — When is 4.1 > 4.5?
  10. Business Insider — GPT‑4.5 emotional intelligence 
  11. Wired — GPT‑4.5 first impressions 
  12. ArsTechnica — Pricing & rollout o‑series 
  13. Simon Willison blog — o3‑mini cost breakdown 
  14. GeeksforGeeks — o3‑mini vs DeepSeek R1 
  15. Tom’s Guide — Retire GPT‑4 from ChatGPT 
  16. TechCrunch — GPT‑4 phase‑out 
  17. DocsBot — GPT‑4.1 nano benchmarks