Обновления ChatGPT: o3, o4, 4.1, 4.5. Чем отличаются и зачем они нужны?

Рассуждающие модели

Кратко их суть показана на картинке к посту. Это немного шизофреничные, рефлексирующие модели, которые всё время ведут внутренний диалог сами с собой. Говорят, что именно так работает мышление у человека. Интересно, что этот механизм сначала реализовали сами пользователи с помощью промтов ещё в обычных GPT 4. Они заставляли нейронку составлять детальный план своих рассуждений, а затем его критически оценивать. Более того, можно задать нейронке сразу 2 роли и просить их вести диалог в процессе работы. Например, писатель пишет текст, а критик его критикует. Писатель вносит правки и улучшает текст по итогу критики. Сейчас подобный механизм встроен в рассуждающие модели и они сами успешно себя гнобят.

Зачем вообще нужны рассуждающие модели?

Хороший вопрос. Первая модель о1 вообще не произвела фурора, т.к. такой механизм уже реализовали сами пользователи. Модель о2 миру вообще не показывали. О3 показали только в обрезанном варианте как o3-mini, т.к. она была слишком прожорливая. Доступ к полноценной о3 был только на подписке за $200, но очевидцы модели не были в таком уж диком восторге, чтобы платить каждый месяц по $200.

Однако, именно на полной модели о3 реализован режим «Deep research» и мы можем точно сказать, что он работает очень круто и хорошо понимает пользователя. Это уровень работы офисного менеджера среднего уровня. То есть, нейронка таких ребят уже отправила мести дворы. Сейчас доступ к о3 стал более доступным и добавили также о4. Правда, опять в обрезанном виде с приставкой «mini».

Чем обычный GPT4 не угодил?

GPT4 был реально прорывной моделью, однако у него есть проблемы, мешающие его использованию в бизнесе:

— Он плохо справлялся с логическими задачами;
— Он плохо считал, делал ошибки даже в подсчёте символов текста;
— Часто придумывал несуществующие факты (галлюцинировал);
— Не всегда правильно понимал запрос пользователя.

Эти проблемы как раз отчасти решали рассуждающие модели. Модель 4.5 как будто позаимствовала лучшие особенности у рассуждающих моделей и заметно прокачалась. Возможно, процесс рассуждения просто скрыт от пользователя. Однако, 4.5 оказалась настолько дорогой, что пришлось её как-то упрощать и оптимизировать. Так появилась модель 4.1. Обе модели сейчас доступны в ограниченном режиме: 4.5 даёт сделать несколько запросов в день, а 4.1 вообще доступна только по API. Зато она очень дешёвая и контекстное окно просто огромное, аж миллион токенов. Контекстное окно можно сравнить с оперативной памятью. Чем оно больше, тем больше разной информации пользователя может качественно обработать нейронка.

Хронология апгрейдов

В начале 2025‑го OpenAI решила разделить развитие «мозгов» на две ветки:

Reasoning‑линия (o‑series) — модели, которые строят явный внутренний диалог, могут сами вызывать тулзы (Python, веб‑поиск, генерацию изображений) и даже «видят» картинки;
GPT‑линия — классические LLM, прокачиваемые масштабом данных и вниманием к скорости и цене.

Короткий таймлайн:

Дата	Событие	Комментарий
Февраль 2025	Превью GPT‑4.5	Прорыв по «эмпатии», но ценник $75 /$150 за 1 M токенов — рекорд рынка
Март 2025	Релиз o3 / o3‑mini	Первая публичная reasoning‑модель; полная версия доступна в режиме Deep research
15 апреля 2025	Выход GPT‑4.1 (standard/mini/nano)	1 M токенов, цена от $0.10 in
16 апреля 2025	Анонс o4‑mini	Упрощённое reasoning‑ядро, дешевле o3, 200 k контекста
30 апреля 2025	Retire GPT‑4 в ChatGPT	В интерфейсе Plus его сменит GPT‑4o; через API 4‑ку оставят

Что ещё особенного в reasoning‑моделях

Автономные инструменты

o‑модели сами решают, когда:

пойти в веб‑поиск,
запустить Python‑скрипт,
вскрыть PDF и сграбить таблицу.
User получит единый ответ, а не 10 скриншотов терминала. На практике «Deep research» экономит 3–4 ч аналитика на каждый репорт.

Мультимодальность

o3 умеет «думать картинками»: подсовываете диаграмму или мок‑ап — модель делает критику дизайна или читает график, не вызывая сторонние Vision‑LLM.

GPT‑4.1 — миллион токенов и ускорение в 2 раза

Под капотом

OpenAI переписала планировщик внимания и сжала матрицы весов (плюс distillation‑трюки) — поэтому то же железо тянет 1 M контекста без каскадного обрезания.

Бенчмарки

SWE‑bench Verified: 54.6 % (+21 п. п. к 4o) citeturn3search0
MMLU: 80.1 % — сравнимо с 4o mini и всего на 2 п. п. ниже 4.5 citeturn3search1turn3search2
MultiChallenge (Scale): 38.3 % (+10.5 п. п. к 4o) citeturn3search7

Экономика

Модель	Input	Output	Контекст
4.1 standard	$2 /M	$8 /M	1 M
4.1 mini	$0.40 /M	$1.60 /M	1 M
4.1 nano	$0.10 /M	$0.40 /M	1 M

При тех же данных стоимость падает до 83 % против 4o; задержка — почти вдвое ниже.

GPT‑4.5 — «терапевт» с золотой ложкой

4.5 обучали на расширенной «эмоциональной» выборке: лучше схватывает подтекст, шутки и тон. На «сложных разговорах» в UX‑тестах люди чаще оценивали его как «человечней» citeturn1news16turn1news17.Но:

Цена = х8 к 4o,
Контекст = 128 k токенов,
жёсткая квота — несколько чатов в сутки citeturn1search2turn1search3.
Потому 4.5 берут точечно: high‑stakes переговоры, генерация чувствительного пиара, UX‑копирайтинг luxury‑брендов.

Быстрый выбор модели под задачу

Задача	Рекомендация	Почему
TL;DR PDF на 300 стр.	GPT‑4.1 mini	Обработает файл «цельным куском», цена $0.4 in.
Сбор фактов + таблица	o3	Self‑browse + Python + визуализация.
Чат‑бот в приложении	4.1 nano	50 ms TTFB, ультра‑дёшево.
Математика / код‑ревью	o4‑mini	Reasoning‑ядро, 200 k контекста.
Эмо‑копирайтинг премиум	GPT‑4.5	Лучший «EQ» среди LLM.

Реальные кейсы

Fintech‑стартап сократил время «KYC‑чеков» с 5 мин до 40 с, внедрив o3‑агента, который сам собирает выписки, парсит PDF‑счета и пишет краткий риск‑репорт.
Маркетплейс перевёл каталог (2 млн позиций) на испанский за 4 дня на 4.1 mini вместо 14 дней ручного труда — экономия $18 k.
E‑learning‑платформа заменила GPT‑4o на 4.1 nano для автодополнения кода студентам; latency упала c 400 мс до 120 мс, retention вырос на 12 % .

Что дальше

Retire GPT‑4 — 30 апреля он исчезнет из ChatGPT, уступив место 4o.
GPT‑5 обещают «скрестить» reasoning и GPT‑ветку в одну SKU; релиз ориентировочно Q3 2025.
Нейминг‑хаос продолжится: ArsTechnica уже шутит, что «4.1 > 4.5, если ты OpenAI»

Итог

Если нужно мыслить — берите o‑series; если важно много текста дешево — 4.1; если нужен «человечный» tone of voice — 4.5. А чтобы разобраться, как встроить всё это в ваш продукт и не разориться на токенах, пишите нашему менеджеру Сергею @motin86 — подберём набор моделей и вычислим ROI с калькулятором. Или просто оставьте заявку у нас на сайте.

Источники

The Verge — OpenAI’s upgraded o3 model can use images when reasoning
Axios — New OpenAI models «think» with images
OpenAI Blog — Introducing Deep Research
OpenAI Blog — Introducing GPT‑4.5
OpenAI Blog — GPT‑4.1 in the API
WinBuzzer — Launch preview GPT‑4.1/o3/o4‑mini
OpenAI Pricing page
OpenAI Community Forum — GPT‑4.5 pricing
ArsTechnica — When is 4.1 > 4.5?
Business Insider — GPT‑4.5 emotional intelligence
Wired — GPT‑4.5 first impressions
ArsTechnica — Pricing & rollout o‑series
Simon Willison blog — o3‑mini cost breakdown
GeeksforGeeks — o3‑mini vs DeepSeek R1
Tom’s Guide — Retire GPT‑4 from ChatGPT
TechCrunch — GPT‑4 phase‑out
DocsBot — GPT‑4.1 nano benchmarks