Консолидация финансового капитала, технологий, вычислительных мощностей и лучших умов человечества в развитии ИИ проектов создают невероятный темп научно-технического прогресса в рамках внедрения передовых LLM, что в свою очередь приводит к выравниванию конкуренции и быстрого достижения предела развития в рамках актуальных архитектур.
Во-первых, с осени 2024 стало невозможным определение однозначно доминирующую LLM, где ни одна передовая разработка не имела ультимативных преимуществ так, как это было в начале технологического рывка в 2023.
Во-вторых, крайне неоднозначное внедрение GPT-4.5 показало, что предел развития где-то рядом. Это справедливо и по относительно слабым анонсам конкурентов.
GPT-4.5 вышла рекордно дорогой (в 30 раз дороже средней цены по конкурентам), имея минимальное преимущество над конкурентами, со спорными инновациями в виде "человекоподобных" генераций, тогда как от LLM требуется точность и стабильность, а не умение "поболтать".
Последние тесты подтвердили, что GPT-4.5 одна из топовых LLM, но не лучшая (результаты artificialanalysis.ai полностью совпали с моими собственными тестами спустя пару часов после презентации).
Среди нерассуждающих LLM, GPT-4.5 уступила Grok 3, но обогнала всех остальных, хотя преимущество минимальное (подтверждение на гистограмме).
Удивительно, но GPT-4.5 вчистую сливает DeepSeek R1, имея стоимость в 50-60 раз выше! Да, они основаны на разных принципах (DeepSeek R1 – рассуждающая модель), но для пользователя имеет значения конечный результат и цена.
Что такое рассуждающие модели? Цепочка мыслей (CoT) — это метод, при котором модель искусственного интеллекта разбивает задачу на шаги, как бы "думая вслух", перед тем как дать ответ. Это помогает моделям лучше справляться с задачами, требующими логики, например, решением математических задач или логических головоломок.
Какие топовые рассуждающие LLM доступны в начале марта?
1. OpenAI o3-mini (high), есть более мощная o3, но она доступна только за 200 баксов в месяц, а прошлый лидер OpenAI o1 немного уступает OpenAI o3-mini (high) в интегральном сравнении.
2. Grok 3 Reasoning по многим тестам является лучшей в мире LLM.
3. DeepSeek R1 является самой универсальной и лучшей китайской моделью, которая по праву формирует мировой ТОП-3.
4. Claude 3.7 Sonnet [SSE: 603096] Thinking представляет лучшие в мире возможности в программировании (разработчики акцент делали именно на них), но уступает лидерам по другим направлениям.
5. [HKEX: 0174] Gemini 2.0 Thinking из жесткой внутренней цензуры практически не пригодна для работы, хотя архитектурно на высоких позициях.
Можно отметить значительно улучшенную модификацию думающей модели от Perplexity, которую представили 14 февраля в виде [NSE: DEEPAKNTR] Deep Research.Deep [NASDAQ: RSSS] Research.
Я ранее сильно ругал Perplexity, которые 1.5 года практически ничего не делали, но с января они активно взялись за работу, интенсивно внедряя инновации и вышли в лидеры по совокупности факторов среди поисковых LLM.
А где же GPT-4.5? По формальным критериям уступает любой из думающей модели, но находится на лидирующих позициях вне CoT LLM.
Gemini 2.0 Thinking можно тестировать бесплатно в среде разработчиков в [NASDAQ: GOOG] Google [NYSE: AI] AI Studio.
Grok 3 Reasoning пока бесплатен в режиме бета теста через платформу X или grok.com.
DeepSeek R1 бесплатный, но сломался уже больше месяца (не работает поиск) и постоянные "отваливания" из-за перегрузки серверов.
Claude 3.7 [NASDAQ: SONN] Sonnet Thinking платный, но можно использовать через агрегатор Syntx (также там Grok 3 Reasoning, OpenAI o3-mini (high) и OpenAI o1 PRO) .
GPT-4.5 неадекватно дорогой, пока представлен только в тарифе [NYSE: PRO] PRO за 200 баксов в месяц и в среде разработчиков с прайсом в 30-50 раз выше, чем у конкурентов. Доступен через агрегатор Syntx (25 запросов в час и 150 запросов за сутки) и Perplexity PRO с вчерашнего дня, но всего 10 запросов в день.
С GPT-4.5 еще не успел познакомиться внимательно, требуется более тщательное тестирование. Более полный обзор личного опыта использования LLM в рабочих задачах подготовлю по мере возможностей.
172.79 $
0.00%
23.5 $
0.00%
20.71 $
-2.22%
0.2 HK$
0.00%
2016.7 ₹
-0.73%
19.4 ¥
-1.65%
2.68 $
-1.85%
1.33 $
0.00%
3.56 $
0.00%
7