Google Gemini 3.1 Pro: рекордные бенчмарки и новый лидер

Google на этой неделе анонсировала очередное обновление своей линейки больших языковых моделей - Gemini 3.1 Pro. Это улучшенная версия прошлогоднего Gemini 3 Pro, доступная сейчас в виде превью с ожидаемым более широким релизом в ближайшее время.

Существенный шаг вперёд в производительности

Gemini 3.1 Pro демонстрирует заметный прогресс в сложных задачах мышления и рассуждений по сравнению с предшественником. Одним из ключевых показателей стала оценка 77,1 % на бенчмарке ARC-AGI-2. Это более чем вдвое выше, чем у Gemini 3 Pro. Этот тест оценивает способность модели решать логические задачи, которые не были в тренировочных данных, что отражает глубокое рассуждение, а не просто воспроизведение ранее выученной информации.

Помимо этого, модель показала сильные результаты на других оценочных наборах, включая высокие оценки в тестах по инженерным задачам и на уровне PhD-образования по науке.

Признание от независимых экспертов

Независимые системы оценки, такие как Humanity’s Last Exam и APEX (разработанная стартапом Mercor), также зафиксировали значительные улучшения. По словам основателя Mercor, Gemini 3.1 Pro заняла первую строчку в рейтинге APEX-Agents, что, по его мнению, показывает, как быстро подобные модели улучшаются в реальных профессиональных задачах.

Рынок и конкуренция

В то время как Google подчёркивает свои успехи в лидерстве по большинству бенчмарков, конкуренция в области искусственного интеллекта остаётся очень плотной. В последние месяцы свои новые модели также выпустили такие компании, как OpenAI и Anthropic.

Где уже доступна модель

Gemini 3.1 Pro начала развёртываться в различных продуктах и инструментах Google: в приложении Gemini, в среде NotebookLM, а также через API и платформы для разработчиков, такие как Vertex AI и Gemini CLI. Это делает её доступной как для обычных пользователей, так и для корпоративных клиентов и разработчиков.

Google представила Gemini 3.1 Pro - новую флагманскую модель ИИ с рекордными результатами на бенчмарках

Существенный шаг вперёд в производительности

Признание от независимых экспертов

Рынок и конкуренция

Где уже доступна модель

Похожие статьи

Laravel Cloud научился отдавать Markdown специально для ИИ-агентов

Инженер Google: ИИ справился за час с задачей, над которой команда работала год

Anthropic нашла 22 уязвимости в Firefox с помощью ИИ Claude

AI-очки, которые помогают незрячим людям безопасно передвигаться