Google представила Gemini 3.1 Pro - новую флагманскую модель ИИ с рекордными результатами на бенчмарках

Google на этой неделе анонсировала очередное обновление своей линейки больших языковых моделей - Gemini 3.1 Pro. Это улучшенная версия прошлогоднего Gemini 3 Pro, доступная сейчас в виде превью с ожидаемым более широким релизом в ближайшее время.

Существенный шаг вперёд в производительности

Gemini 3.1 Pro демонстрирует заметный прогресс в сложных задачах мышления и рассуждений по сравнению с предшественником. Одним из ключевых показателей стала оценка 77,1 % на бенчмарке ARC-AGI-2. Это более чем вдвое выше, чем у Gemini 3 Pro. Этот тест оценивает способность модели решать логические задачи, которые не были в тренировочных данных, что отражает глубокое рассуждение, а не просто воспроизведение ранее выученной информации.

Помимо этого, модель показала сильные результаты на других оценочных наборах, включая высокие оценки в тестах по инженерным задачам и на уровне PhD-образования по науке.

Признание от независимых экспертов

Независимые системы оценки, такие как Humanity’s Last Exam и APEX (разработанная стартапом Mercor), также зафиксировали значительные улучшения. По словам основателя Mercor, Gemini 3.1 Pro заняла первую строчку в рейтинге APEX-Agents, что, по его мнению, показывает, как быстро подобные модели улучшаются в реальных профессиональных задачах.

Рынок и конкуренция

В то время как Google подчёркивает свои успехи в лидерстве по большинству бенчмарков, конкуренция в области искусственного интеллекта остаётся очень плотной. В последние месяцы свои новые модели также выпустили такие компании, как OpenAI и Anthropic.

Где уже доступна модель

Gemini 3.1 Pro начала развёртываться в различных продуктах и инструментах Google: в приложении Gemini, в среде NotebookLM, а также через API и платформы для разработчиков, такие как Vertex AI и Gemini CLI. Это делает её доступной как для обычных пользователей, так и для корпоративных клиентов и разработчиков.

Похожие статьи

Рекомендательные технологии Подробнее
Кибербезопасность 2 месяца назад

Claude Mythos находит тысячи zero-day уязвимостей

Claude Mythos - новая модель Anthropic, способная находить тысячи zero-day уязвимостей. Она используется в проекте Glasswing для усиления кибербезопасности, но доступ к ней строго ограничен из-за потенциальных рисков.

AI 4 месяца назад

Как искусственный интеллект меняет правила игры для стартапов

Искусственный интеллект меняет экономику стартапов: снижает издержки, автоматизирует рутину и позволяет небольшим командам запускать продукты быстрее. Вице-президент Microsoft объясняет, как ИИ-агенты трансформируют подход к созданию и масштабированию бизнеса.

AI 4 месяца назад

Google представляет Project Genie 3: ИИ, который генерирует виртуальные миры

Google запустила Project Genie 3: экспериментальный ИИ-инструмент, который превращает текстовые запросы и изображения в интерактивные трехмерные миры. Новый прототип доступен подписчикам Google AI Ultra в США, а технология основана на модели Genie 3 от DeepMind.