Обновления модели Gemini: Анализ Gemini 2.5

Введение

оригинал https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

Ключевые обновления и анонсы Gemini 2.5 Pro Experimental

Основным анонсом, представленным в статье, является выпуск Gemini 2.5 Pro Experimental, который позиционируется как самая интеллектуальная модель Google на данный момент. Эта модель демонстрирует передовую производительность, лидируя в общепринятых бенчмарках со значительным отрывом и занимая первое место в рейтинге LMArena. Такой результат свидетельствует о существенном прогрессе в возможностях модели по сравнению с предшественниками. Использование фразы "значительный отрыв" указывает на качественный скачок в производительности, а не просто незначительное улучшение.

Gemini 2.5 Pro Experimental обладает развитыми способностями к рассуждению. Разработчики называют модели семейства Gemini 2.5 "думающими моделями", способными анализировать свои мысли перед генерацией ответа, что приводит к повышению производительности и точности. Это отличает их от предыдущих поколений, включая первую "думающую" модель Gemini 2.0 Flash Thinking. Улучшения в Gemini 2.5 достигнуты благодаря комбинации значительно усовершенствованной базовой модели и улучшенного пост-тренинга 1. Модель демонстрирует выдающиеся результаты в математических и научных бенчмарках, таких как GPQA и AIME 2025, а также достигла рекордного результата в тесте Humanity’s Last Exam 1. Успех в таких сложных областях, как математика, наука и тест, разработанный для оценки границ человеческого знания и рассуждения, подчеркивает высокий уровень когнитивных способностей Gemini 2.5.

В области программирования Gemini 2.5 Pro Experimental также демонстрирует значительные успехи, лидируя в распространенных бенчмарках для оценки навыков кодирования. Модель способна создавать визуально привлекательные веб-приложения и агентные кодовые приложения, а также выполнять задачи по преобразованию и редактированию кода. На бенчмарке SWE-Bench Verified модель показала результат в 63.8% при использовании специальной конфигурации агента. Упоминание "агентных кодовых приложений" предполагает способность модели не только генерировать код, но и автономно использовать его для достижения определенных целей, что указывает на потенциал для создания более сложных и самостоятельных AI-агентов в будущем. Достижение конкретного результата на SWE-Bench Verified с использованием специальной конфигурации агента говорит о том, что производительность модели в задачах кодирования может быть дополнительно повышена за счет оптимизации и интеграции с другими инструментами.

Gemini 2.5 Pro Experimental обладает встроенной мультимодальностью, унаследованной от предыдущих моделей Gemini. Это означает, что модель способна понимать и обрабатывать информацию из различных источников, включая текст, аудио, изображения и видео. Такая способность к интеграции и анализу разнородных данных отражает стремление к созданию AI-систем, которые могут взаимодействовать с миром подобно человеку, воспринимая информацию через различные сенсорные каналы.

Еще одним важным обновлением является увеличение окна контекста. Gemini 2.5 Pro Experimental поставляется с окном контекста в 1 миллион токенов, а в ближайшем будущем планируется увеличение до 2 миллионов токенов. Такой объем контекста позволяет модели обрабатывать и удерживать в памяти значительно больший объем информации, что критически важно для понимания обширных наборов данных и решения сложных задач, требующих учета множества взаимосвязей, таких как анализ больших документов или целых репозиториев кода. Увеличение окна контекста до 2 миллионов токенов представляет собой значительный шаг вперед в способности модели обрабатывать долгосрочные зависимости и сложную контекстную информацию, что может привести к прорывам в задачах, требующих обширной памяти и глубокого понимания.

Улучшения в способностях мышления и рассуждения

Как уже упоминалось, Gemini 2.5 представляет собой значительный шаг вперед в развитии "думающих моделей". Способность модели рассуждать в процессе генерации ответа приводит к повышению точности и улучшению общей производительности. Это является эволюцией предыдущих разработок, включая модель Gemini 2.0 Flash Thinking. Сочетание усовершенствованной базовой модели и улучшенных методов пост-тренинга позволило Gemini 2.5 достичь нового уровня производительности, позволяя решать более сложные задачи и поддерживать более совершенных, контекстно-зависимых агентов. Успех в бенчмарках, ориентированных на рассуждение, таких как GPQA, AIME 2025 и Humanity’s Last Exam, является прямым свидетельством этих улучшений. Тот факт, что для улучшения способностей рассуждения были использованы как усовершенствования базовой архитектуры, так и методов обучения, указывает на комплексный подход к развитию когнитивных возможностей модели. Возможность поддержки более совершенных, контекстно-зависимых агентов подчеркивает потенциал Gemini 2.5 в создании более интеллектуальных и адаптивных AI-систем, способных взаимодействовать с окружающим миром более осмысленно.

BenchmarkGemini 2.5 Pro (Experimental 03-25)OpenAI o3-mini (High)OpenAI GPT-4.5Claude 3.7 Sonnet (64k Extended Thinking)Grok 3 Beta (Extended Thinking)DeepSeek R1
Reasoning & knowledge      
Humanity's Last Exam (no tools)18.8%14.0%*6.4%8.9%8.6%*
Science      
GPQA diamond84.0%79.7%71.4%78.2%80.2%71.5%
 84.8%84.6%
Mathematics      
AIME 202586.7%86.5%49.5%77.3%70.0%
 93.3%
Mathematics      
AIME 202492.0%87.3%36.7%61.3%83.9%79.8%
 80.0%93.3%
Code generation      
LiveCodeBench v570.4%74.1%70.6%64.3%
 79.4%
Code editing      
Aider Polyglot74.0% / 68.6%60.4% (diff)44.9% (diff)64.9% (diff)56.9% (diff)
Agentic coding      
SWE-bench verified63.8%49.3%38.0%70.3%49.2%
Factuality      
SimpleQA52.9%13.8%62.5%43.6%30.1%
Visual reasoning      
MMMU81.7%no MM support74.4%75.0%76.0%no MM support
 no MM support78.0%no MM support
Image understanding      
Vibe-Eval (Reka)69.4%no MM supportno MM support
Long context      
MRCR91.5%36.3%48.8%
 83.1%
Multilingual performance      
Global MMLU (Lite)89.8%

из источника 👆

Будущие планы и направления развития

Статья содержит информацию о планах разработчиков по дальнейшему развитию семейства моделей Gemini. В частности, планируется интегрировать "думающие" способности непосредственно во все будущие модели Gemini. Это говорит о стратегическом направлении, в котором способность к рассуждению станет фундаментальной характеристикой всех AI-разработок Google DeepMind, а не только наиболее продвинутых моделей. В отношении Gemini 2.5 в ближайшем будущем ожидается увеличение окна контекста до 2 миллионов токенов. Кроме того, команда разработчиков приветствует обратную связь от пользователей с целью дальнейшего быстрого совершенствования возможностей Gemini и повышения его полезности. Активное стремление к получению обратной связи подчеркивает итеративный характер разработки AI и ориентированность Google DeepMind на потребности пользователей, где реальный опыт использования и отзывы играют ключевую роль в определении будущего развития моделей.

Заключение

Анонс Gemini 2.5 Pro Experimental представляет собой значительный прогресс в области искусственного интеллекта. Модель демонстрирует передовую производительность в различных бенчмарках, обладает улучшенными способностями к рассуждению и программированию, поддерживает мультимодальность и имеет увеличенное окно контекста. Особого внимания заслуживает интеграция "думающих" способностей, позволяющих модели анализировать свои мысли перед ответом, что приводит к повышению точности и эффективности. Планы по дальнейшему развитию семейства Gemini, включая интеграцию способностей к рассуждению во все модели и увеличение окна контекста Gemini 2.5, указывают на долгосрочную стратегию Google DeepMind в области создания все более мощных и универсальных AI-систем. Достижения в Gemini 2.5, особенно в области рассуждения и размера окна контекста, свидетельствуют о продолжающейся тенденции к созданию более мощных и универсальных AI-моделей, способных решать все более сложные задачи реального мира.

Вам также может понравиться: