Обновления модели Gemini: Анализ Gemini 2.5
Введение
Ключевые обновления и анонсы Gemini 2.5 Pro Experimental
Основным анонсом, представленным в статье, является выпуск Gemini 2.5 Pro Experimental, который позиционируется как самая интеллектуальная модель Google на данный момент. Эта модель демонстрирует передовую производительность, лидируя в общепринятых бенчмарках со значительным отрывом и занимая первое место в рейтинге LMArena. Такой результат свидетельствует о существенном прогрессе в возможностях модели по сравнению с предшественниками. Использование фразы "значительный отрыв" указывает на качественный скачок в производительности, а не просто незначительное улучшение.
Gemini 2.5 Pro Experimental обладает развитыми способностями к рассуждению. Разработчики называют модели семейства Gemini 2.5 "думающими моделями", способными анализировать свои мысли перед генерацией ответа, что приводит к повышению производительности и точности. Это отличает их от предыдущих поколений, включая первую "думающую" модель Gemini 2.0 Flash Thinking. Улучшения в Gemini 2.5 достигнуты благодаря комбинации значительно усовершенствованной базовой модели и улучшенного пост-тренинга 1. Модель демонстрирует выдающиеся результаты в математических и научных бенчмарках, таких как GPQA и AIME 2025, а также достигла рекордного результата в тесте Humanity’s Last Exam 1. Успех в таких сложных областях, как математика, наука и тест, разработанный для оценки границ человеческого знания и рассуждения, подчеркивает высокий уровень когнитивных способностей Gemini 2.5.
В области программирования Gemini 2.5 Pro Experimental также демонстрирует значительные успехи, лидируя в распространенных бенчмарках для оценки навыков кодирования. Модель способна создавать визуально привлекательные веб-приложения и агентные кодовые приложения, а также выполнять задачи по преобразованию и редактированию кода. На бенчмарке SWE-Bench Verified модель показала результат в 63.8% при использовании специальной конфигурации агента. Упоминание "агентных кодовых приложений" предполагает способность модели не только генерировать код, но и автономно использовать его для достижения определенных целей, что указывает на потенциал для создания более сложных и самостоятельных AI-агентов в будущем. Достижение конкретного результата на SWE-Bench Verified с использованием специальной конфигурации агента говорит о том, что производительность модели в задачах кодирования может быть дополнительно повышена за счет оптимизации и интеграции с другими инструментами.
Gemini 2.5 Pro Experimental обладает встроенной мультимодальностью, унаследованной от предыдущих моделей Gemini. Это означает, что модель способна понимать и обрабатывать информацию из различных источников, включая текст, аудио, изображения и видео. Такая способность к интеграции и анализу разнородных данных отражает стремление к созданию AI-систем, которые могут взаимодействовать с миром подобно человеку, воспринимая информацию через различные сенсорные каналы.
Еще одним важным обновлением является увеличение окна контекста. Gemini 2.5 Pro Experimental поставляется с окном контекста в 1 миллион токенов, а в ближайшем будущем планируется увеличение до 2 миллионов токенов. Такой объем контекста позволяет модели обрабатывать и удерживать в памяти значительно больший объем информации, что критически важно для понимания обширных наборов данных и решения сложных задач, требующих учета множества взаимосвязей, таких как анализ больших документов или целых репозиториев кода. Увеличение окна контекста до 2 миллионов токенов представляет собой значительный шаг вперед в способности модели обрабатывать долгосрочные зависимости и сложную контекстную информацию, что может привести к прорывам в задачах, требующих обширной памяти и глубокого понимания.
Улучшения в способностях мышления и рассуждения
Как уже упоминалось, Gemini 2.5 представляет собой значительный шаг вперед в развитии "думающих моделей". Способность модели рассуждать в процессе генерации ответа приводит к повышению точности и улучшению общей производительности. Это является эволюцией предыдущих разработок, включая модель Gemini 2.0 Flash Thinking. Сочетание усовершенствованной базовой модели и улучшенных методов пост-тренинга позволило Gemini 2.5 достичь нового уровня производительности, позволяя решать более сложные задачи и поддерживать более совершенных, контекстно-зависимых агентов. Успех в бенчмарках, ориентированных на рассуждение, таких как GPQA, AIME 2025 и Humanity’s Last Exam, является прямым свидетельством этих улучшений. Тот факт, что для улучшения способностей рассуждения были использованы как усовершенствования базовой архитектуры, так и методов обучения, указывает на комплексный подход к развитию когнитивных возможностей модели. Возможность поддержки более совершенных, контекстно-зависимых агентов подчеркивает потенциал Gemini 2.5 в создании более интеллектуальных и адаптивных AI-систем, способных взаимодействовать с окружающим миром более осмысленно.
Benchmark | Gemini 2.5 Pro (Experimental 03-25) | OpenAI o3-mini (High) | OpenAI GPT-4.5 | Claude 3.7 Sonnet (64k Extended Thinking) | Grok 3 Beta (Extended Thinking) | DeepSeek R1 |
Reasoning & knowledge | ||||||
Humanity's Last Exam (no tools) | 18.8% | 14.0%* | 6.4% | 8.9% | — | 8.6%* |
Science | ||||||
GPQA diamond | 84.0% | 79.7% | 71.4% | 78.2% | 80.2% | 71.5% |
— | — | — | 84.8% | 84.6% | — | |
Mathematics | ||||||
AIME 2025 | 86.7% | 86.5% | — | 49.5% | 77.3% | 70.0% |
— | — | — | — | 93.3% | — | |
Mathematics | ||||||
AIME 2024 | 92.0% | 87.3% | 36.7% | 61.3% | 83.9% | 79.8% |
— | — | — | 80.0% | 93.3% | — | |
Code generation | ||||||
LiveCodeBench v5 | 70.4% | 74.1% | — | — | 70.6% | 64.3% |
— | — | — | — | 79.4% | — | |
Code editing | ||||||
Aider Polyglot | 74.0% / 68.6% | 60.4% (diff) | 44.9% (diff) | 64.9% (diff) | — | 56.9% (diff) |
Agentic coding | ||||||
SWE-bench verified | 63.8% | 49.3% | 38.0% | 70.3% | — | 49.2% |
Factuality | ||||||
SimpleQA | 52.9% | 13.8% | 62.5% | — | 43.6% | 30.1% |
Visual reasoning | ||||||
MMMU | 81.7% | no MM support | 74.4% | 75.0% | 76.0% | no MM support |
— | no MM support | — | — | 78.0% | no MM support | |
Image understanding | ||||||
Vibe-Eval (Reka) | 69.4% | no MM support | — | — | — | no MM support |
Long context | ||||||
MRCR | 91.5% | 36.3% | 48.8% | — | — | — |
83.1% | — | — | — | — | — | |
Multilingual performance | ||||||
Global MMLU (Lite) | 89.8% | — | — | — | — | — |
из источника 👆
Будущие планы и направления развития
Статья содержит информацию о планах разработчиков по дальнейшему развитию семейства моделей Gemini. В частности, планируется интегрировать "думающие" способности непосредственно во все будущие модели Gemini. Это говорит о стратегическом направлении, в котором способность к рассуждению станет фундаментальной характеристикой всех AI-разработок Google DeepMind, а не только наиболее продвинутых моделей. В отношении Gemini 2.5 в ближайшем будущем ожидается увеличение окна контекста до 2 миллионов токенов. Кроме того, команда разработчиков приветствует обратную связь от пользователей с целью дальнейшего быстрого совершенствования возможностей Gemini и повышения его полезности. Активное стремление к получению обратной связи подчеркивает итеративный характер разработки AI и ориентированность Google DeepMind на потребности пользователей, где реальный опыт использования и отзывы играют ключевую роль в определении будущего развития моделей.
Заключение
Анонс Gemini 2.5 Pro Experimental представляет собой значительный прогресс в области искусственного интеллекта. Модель демонстрирует передовую производительность в различных бенчмарках, обладает улучшенными способностями к рассуждению и программированию, поддерживает мультимодальность и имеет увеличенное окно контекста. Особого внимания заслуживает интеграция "думающих" способностей, позволяющих модели анализировать свои мысли перед ответом, что приводит к повышению точности и эффективности. Планы по дальнейшему развитию семейства Gemini, включая интеграцию способностей к рассуждению во все модели и увеличение окна контекста Gemini 2.5, указывают на долгосрочную стратегию Google DeepMind в области создания все более мощных и универсальных AI-систем. Достижения в Gemini 2.5, особенно в области рассуждения и размера окна контекста, свидетельствуют о продолжающейся тенденции к созданию более мощных и универсальных AI-моделей, способных решать все более сложные задачи реального мира.