Во вторник Google представила Gemini 2.5, новую семью моделей рассуждений искусственного интеллекта, которая делает паузу «думать», прежде чем ответить на вопрос.
Чтобы начать новое семейство моделей, Google запускает Gemini 2.5 Pro Experimental, мультимодальную модель ИИ, которая, как утверждает компания, является ее наиболее интеллектуальной моделью. Эта модель будет доступна во вторник в платформе разработчиков компании, Google AI Studio, а также в приложении Gemini для подписчиков для AI-плана компании AD на 20 долларов в месяц, Gemini Advanced.
Двигаясь вперед, Google говорит, что все его новые модели искусственного интеллекта будут обладать разумными возможностями.
С тех пор, как Openai запустила первую модель рассуждений с искусственным интеллектом в сентябре 2024 года, O1, технологическая индустрия участвовала в том, чтобы соответствовать или превзойти возможности этой модели со своими собственными. Сегодня у Anpropic, Deepseek, Google и Xai есть модели рассуждений с искусственным интеллектом, которые используют дополнительную вычислительную мощность и время для проверки фактов и разум с помощью проблем, прежде чем выдать ответ.
Методы рассуждения помогли моделям ИИ достичь новых высот в математике и задачах кодирования. Многие в технологическом мире считают, что модели рассуждений станут ключевым компонентом агентов искусственного интеллекта, автономных системах, которые могут выполнять задачи в основном вмешательство Сан -Человека. Тем не менее, эти модели также дороже.
Google утверждает, что Gemini 2.5 Pro превосходит свои предыдущие модели AI Frontier и некоторые из конкурирующих ведущих моделей искусственного интеллекта на нескольких тестах. В частности, Google заявляет, что разработал Gemini 2.5, чтобы преуспеть в создании визуально убедительных веб -приложений и агентских приложений кодирования.
Google говорит, что на эталонном измерительном редактировании кода под названием Aider Polyglot Gemini 2.5 Pro набрал 68,6%, опередив ведущие модели ИИ от Openai, Anpropic и Deepseek.
Однако, на другом тестовом измерительном агентском кодировании, Swe-Bench подтвердил, Gemini 2,5 Pro получили 63,8%, опередив Openai’s O3-Mini и Deepseek R1, но снижая Sonnet Antropic Claude 3,7, которая набрала 70,3%.
На последнем экзамене Humanity — мультимодальном тесте, включающем тысячи краудсорсинговых вопросов по математике, гуманитарным наукам и естественным наукам, — Google говорит, что Gemini 2.5 Pro получили 18,8%, опередив ведущие модели искусственного интеллекта от Openai, Anpropic и Deepseek.
Для начала, Google говорит, что Gemini 2.5 Pro отправляется в окно токена 1 миллион токенов, что означает, что модель ИИ может принять примерно 750 000 слов за одну подсказку. Это длиннее, чем вся серия книг «Властелин колец». Тем не менее, Google говорит, что скоро будет окно контекста токена 2 миллиона.
Google экспериментировал с моделями рассуждений с искусственным интеллектом — ранее выпустив «мыслительную» версию Gemini в декабре, но Gemini 2.5 представляет собой наиболее серьезный конкурент компании в серии моделей Openai O.
Google не поделился ценой API для Gemini 2.5 Pro.