На этой неделе в ИИ: Может быть, мы должны игнорировать тесты ИИ на данный момент

Добро пожаловать в регулярную рассылку AI TechCrunch! Мы немного отправляемся в перерыв, но вы можете найти все наше освещение в области ИИ, включая мои колонки, наш ежедневный анализ и разбитые новости, в TechCrunch. Если вы хотите эти истории и многое другое в своем почтовом ящике каждый день, подпишитесь на наши ежедневные информационные бюллетени здесь.

На этой неделе стартап ИИ миллиардера Элона Маска, XAI, выпустил свою последнюю флагманскую модель ИИ, Grok 3, которая поддерживает приложения компании Grok Chatbot. Обученная около 200 000 графических процессоров, модель превзойдет ряд других ведущих моделей, в том числе от OpenAI, по критериям по математике, программированию и многим другим.

Но что на самом деле говорят эти тесты?

Здесь, в TC, мы часто неохотно сообщаем о эталонных цифрах, потому что они являются одним из немногих (относительно) стандартизированных способов улучшения модели искусственного интеллекта. Популярные тесты ИИ, как правило, проверяют эзотерические знания и дают совокупные оценки, которые плохо коррелируют с мастерством в задачах, о которых большинство людей заботятся.

Как отметил профессор Уортона Итан Моллик в серии постов на X после открытия Grok 3 в понедельник, существует «срочная необходимость в лучших батареях тестов и независимых испытательных органов». Компании по самоотдаче ИИ Самооценка чаще всего, как это упоминало Моллик, что делает эти результаты еще более жесткими, чтобы принять за чистую монету.

«Общественные тесты являются как« мех », так и насыщенными, оставляя много испытаний на ИИ, чтобы быть похожими на обзоры продуктов питания, основанные на вкусе», — написал Моллик. «Если ИИ имеет решающее значение для работы, нам нужно больше».

Там нет недостатка в независимых тестах и организациях, предлагающих новые ориентиры для ИИ, но их относительные достоинства далеко от урегулированного вопроса в отрасли. Некоторые комментаторы и эксперты ИИ предлагают выравнивать критерии с экономическим воздействием, чтобы обеспечить их полезность, в то время как другие утверждают, что усыновление и полезность являются конечными показателями.

Эта дискуссия может будтовать до конца времени. Возможно, вместо этого мы должны, как предписывает x пользователь Rooon, просто уделять меньше внимания новым моделям и критериям, за исключением крупных технических прорывов искусственного интеллекта. Для нашего коллективного здравомыслия это может быть не худшей идеей, даже если она вызывает некоторый уровень AI FOMO.

Как упоминалось выше, на этой неделе в ИИ идет перерыв. Спасибо, что придерживались с нами, читатели, через это американские горки. До следующего раза.

Новости

Кредиты изображения:Натан Лейн / Bloomberg / Getty Images

Openai пытается «безенсером» Chatgpt: Макс писал о том, как OpenAI меняет свой подход к развитию ИИ, чтобы явно охватить «интеллектуальную свободу», какой бы сложной или противоречивой ни была тема.

Новый стартап Мира: Новый стартап бывшего технического директора Openai Mira Murati, Thinking Machines Lab, намеревается создать инструменты, чтобы «заставить ИИ работать [people’s] уникальные потребности и цели ».

Grok 3 Cometh: Стартап Elon Musk AI, Xai, выпустил свою последнюю флагманскую модель ИИ, Grok 3 и представила новые возможности для приложений Grok для iOS и Интернета.

Очень лама конференция: Meta проведет свою первую конференцию разработчиков, посвященную генеративному ИИ этой весной. Конференция запланирована на 29 апреля, названная Llamacon после того, как Meta Llama Family of Generative Models Models AI, запланирована на 29 апреля.

ИИ и цифровой суверенитет ИИ и Европы: Пол профилировал OpenEurollm, сотрудничество между 20 организациями для создания «серии моделей фундамента для прозрачного ИИ в Европе», которое сохраняет «лингвистическое и культурное разнообразие» всех языков ЕС.

Исследовательская работа недели

Кредиты изображения:Jakub Porzycki / Nurphoto / Getty Images

Исследователи Openai создали новый эталон искусственного интеллекта, Swe-Lancer, который направлен на оценку мастерства кодирования мощных систем ИИ. Трингум состоит из более чем 1400 задач по разработке программного обеспечения, которые варьируются от исправлений ошибок и развертывания функций до технических предложений «на уровне менеджера».

Согласно Openai, наиболее эффективной модели искусственного интеллекта, сонета Claude 3,5 от Anpropic, набирает 40,3% на полном эталоне Swe-Lancer, что предполагает, что у ИИ есть довольно много способов. Стоит отметить, что исследователи не сравнивали новые модели, такие как O3-Mini или китайская компания AI Deepseek R1.

Модель недели

Китайская компания по искусству по имени Stepfun выпустила «открытую» модель ИИ, Step-Audio, которая может понять и генерировать речь на нескольких языках. Step-Audio поддерживает китайский, английский и японский и позволяет пользователям регулировать эмоции и даже диалект синтетического звука, который он создает, включая пение.

Stepfun-один из нескольких хорошо финансируемых китайских стартапов ИИ, выпускающих модели по разрешающей лицензии. Основанный в 2023 году, Stepfun, как сообщается, недавно закрыл раунд финансирования на сумму несколько сотен миллионов долларов от множества инвесторов, которые включают китайские государственные частные акционерные компании.

Захватить сумку

Кредиты изображения:Nous Research

Nous Research, исследовательская группа ИИ, выпустила то, что, по его утверждению, является одной из первых моделей ИИ, которая объединяет рассуждения и «возможности интуитивно понятных языковых моделей».

Модель, предварительный просмотр DeepHermes-3, может включать и выключать длинные «цепочки мышления» для повышения точности за счет некоторой вычислительной подъезда. В режиме «рассуждения» предварительный просмотр DeepHermes-3, аналогичный другим моделям искусственного интеллекта, «думает» дольше для более жестких проблем и показывает его мыслительный процесс, чтобы достичь ответа.

По сообщениям, Антропик планирует вскоре выпустить аналогичную архитектурную модель, и Openai заявил, что такая модель находится на своей ближайшей дорожной карте.

Разработка сайтов в Гомеле

Новости

Исследовательская работа недели

Модель недели

Захватить сумку

Похожие записи

Openai называет DeepSeek «контролируемым государством», требуя запретов на «PRC-производители» модели

OpenAI запускает грантовую программу в размере 50 миллионов долларов США, чтобы помочь финансировать академические исследования

Трамп заканчивает юридическую битву за запрет в Твиттере

Первый пост Сэма Бэнкмана из тюрьмы даже не хорош

Amazon дебютирует Ocelot, его первый квантовый чип

DeepSeek утверждает, что «теоретическая» прибыль 545%

Поскольку Deezer подходит к прибыльности, он разворачивает пользовательский алгоритм и другие новые функции

Meta приносит свой тест на распознавание лиц в Великобританию после получения больших пальцев от регулирующих органов

Tiktok, чтобы начать выдвигать янтарные оповещения для пользователей для ваших каналов

Google завоевывает свой бизнес в британском искусственном интеллекте с резиденцией данных Agentspace и многое другое

Снова и снова клиенты NSO Group продолжают ловить свои шпионские операции

TechStars увеличивает финансирование стартапа до 220 000 долл. США, отражая структуру YC

Вам тоже может быть интересно:

Здание в огненных районах

Поиск «Pura Vida» в Коста -Рике

Контракт НАСА продвигает студентов в технологии в центре внимания

Аспиранты кибербезопасности занимают 25 -е место в соревнованиях Miter’s ECTF 2025

Студенты -медики получают резидентуру «марширующие заказы»

Мой кооперативный концерт: Эшвин Томас

Новый учебный год приветствует новый факультет

Инженерные студенты-вводы стартапы

Студенты -медики изучают рак с врачом католического здравоохранения

Студенты -инженеры получают приз на симпозиуме Create

Студенты «погружаются» в престижный хакатон

«Предвидя» более инклюзивные очки