Десять лет назад документы о глубоком обучении часто не считались заслуживающими доверия, потому что их ссылки не вернулись более года. В этом году мы отпраздновали 10 -ю годовщину двух работ, которые основали Generativeai на изображениях и в тексте. За последние 10 лет мы узнали: а) сила встраиваний представлять кратко и эффективно богатую семантическую информацию и б) силу предварительной подготовки на огромных количествах данных.
После посещения новейшей конференции Neurips, одной из самых престижных конференций по искусственному интеллекту и машинному обучению, я потратил более 100 часов, просматривая учебные пособия, сессии конференций и семинары. Вот мое главное предприятие ИИ.
От моделей машинного обучения до мировых моделей
В то время как пионеры искусственного интеллекта, которые возглавляли массовые языковые модели, такие как Openai, исчерпали доступные данные обучения, пьеса предварительной подготовки расширяется за пределы методов текста и изображений. Языковые модели предварительно обучены в таблицах, электронных таблицах Excel и т. Д. Это знаменует собой сумерки моделей машинного обучения и Dawn of World Models. Эти модели являются основой, которая представляет существующие знания и настраивается или динамически контекстуализирована для конкретных приложений.
Решение кодирования и математических задач
Непосредственная коммерческая ценность производства генерации кода с использованием моделей на основе большой языковой модели (LLM) оправдывает большой объем бумаг в Neurips. Примечательно видеть равное количество исследований по улучшению возможностей математической теоремы LLMS. автоматизация доказывания математической теоремы восходит к началу прошлого века, когда Хилберт спросил, есть ли алгоритм, который может автоматически доказать теоремы. Годель ответил на вопрос, приведя Тьюринга к Фонду компьютерных наук. Помимо академического вдохновения этой задачи, обучение LLMS о том, как доказать теоремы, помогает нам понять, как построить более качественные системы рассуждений. Точно так же, как обучение математике увеличивает интеллектуальную способность студентов, которые не обязательно могут быть математиками, математические возможности LLM помогают им улучшить другие задачи.
Chatgpt на чипе и волшебное число восемь миллиардов
В своем основном адресе Лидонг Чжоу из Microsoft Research отметил, что в ближайшее время можно увидеть чипы, которые в ближайшее время могут установить один триллион параметров. Традиционные модели используют арифметику с плавающей точкой, которая требует дорогостоящих множителей. Bitnet требует всего 1,58 бит на параметр и потребности таблиц поиска и добавки, которым требуется гораздо меньшая площадь поверхности на чипе. Хотя мы не смогли построить трансформаторы с 1-битными параметрами, мы все еще видим, что документы работают в этом направлении, которые работают с кусочками логических операций, что еще больше увеличивает вычисление на плотность площади. До тех пор исследователи работали с точной настройкой более мелких моделей, таких как Llama и Mistral, и сумели превзойти большие. Мистраль кажется более распространенным среди исследователей из -за ее разрешительной лицензии. Чтобы решить более сложные задачи, целая линия объединяется и объединяет специализированные LLMS. Эта технология стала более зрелой, и практические результаты были представлены в конкурсе в этом году. Этот метод обеспечивает доступный способ для предприятия решить сложные задачи.
Когда мы совершенствуем предварительную подготовку, пришло время подумать о агентах
Как победитель «Тест времени», Илья Сатскевер упомянула на церемонии награждения, что гиганты ИИ исчерпали данные в Интернете (данные ископаемого топлива). Они обращаются к моделям, которые могут повысить их мощность, выделяя больше вычислительного времени на время вывода. Этот вычислитель будет подпитывать агенты по рассуждениям, которые будут сотрудничать, чтобы решить более сложные проблемы. Hochreiter, в своем основном доме, поддерживал это направление, добавив, что нам нужны LLMS, которые должны торговать точность для скорости вывода, что указывает на то, что обновленный LSTM (называемый XLSTM) может быть таким вариантом.
С 10 000 футов в этом году Neurips сигнализирует о начале эры индустриализации ИИ после парадигмы других разрушительных технологий, таких как электричество, микрочипы и т. Д. Мировые модели здесь, чтобы остаться и расширяться. Расходы на одноразовый вывод быстро снижаются, достигнув 30 000 долларов сша за 1 триллион жетонов (размер учебных данных для моделей GPT-X Scale Models). Теперь, когда у нас есть быстрые и дешевые LLM, новая эра вывода на основе агента (также известная как рассуждения) растет, открывая ожидания от решения более продвинутых задач с риском того, что ИИ становится менее предсказуемым и контролируемым.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Николаос Василоглу является вице -президентом по исследованию ML в Relationalai. Он провел свою карьеру на построении программного обеспечения ML и ведущих проектах по науке о данных в области розничной торговли, онлайн -рекламы и безопасности. Он является членом сообщества ICLR/ICML/NEURIPS/UAI/MLCONF/KGC/IEEE S & P, имея … Подробнее от Nikolaos Vasiloglou