Новые инструменты помогают разработчикам LLM выбирать лучшие данные перед тренировкой

При разработке новой крупной языковой модели (LLM) выбор правильных данных обучения имеет решающее значение. «То, на что вы тренируете свою модель, будет определять совершенно разные способности», — сказал Ян Магнуссон, исследователь искусственного интеллекта из Вашингтонского университета и Институт ИИ Аллена (AI2) (AI2).

Данные обучения ИИ влияют на эффективность, предвзятость и точность. «Плохо выбранные наборы данных могут усиливать смещения, разбавить выполнение задач и требовать масштабных нижестоящих исправлений», — заявил Sreekanth Gopi, основатель Neuroeart, Sreekanth Gopi Gopi.

Благодаря бесчисленным массовым наборам данных или корпусам на выбор, как вы узнаете, что даст наилучшие результаты? Тестирование тщательно требует значительной вычислительной мощности, которая быстро становится стоимостью. «По мере того, как модели растут больше, стоимость их обучения», — добавил Гопи.

«Предварительно тренировочные LLMS, даже более мелкие модели, ресурсоемкие по времени и вычислите»,-сказал Randall Hunt, технический директор компании Cloud Native Services Company Caylent Amazon Web Services. «Точные прогнозы [return on investment] На дополнительных данных предварительного обучения могут сэкономить на потраченных впустую модельную обучение ».

Чтобы решить это, в апреле AI2 выпустил DataDecide — набор моделей, контрольных показателей и рекомендаций для руководства выбором наборов данных. «DataDecide является наиболее обширным открытым размахом решений о данных по шкалам и случайным семенам на сегодняшний день», — написал Магнуссон в блоге AI2.

Исследование показало, что разработчикам не нужны большие бюджеты, чтобы сделать обоснованный выбор данных обучения. Маленькие эксперименты могут быть удивительно точными. «Вы можете сделать прогнозы о том, что будет лучшим выбором, используя удивительно небольшой вычисление», — сказал нам Магнуссон.

Тестирование данных обучения: обычно специально

На сегодняшний день предварительные решения данных были связаны с большим количеством проб и ошибок. Почти все будут использовать набор данных общего сканирования, общедоступного архива веб -страниц, — сказала охота Caylent’s Hunt. «После этого люди склонны расходиться в зависимости от того, что они надеются, что модель сделает».

Другие согласны с тем, что выбор данных был оставлен пользователю для выяснения. «Несмотря на масштаб современных моделей, процесс выбора данных остается удивительно специальным», — сказал Гопи. Команды часто используют открытые наборы данных без эмпирического тестирования, полагаясь на интуицию и прошлый опыт.

Кейт Пижановский, инженер из AI Solutions в Minio, системе хранения объектов, сообщил новому стеку, что раннее обучение включает в себя очистку данных, подготовку векторных баз данных и проверку безопасности в каждом документе. В настройках предприятия это часто начинается с организации внутренних данных.

По словам Магнуссона, самый строгий способ проверить данные предварительного обучения-тренироваться в полном масштабе, эталонный и повторяющийся, но это не практично. Вместо этого гораздо более экономически эффективно проводить мелкие эксперименты до начала полного обучения.

«Это позволяет нам создавать анализ, характеризуя взаимосвязь между объемом вычислителя, чтобы сделать прогноз о том, какой набор данных предварительного обучения для обучения»,-сказал он.

Чтобы оценить производительность модели, исследователи ИИ используют тесты, такие как MMLU, ARC, Hellaswag и Socialiqa, для тестирования LLMS по различным задачам, таким как рассуждения, математика, символическая интерпретация, социальное интеллект и многое другое. Наборы данных, которые хорошо работают в мелких критериях, часто преуспевают в масштабе. «Вы соответствуете отношениям от того, как они выполняются на нижестоящих задачах», — сказал Магнуссон.

Ключевой вывод: сниженные расходы на обучение LLM

AI2 протестировал DataDecide в широком диапазоне наборов данных и размеров моделей, используя 10 критериев для оценки того, насколько хорошо небольшие модели предсказывают крупномасштабную производительность. Результаты не разрушаются, но они представляют полезные выводы для разработчиков и исследователей ИИ.

С одной стороны, AI2 обнаружил, что небольшие модели (около 150 миллионов параметров) могут с удивительной точностью предсказать крупномасштабные результаты. Некоторые критерии достигли более 80% точности принятия решения, используя всего 0,01% от вычисления по сравнению с моделями миллиарда параметра.

Поскольку в экспериментах с малой моделью используются меньше вычислителей, чем другие методы, разработчикам не нужно запускать полномасштабные тесты только для прогнозирования результатов. «Обещание этой работы — более низкие вычислительные затраты во время обучения», — сказал Пижановский.

AI2 обнаружил, что законы масштабирования не превзошли более простой метод ранжирования наборов данных с помощью результатов малой модели. Законы масштабирования, более сложный и более дорогостоящий метод тестирования, направлены на то, чтобы предсказать, как повышается точность с размером модели. На данный момент, «просто придерживайтесь подъема в одном масштабе», посоветовал Магнуссон.

Полученные данные должны дать LLM Devs Devs для размышлений, Хант сказал: «Существуют законы о масштабировании, которые были получены из эмпирических исследований между объемом данных, вычислением ресурсов и эффективностью. Исследования AI2 указывают на то, что мы можем захотеть вернуться к некоторым из этих предположений».

Вычислительные потребности сильно варьируются в зависимости от теста. В некоторых случаях точность плато рано, что требует гораздо меньше вычислителей, чем ожидалось. Например, Arc Easy, тест с научными вопросами на уровне класса, нуждается в минимальных ресурсах. Напротив, Hellaswag, сосредоточенный на рассуждении и завершении предложения, гораздо более требовательна.

Выводы AI2 особенно важны для небольших лабораторий и стартапов, где учитывается каждый графический час. «Одним из самых дорогих этапов развития языковой модели всегда были эксперименты перед тренировкой»,-сказал Гопи.

Выбор наборов данных для задач с точной настройкой AI

Исследования AI2 также могут поддерживать тонкую разработку модели. На этом этапе выбор данных становится стратегической проблемой, сказал Гопи. «С практической точки зрения выбор лучших данных из начала снижает необходимость в сложных точно настройке и ресурсоемких исправлениях позже».

Часто предполагается, что больше учебных данных приводит к лучшей производительности, но это не всегда так. Каждый LLM имеет компромиссы, и больше данных обучения могут даже обеспечить уменьшающуюся доходность. Это одна из причин точно настроенных, модели, специфичные для конкретной задачи, находятся на подъеме. Gartner прогнозирует, что небольшие специализированные модели будут опережать большие три к одному к 2027 году.

«Если у организации есть несколько корпораций для обучения LLMS, и у них не хватает вычислительных средств для обучения 1-миллиарда или более параметров LLM на всех их корпорациях, то это исследование может помочь им выбрать корпорации, которые дадут наилучшие результаты»,-сказал Пиджановский.

DataDecide может помочь разработчикам определить, какие данные лучше всего обслуживают заданный вариант использования LLM — будь то для завершения кода, математики, рассуждений или художественного поколения. «Это помогает нам изолировать, какая информация наиболее полезна для развития способности в определенной задаче», — сказал Магнуссон.

В качестве бонуса, знание точно, откуда поступают ваши данные, помогает с соблюдением предприятий. «Обучение с нуля дает вам уверенность в том, что то, на чем вы обучались, основано на гарантированной реальности», — сказал Магнуссон. «DataDecide помогает вам получить полную картину критериев-и компромиссов».

Помогает ли это решить «мусор, мусор?»

Умные решения по данным кажутся актуальными для классической проблемы «мусора, мусора». LLM часто обучаются петабайтам неструктурированных, открытых данных, что затрудняет обнаружение ошибок, дезинформации, предвзятости, интеллектуальной собственности других людей или вредного содержания (он же, мусор).

Пиджановский отметил, что исследование AI2 помогает решать проблемы вверх по течению. «Он может быть использован для выполнения начального фильтра на корпусе или для проведения ряда небольших экспериментов, чтобы определить, является ли определенная коллекция документов достаточно хорошей для точной настройки LLM».

Тем не менее, DataDecide обслуживает только одну часть большего целого, отметил Hunt: «Это, в сочетании с другими методами обучения, может быть благом, но это не волшебное исправление».

Гопи повторил это чувство. «DataDecide облегчает избегать явно плохого выбора данных, но он не закрывает цикл по более глубоким проблемам качества данных», — сказал он. Связывание наборов данных с предсказательными результатами не автоматически переводится на этическую или долгосрочную ценность.

«DataDecide хорошо справляется с поверхностной сравнительной полезностью на раннем этапе, что позволяет системе сортировки для предварительных тренировок»,-добавил он. «Классическая мусор в« проблеме »становится менее случайной, но не полностью решена».

Разработчики могут использовать DataDecide, чтобы определить, какие данные поддерживают их конкретные цели ранее в процессе. «DataDecide помогает вам оценить оценки, сделать новые оценки, которые чувствительны к этим различиям в данных», — сказал Магнуссон. В некотором смысле это помогает обратно-инженерию, который входы действительно имеют значение, сначала тестируя результаты.

Слепые пятна остаются

Выбор правильных наборов данных для ваших предварительных данных-это решение, которое имеет значительные последствия для максимальной эффективности и точности ваших приложений, полученных из LLM.

«Поведение модели формируется в большей степени его обучающими данными, чем только архитектурой», — сказал Гопи. Неактуальные или избыточные данные могут привести к неэффективности и влиять на качество модели, делая описания учебных данных важной, но часто упускаемой из виду область для развития ИИ.

Устранение слабых наборов данных Раннее предотвращает потраченные впустую вычислитель и ускоряет инновации. До сих пор, однако, разработчикам не хватало надежного способа измерения качества своего выбора данных обучения. DataDecide заполняет этот пробел, помогая стандартизировать некогда информированный шаг в разработке модели.

Тем не менее, только выбор данных не решает более глубокие проблемы в отношении качества данных или архитектуры модели. «Инструменты выбора наборов данных — это один полезный инструмент из многих необходимых инструментов», — сказал Хант. «Для действительно более мощных моделей нам понадобится больше архитектурных методов, чем то, что у нас есть сейчас».

Пиджановский не полностью убежден: почему бы просто не использовать поколение поиска-августа (RAG)? «Это позволяет использовать все корпусы, не проведя все через LLM».

В условиях предприятия он видит серьезную проблему в сегментировании данных в различные корпорации, которые отражают различные навыки, которые должна изучать модель.

Существует также риск чрезмерного оптимизации для измеримых критериев, сказал Gopi, который тестирует результаты, а не на реальную производительность. Эти метрики не всегда отражают поведение в открытых, многоязычных или состязательных контекстах. «Без качественных обзоров, проверки предвзятости или репрезентативного анализа,-сказал он,-такие инструменты могут только частично снизить риски, связанные с данными».

Несмотря на то, что ни один инструмент не может решить все проблемы ИИ, DataDecide снижает барьер для принятия решений перед тренировкой с далеко идущим воздействием. Как сказал Хант TNS, «это не сильно меняет вещи, но это захватывающий набор выводов».

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Билл Доеррфельд — технический журналист и лидер API. Он является главным редактором блога Nordic APIS, глобального сообщества API, посвященного тому, чтобы сделать мир более программируемым. Он также является активным участником горстки … Подробнее о Билле Доерфельде

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *