Вопреки распространенному мнению, не все генеративные модели для ИИ требуют глубокого обучения, нейронных сетей и крупных языковых моделей (LLMS), многие считают синонимом генеративного ИИ, если не самого ИИ. Традиционные не статистические подходы ИИ, которые состоит из систем, основанных на правилах и типизированы символическими рассуждениями, столь же жизнеспособны, если не более, для определенных случаев использования генеративной модели.
Фактически, существуют генеративные модели, которые включают как нестатистические правила, так и вероятностные или статистические меры. По словам генерального директора Franz Янса Аасмана, некоторые из этих моделей ИИ используют «статистический подход, основанный на правилах. Если у вас есть правила, правила все еще могут сказать: «Если вероятность выше, чем это, давайте сделаем это. Если это меньше, давайте сделаем это ».
Правильно реализованные модели перехода состояний (STMS) иллюстрируют вероятностные подходы ИИ, основанные на правилах, которые преуспевают в приложениях синтетических данных и моделирования. Для этих вариантов использования выходы STM являются более объяснимыми, прослеживаемыми и воспроизводимыми, чем выходы чисто статистических языковых моделей — даже с получением добычи (RAG).
В то время как пользователи должны смягчить тенденции языковых моделей к галлюцинации при ответе на вопросы (например, как финансовые рынки будут реагировать на определенные сценарии), подходы к созданию синтетических данных — например, STM и других методов — могут имитировать эти сценарии для более надежного понимания.
Synthea Corporation Miter, генератор синтетических данных, в значительной степени используемый для генерации данных о пациентах в здравоохранении, опирается на STM. Выходные данные Synthea основаны на данных от реальных пациентов, статистически похожи на эти данные, но все же искусственно генерируются без машинного обучения. Таким образом, он не содержит никаких PII или конфиденциальных данных.
Конечно, существует несколько подходов к созданию синтетических данных, некоторые из которых используют глубокие нейронные сети. Тем не менее, включение SNTHEA в STM иллюстрирует, что генеративные модели не нуждаются в нейронных сетях, намекая на более широкие возможности методов генерации синтетических данных.
«Подумайте о таких случаях, как клинические испытания, где есть новые препараты, которые они хотят проверить», — прокомментировал Бретт Вуджек, главный ученый для данных с отделом искусственного интеллекта и машинного обучения в SAS R & D. «Клинические испытания очень дороги. Получение медицинских данных очень ограничено; Вокруг этого есть проблемы с конфиденциальностью. Методы генерации синтетических данных могут ускорить эти усилия по развитию, подавая более репрезентативные и соответствующие данные в эти усилия, без затрат или нарушения каких -либо проблем с конфиденциальностью ».
Деконструирование STMS
Системы STM тщательно изучают различные состояния — и отношения между ними — что сущность, как пациент, проходит. Цель состоит в том, чтобы определить вероятность того, что сущность начнется в одном состоянии, и в конечном итоге достигнет другого таким образом, который является последовательно предсказуемым. Например, «у вас есть много штатов, в которых вы можете быть как личность», сказал Аасман. «Вы можете иметь диабет, гипертония. Вы можете иметь значение крови выше определенного значения ».
Оценивая, как часто люди переходят через эти различные государства, можно установить правила о том, какие штаты они, вероятно, пройдут. В конечном счете, эти правила становятся основой для способности генерировать новые или синтетические данные, которые идентичны данным существующего набора данных, но не имеют PII или других конфиденциальных данных. Эта же парадигма применима к любой организации для разработки других типов синтетических данных.
Многие методы синтетических данных, в том числе на основе правил, таких как STMS, предназначены для вариантов использования моделирования. Они могут сделать то, что Вухек назвал «синтетическими клиентами», чтобы проверить новые слои на маркетинговые усилия, сценарии лечения пациентов и многое другое. Эти синтетические данные проявляются эффективно моделируют клиентов и то, как они ведут себя в этих ситуациях.
В качестве альтернативы, организации могут передавать данные клиентов в языковую модель, обосновать его ответ через RAG или какую -либо другую форму быстрого увеличения и попросить модели предсказать, как клиенты будут взаимодействовать со сценариями лечения или маркетинговыми стратегиями. С помощью синтетических данных организации могут моделировать каждый аспект набора данных, моделировать его надлежащим образом и посмотреть, как это реагирует на «новый продукт или процесс, на котором вам нужно получить представление, прежде чем вы добавите его в дикую природу», — сказал Вухек.
Синтея
Synthea вызывает подход STM в сочетании с картированием клинической помощи (пациентов с государствами) для создания полностью анонимных синтетических наборов данных. Организации здравоохранения могут использовать эти синтетические данные для выполнения аналитики для улучшения диагностики и ухода — без ущерба для соответствия нормативным требованиям, конфиденциальности данных и безопасности данных.
С этой основанной на правилах не статистической структуре ИИ одна «считает, как часто вы переходите от одного штата к другому», объяснил Аасман. «Сколько раз люди с гипертонией получают инсульт. Вы ставите каждое состояние, которое вы можете найти в здравоохранении, государство, которое я принимаю аспирин. У меня есть инсульт. У меня гипертония. Это состояние. Они проходят через срок службы пациента и переходят из состояния, чтобы утверждать, что у вас есть в своей модели, и подсчитывают, как часто это происходит ».
С помощью этого и других подходов к генерации синтетических данных существует мало ограничений на то, что можно смоделировать. Цифровые двойные приложения в производстве, в которых организации создают реплики реальных систем и определяют, как их оптимизировать перед тем, как поместить их в производство, обеспечиваются методами для предоставления синтетических данных. С помощью этих приложений пользователи могут видеть, как оптимизировать процедуры, которые они не могут сделать, запрашивая языковые модели, независимо от того, сколько подсказок дополняется.
Правила и вероятность
Как только различные состояния сущности определены в рамках парадигмы STM, пользователи разграничивают — и модели — специфику о том, как сущность переходит через эти состояния. Например, переход может включать погоду от солнечной к облачно. Но более детально, есть подробности о том, как и когда происходят переходы, которые выражаются по правилам. «Может быть, вы не можете пройти слишком много потребления соли до гипертонии, но сначала вам нужно пройти через что -то еще», — сказал Аасман.
Статистический аспект STMS объясняется понятием вероятности или вероятностью перехода сущности между различными состояниями. Например, в конкретные типы дней (например, когда ветер движется выше определенной скорости), может быть 40 -процентная вероятность перейти от облачного к солнечному дню.
«Вы можете напрямую перевести это в болезни», — сказал Аасман. «Вы можете представить, что у вас есть гипертония, и вы принимаете определенное лекарство, и у вас есть 90 -процентная вероятность, что вы находитесь в систолическом состоянии верхнего предела». Другие соображения, смоделированные в STM, включают изменения с течением времени, которые могут происходить в циклах или дискретных шагах.
Немного обоих
Системы STM заслуживают внимания, потому что они являются еще одной демонстрацией выносливости нестатистического ИИ в эпоху моделей фундамента. Более того, они подтверждают, что существует более двух форм ИИ-статистического и не статистического-и что основанные на правилах или не статистические методы могут поддерживать статистические приложения ИИ. Тем не менее, важно понимать жизнеспособность этих форм ИИ, а также гибридные методы, такие как STMS и байесовские модели, полностью основаны на случае использования. Одна из этих методологий не лучше, чем другие.
Языковые модели являются оптимальными для некоторых приложений AI Enterprise. Существует также несколько чисто статистических методов генерации синтетических данных. Объединение этих типов ИИ вполне может быть предвестником будущего его использования в развертываниях предприятия. Вуджек суммировал эту возможную реальность как такую, в которой «то, что мы обычно видим, и, если вы думаете об этом, то, что имеет смысл, такова, что любая заданная проблема обычно требует комбинации этих подходов».
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Jelani Harper работал аналитиком, руководителем исследований, консультантом по информационным технологиям и журналистам более 10 лет. В течение этого времени он помогал бесчисленным поставщикам и публикациям в области управления данными, разрабатывать, сочинять и поместить … Подробнее от Jelani Harper