Создание неизменного «семейного древа» для данных обучения искусственного интеллекта

Гонка для каждой компании, которая обнимает ИИ, заставляет их объединить множество и часто непоследовательно документированных наборов данных в своем обучении, поднимая юридические и этические вопросы о том, где фактически возникли данные.

Аудит инициативы по проведению данных MIT более 1800 наборов данных показал, что компании не могут надежно отслеживать, откуда поступают данные их обучения искусственным интеллекту. Фактически, исследователи пришли к выводу, что подлинность, а также практика согласия и происхождение, разбиты в ИИ, в результате чего компании без прозрачности данных обучения необходимы для понимания ограничений их моделей ИИ.

Судебные иски, такие как иск New York Times против OpenAI и развивающиеся правила, такие как Закон о AI ЕС, повышают давление для компаний, использующих ИИ, чтобы получить право прозрачности данных. Но доказывание о происхождении данных обучения не обязательно четко вырезано, поскольку обширные и разнообразные наборы данных объединяются ранее невообразимыми способами.

Техасский провайдер блокчейна Hedera работает с Eaw Startup Lab, а также производителями чипов Nvidia и Intel, чтобы предоставить надежную запись происхождения данных.

«Это интересно видеть, что все это происходит [with AI]но это просто происходит так быстро, что мир пытается наверстать упущенное,-сказал Лимон Бэйрд, соучредитель Hedera, в интервью.-Я думаю, что здесь есть фантастический потенциал навсегда, но также и довольно много потенциала для чего-то, что нужно пойти не так, и поэтому важно сделать ряд вещей, чтобы иметь безопасность для ИИ ».

Дело не только в том, что данные могут быть использованы для болезни, но это может нарушать правила авторского права или разрешения. И когда наборы данных объединены, есть «все это семейное дерево от того, откуда пришел ваш ИИ, и все разные [datasets] Это повлияло на это », — сказал он.

«Если вы внезапно обнаружите, что один из этих наборов данных — это плохо, вы должны выяснить:« Ну, как далеко мне нужно вернуть мой ИИ, чтобы добраться до того, что не плохо? », — сказал он. «И если люди смотрели на то, что некоторые из этих наборов данных и подписали его, вам нужно знать, ну, кто именно это посмотрел, и можете ли вы доказать, что они подписали на это?»

Его решение проблемы начинается с архитектуры отслеживания происхождения на чипе. Как NVIDIA, так и Intel используют надежную среду исполнения (TEE) для надежных секретных ключей. Когда модель искусственного интеллекта обучается, TEE использует свой личный ключ подписания для генерации цифровой подписи, которая свидетельствует о происхождении модели. Эта подпись криптографически доказывает, что модель была создана из определенного набора данных на определенном чипе.

Далее находится цифровая нотариус и система сертификатов под названием Verifieble Compute, что EQTY Lab, созданная с Intel и NVIDIA, для изоляции конфиденциальных операций ИИ и создания защиты от каждых защиты каждого объекта и кода данных, используемых в обучении и выводе искусственного интеллекта. Серия свидетельств, происходящих из тройников, может быть использована для описания целых трубопроводов ИИ.

Технология создает подробное вычисление, которое криптографически связывает входные данные, вычисления и выходы каждого конкретного сеанса, создавая проверку того, что именно делалось каждый раз. Эти сертификаты могут охватывать различные процессы, вычислительные среды и то, что было сделано различными организациями, создавая сквозную запись линии данных. Подлежащий проверке вычисления также могут обеспечить соблюдение бизнес -полисов и требований по соблюдению нормативных требований по данным.

Цифровая подпись данных, наряду с метаданными о учебных данных и процессе, затем записывается в распределенной книге, такой как Hedera с открытым исходным кодом. Это обеспечивает неизменную, временную и общедоступную запись о каждой операции, выполненной в данных. Система также может отслеживать «семейное древо» моделей, в том числе случаи, когда модели объединяются или далее обучаются, путем цепочки записей о происхождении.

Baird считает блокчейн идеальным способом доказать происхождение данных.

«Вы могли бы думать о том, что Хедера является большой рекламной щитом, и любой в мире может прийти и написать что -то на ней, и как только вы написали его, мы гарантируем, что он никогда не будет стерт, когда -либо, для остальной части истории человечества. И мы поместим небольшой временной лагерь рядом с ним, который говорит, что он не был написан там. Никто не сможет прийти и измениться, и это мало времени, что это было в следующем. что весь мир может читать и никогда не может быть изменен, и вы можете доверять времена в нем ».

Блокчейн предоставляет:

  • Прозрачность: Общественная книга позволяет любому проверить происхождение набора данных или модели ИИ.
  • Неизменность: После написания его нельзя изменить или стерто. Запись постоянная и защищенная от подбранных.
  • Децентрализация: Используемые несколькими независимыми организациями, ни один из них не может изменить записи, что снижает риск злонамеренных действий.
  • Временные метки: Каждая запись имеет надежный отчет о том, когда это произошло.
  • Нет единой точки неудачи: Пока большинство участников честны, данные остаются безопасными и точными.
  • Поддержка сложных цепочек происхождения: Он может отслеживать сложные истории, например, когда модели объединяются, переподготовлены или когда разрешения предоставляются и отозваны.

«Вы точно знаете, что весь мир видит то же самое, и вы точно знаете, в какую дату это произошло. И никто никогда не может лгать и притворяться, что что -то произошло в прошлом, когда это действительно не было. Они не могут заполучить это и сказать:« О да, это было сделано раньше », или« эта штука была сделана позже », и претендует на это, это было сделано раньше», — сказал Бэрд.

«Вы можете узнать, что ваш ИИ заслуживает доверия. На горе Рашмор написано, что для всего мира это заслуживает доверия.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Сьюзен Холл является редактором спонсора нового стека. Ее задача — помочь спонсорам достичь самых широких читателей для их предоставленного контента. Она написала для нового стека с первых дней, а также сайтов … Подробнее от Сьюзен Холл

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *