Слопваттинг: новейшая угроза для вашего сгенерированного AI кода

Разработчики программного обеспечения все чаще используют ИИ для создания кода, тенденция, которая не удивительно, учитывая растущие требования, которые приносят их для создания продуктов и быстрее вывести их в дверь.

Исследование в прошлом году, проведенное GitHub, показало, что 97% опрошенных программистов заявили, что в какой -то момент они используют инструменты кодирования ИИ. Аналогичный опрос, посредством переполнения стека в 2024 году, показал, что 76% из 65 437 разработчиков заявили, что они либо используют, либо планируют использовать такие инструменты. Список причин растет, начиная от повышения производительности и повышения качества кода до более высокой отладки до большей последовательности между командами.

Тем не менее, из-за обоюдоостровую природу Меча, существует риски, включая надежность кода, уязвимости безопасности и технический долг, который может замедлить процесс и повысить расходы, согласно Legit Security, компании по управлению положениями безопасности (ASPM).

Другим риском является то, что крупные языковые модели (LLMS), как известно, с тех пор, как Openai впервые выпустил CHATGPT в 2022 году, создаст «галлюцинации», неправильные или вводящие в заблуждение результаты. Для большей части мира это означает, что ответ на подсказку может исказить финансовые числа, включать неверную информацию в эссе, или, в одном известном случае, — составить судебные цитаты, которые адвокат использовал в судебном зале.

Для разработчиков это может означать генерирование ссылок на библиотеки программного обеспечения, модули или другие пакеты кодов, которых на самом деле не существует. Это не новое явление. Безопасные фирмы и аналитики знали об этом некоторое время.

Остерегайтесь словных квадратных

Тем не менее, это снова поднимается благодаря акценту на атаку цепочки поставок, которая может быть запущена в репозиториях кода за счет использования этих галлюцинаций, которые имеют красочное название-«Слопватирование»-и недавнее исследование исследователей в трех университетах, в котором описывается, как это может быть сделано.

Название-это игра на известном киберафровом «опечатках», где плохие актеры регистрируют вредоносные домены с именами, которые очень похожи на законные сайты в надежде, что разработчик совершит орфографическую ошибку и непреднамеренно оказывается на фальшивом сайте.

В случае Slopsquatting актер угрозы может создать вредоносную пакет, которая использует название несуществующей библиотеки, созданной LLM, и поместить его для загрузки в популярном хранилище кода, такого как GitHub, Python Package Index (PYPI) или NPM, в надежде, что программист захватит его за работу.

Аналитики IDC писали о таких угрозах в прошлом году, отметив, что «галлюцинация пакета создает новые возможности для актеров угроз для установления вредоносного кода в цепочках поставок программного обеспечения и добычей для разработчиков, которые используют генеративный ИИ для написания кода».

Исследования на «зарождающихся этапах»

Исследователи из Техасского университета, Сан -Антонио, Университета Оклахомы и Вирджинии Tech пошли глубже, утверждая, что большинство исследований по галлюцинациям ИИ были сосредоточены на тех работах на генерации естественного языка и предсказаниях, таких как суммирование и машинный перевод. Исследования их в генерации кода «все еще находятся на зарождающихся этапах», написали они.

Для их работы по пакетным галлюцинациям в коде Python и JavaScript исследователи проверили 16 популярных моделей генерации кодов, таких как CHATGPT-4, DeepSeek, Codellama, Claude, Mistral и OpenChat, и использовали два набора данных, чтобы почувствовать разбор проблемы. LLMS сгенерировала 576 000 образцов кода Python и JavaScript, из которых 19,7% рекомендуемых пакетов не было.

Итак, будут ли модели повторять галлюцинации в том же пакете? Используя коллекцию из 500 подсказок, которые создали галлюцинации пакетов, они повторяли запросы 10 раз для каждой подсказки и обнаружили, что 43% галлюцинаций пакета повторялись во всех 10 запросах, и в 58% случаев пакет повторялся более одного раза в 10 итерациях.

Результаты теста показывают, что «большинство галлюцинаций представляют собой не просто случайные ошибки, а повторяемое явление, которое сохраняется в разных итерациях», — пишет исследователи. «Это важно, потому что постоянная галлюцинация более ценна для вредоносных актеров, стремящихся использовать эту уязвимость и делает вектор атаки галлюцинации более жизнеспособной угрозой».

Другое интересное примечание из исследования заключалось в том, что большинство моделей смогли обнаружить свои собственные галлюцинации более 75% случаев, когда исследователи писали, что это указывало на то, что «эти модели имеют неявное понимание своих собственных генеративных моделей, которые можно использовать для самосовершенствования, является важным выводом для разработки стратегий смягчения».

Ай -задача для разработчиков

Исследование и реклама, которую получает угроза словного квадрата, являются важным напоминанием для разработчиков о медицинской помощи, необходимой им при использовании ИИ для генерации кода. Sonatype является одним из растущего числа поставщиков на рынке анализа программного состава (SCA), который, как ожидается, будет расти с 328,84 млн. Долл. сша в прошлом году до почти 1,7 млрд. Долл. сша к 2033 году. Инструменты SCA автоматизируют процесс идентификации и управления компонентами с открытым исходным кодом.

Митчелл Джонсон, директор по разработке продуктов в Sonatype, сказал новому стеку, что использование ИИ в разработке программного обеспечения возвращается, когда открытый исходный код был новым — «своего рода технологии Outlaw» — о которых разработчики были предупреждены. Теперь большинство программного обеспечения включает в себя элементы с открытым исходным кодом.

«ИИ — это то, где был, скажем, с открытым исходным кодом 20, 25 лет назад, где организации просто погружаются в него пальцы», — сказал Джонсон. «Но на самом деле разработчики всегда опережают кривую, потому что мы заставляем разработчиков быть более продуктивными, быть быстрее, поставляться быстрее, отправлять более высокое качество. Более быстрее, лучше, дешевле движет нас. К сожалению, плохие актеры понимают это, и они действительно умны».

Проблема заключается в том, что ИИ облегчает некоторое давление на программистов, которым говорят, чтобы идти быстро, и часто безопасность оказывается в стороне. Попросив вице -президентов по инженерным и развитию о целях за год, «вы просто не слышите« безопасность »очень часто», — сказал он. «Вы слышите:« Доставьте эту штуку вовремя, предоставите эту вещь с бюджетом, предоставите это инновации, выберите это расходы », но вы просто не слышите безопасность. Нельзя сказать, что разработчики не думают об этом. Мы видим это все больше и больше, но в целом, нет. Инновация и скорость происходят слишком быстро».

Кейси Эллис, основатель Bugcrowd, сказал новому стеку, что разработчики «стимулирование» — это «заставить работу работать», а не «убедиться, что вещь не делает все вещи, которые она потенциально не должна». Когда это смещение существует, существуют подобные вопросы, и [when] Вы добавляете ускорительную функцию, такую ​​как Code, сгенерированный AI, такие атаки, как Slopsquatting, являются естественным побочным продуктом ».

Необходимость подтвердить

Даже с помощью, которую предоставляет ИИ, ответственность за разработчики все еще находится в разработчиках, чтобы проверить свой код, чтобы гарантировать, что в нем нет ничего злонамеренного. Джонсон сравнил его с клятвой инженера: не наведите вреда коду.

«Вы должны нести ответственность за каждую строку кода, которая регистрируется — за качество его, его безопасность, его функциональность, его производительность», — сказал он. «И вы не можете сказать:« Ну, ИИ сказал мне ». Как инженеры, это проще, чем когда-либо, выпускать код с этими большими языковыми моделями и этими инструментами, но мы обязаны такой же обязанностью заботиться о том, что мы не проверяем небезопасную или нефункциональную код.

Разработчики не могут слепо доверять тому, что генерирует ИИ, сообщили несколько профессионалов безопасности.

«Большинство разработчиков знают, что ИИ может совершать ошибки, но многие все еще слишком доверяют результатам и не всегда проверяют скрытые проблемы», — сказал новый стек Дж. Стивен Кауски, полевой технический директор Slashnext Email Security+. «Легко попасть в скорость и удобство, но это может привести к отсутствию недостатков безопасности или использования поддельных пакетов. Лучшая защита — использовать автоматизированные инструменты, которые проверяют зависимости и код для проблем, и всегда просматривать, что предлагает AI, прежде чем использовать его».

Будет важно использовать такие средства защиты, как разработчики расширяют использование ИИ. Джонсон из Sonatype сказал, что он ожидает, что генеративный ИИ скоро начнет разделять тех организаций и программистов, которые могут контролировать и управлять технологиями от тех, кто не может.

«Действительно, действительно хорошие разработчики, которые могут бросить вызов машине, которые понимают, что выходит, если это правильно или если это неправильно, видят, что геометрическая выгода в производительности», — сказал он. «Вы увидите определенные предприятия, которые уже имели хорошие практики безопасности и инженерии, где они работали вместе, становятся еще лучше. И те, которые были слабыми, будут еще дальше позади и будут иметь серьезные проблемы, нарушения. Он будет отделять и отточить имущество от несущих в организационном и индивидуальном».

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Джеффри Берт был журналистом более трех десятилетий, последние 20 с лишним лет охватывали технологии. В течение более 16 лет в Eweek и за годы, как в качестве независимого технического журналиста, он рассмотрел все из данных … Подробнее от Джеффри Берта

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *