Генерация кода ИИ: доверие и проверяйте, всегда

Sonarsource спонсировал этот пост. Insight Partners является инвестором в Sonarsource и TNS.

Мы находимся на рассвете новой эры в разработке программного обеспечения. Искусственный интеллект больше не просто инструмент; Это становится настоящим сотрудником в творческом процессе написания кода. Этот сдвиг обещает разблокировать беспрецедентную производительность и инновации. Однако, как и любой новый мощный инструмент, этот сотрудничатель ИИ требует новой философии управления. Чтобы по -настоящему использовать свой потенциал, не унаследовав его недостатки, мы должны принять строгий принцип: доверять и проверить.

Это не о подавлении инноваций. Речь идет о том, чтобы включить это ответственно. Когда мы более глубоко интегрируем ИИ в жизненный цикл разработки программного обеспечения, мы должны просмотреть впечатляющие баллы и напрямую оценить безопасность, надежность и обслуживаемость кода, который он производит.

Помимо «работает ли это?»

Непосредственная привлекательность моделей крупных языков (LLMS) — их потрясающая способность генерировать функционально правильный код. Модели высшего уровня могут решать сложные алгоритмические проблемы и создавать синтаксически действительный код с высокими показателями успеха. Это мастерство способствует их быстрому усыновлению. Но критический вопрос для любой команды профессионального развития не просто «работает?» Это «готово ли он?»

Вот где энтузиазм должен быть смягчен с осторожностью. В то время как LLM отлично подходят для решения проблем, содержащих проблемы, им часто не хватает общей картины, что приводит к значительным скрытым рискам.

Одной из самых насущных проблем является безопасность. Фактически, новое исследование Sonar, которое анализирует код ИИ, созданный из известных моделей поставщиков, таких как OpenAI, антропный и мета показывает, что сегодняшние LLM имеют глубокую слепую пятно в этой области. Например, для ведущих LLM, таких как GPT-4O и Llama 3.2 90b, мы обнаружили, что ошеломляющие от 60 до 70% уязвимостей, которые они вводят, имеют «блокатор» (максимально возможный рейтинг). Это не вопрос случайных ошибок, а структурная слабость, основанная на их основополагающем дизайне и обучении.

Так же, как и решающее, является долгосрочным здоровьем кодовой базы. Модели ИИ имеют неотъемлемый предвзятость к созданию «грязного» кода, который создает технический долг. Наше исследование также показало, что во всех оцениваемых моделях запахи кода составляют более 90% всех найденных проблем. Хотя код может функционировать сегодня, это накопление структурных проблем неизбежно приведет к кодовой базе, которая будет сложной и дорогостоящей для поддержания завтра.

Миф о монолитном ИИ

Это ошибка думать об «ИИ» как о единственной сущности. Подобно тому, как у каждого человеческого разработчика есть уникальный стиль, разные LLM обладают различными «кодирующими личностями». Понимание этих нюансов является ключом к их эффективному использованию.

Например, наш анализ выявил четкие архетипы. Одна модель, «старший архитектор» (Claude Sonnet 4), пишет Verbose, сложный код предприятия. Но эта изощренность составляет цену: высокая тенденция внедрения трудности с диагнозой, таких как утечки управления ресурсами и вопросы параллелистики. Напротив, «быстрый прототипер» (Opencoder-8B) невероятно кратко, получая функциональный результат с минимальным кодом. Компромисс? Это способствует достаточной сумме техническому долгу, демонстрируя самую высокую плотность проблем любой модели, которую мы тестировали и захоронили проекты в течение долгосрочных проблем с обслуживанием.

Выбор модели — это не только выбор того, что с самым высоким показателем. Речь идет о понимании его врожденного стиля и компенсации его конкретных слабостей.

Парадокс прогресса: умнее может означать рискованнее

Возможно, наиболее важным пониманием любого лидера в этом пространстве является противоречивый парадокс: поскольку модели становятся более способными, они также могут стать более безрассудными. Самая амбиция, которая позволяет более новой модели решать более сложные проблемы, может привести к созданию более серьезных сбоев.

Мы четко видели это при сравнении модели с ее прямым преемником. В то время как эталонная производительность более новой модели улучшилась на 6,3%, она также увеличила ошибки с высокой чувствительностью на 93%. Эта единственная точка данных является мощным аргументом против только на оценках производительности. Модель, которая появляется «лучше» на бумаге, может ввести более высокий уровень риска в ваши приложения.

Новый мандат для интеллектуального надзора

Будущее разработки программного обеспечения является одним из сотрудничества Human-AI. Чтобы сделать это партнерство успешным, мы должны принять подход «доверие и проверку». Это означает реализацию последовательного процесса для просмотра и анализа каждого фрагмента кода, независимо от его происхождения. Он диктует, что надежное управление безопасности, надежностью и обслуживаемостью является не предложением, а требованием.

Это особенно верно в эпоху «кодирования вибрации», где цель состоит в том, чтобы быстро получить функциональный прототип. Наше исследование показывает, что за этой начальной «атмосферой» должен быть выполнен строгий шаг «проверки», чтобы управлять значимыми блокировщиками безопасности и техническим долгом, который эти модели могут генерировать. Эта проверка не является узким местом; Это процесс, который превращает многообещающий прототип в готовое к производству программное обеспечение.

Расширяя наш взгляд за рамки производительности и посвященной этому более глубокому уровню проверки, мы можем ответственно использовать невероятную силу ИИ. Вот как мы создадим следующее поколение программного обеспечения. Не только быстрее, но и лучше, безопаснее и более устойчиво.

Sonar — это золотой стандарт для интегрированного качества кода и безопасности кода — для всего кода. Мы предоставили +7 миллионам разработчиков действенный интеллект кода, необходимый для обеспечения безопасного, хорошо написанного и обслуживания всех кодов. Узнайте больше последних из Sonarsource Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Прасенджит А. Саркар — менеджер по маркетингу продуктов и решений в Sonar. Имея более чем 20 -летний опыт работы в области технологий, он является опытным лидером по технологиям и продуктам, который увлечен созданием и масштабированием инновационных продуктов искусственного интеллекта. Он … читал больше от Празенджита А. Саркара

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *