Использование генеративного ИИ (Genai) растет беспрецедентным скоростью в различных отраслях. Значительные технические достижения в моделях ИИ, вычислительной мощности и данных, а также преимущества в производительности, стоимости и простоте использования вызвали это расширение. Ожидается, что размер мирового рынка Genai в этом году достигнет 62,72 млрд долларов и достигнет 356 миллиардов долларов к 2030 году.
С этим усыновлением также возникли огромные требования к ресурсам. В результате организации в настоящее время сосредоточены на том, как эффективно использовать Genai, включая снижение использования электроэнергии, снижение потребления графических процессоров и, в целом, с использованием меньшей углеродной и более устойчивой инфраструктуры. Рост DeepSeek только усилил интерес к оптимизации инфраструктуры ИИ.
Этот спрос также вызвал интерес к гибким моделям потребления и масштабируемой инфраструктуре. Чтобы избежать больших первоначальных затрат, компании принимают гибкую подписку и модели с оплатой как вы, что позволяет им быстро начинать малые и масштабировать. По мере того, как цены падают, и гибкие модели размножаются, Genai будет становиться все более распространенным, что вызывает более высокий спрос. В долгосрочной перспективе гибкие модели сделают Genai более эффективным, экономически эффективным и устойчивым. Тем не менее, реализация Gen AI в гибридной гибкой модели требует нескольких шагов и соображений.
Оценка потребностей ИИ
Разработчики должны начать с четкого понимания рабочей нагрузки и атрибутов производительности своих проектов Gen AI. Определите вариант использования-LLMS, носилоты, генераторы изображений, чат-боты или мультимодальный ИИ-и сопоставьте трубопровод AI из предварительной обработки данных, обучения модели, оценки модели, вывода и тонкой настройки. Инструменты профилирования помогают областям охвата, включая пропускную способность, задержку, параллелизм и взрывость. Каждая часть трубопровода ИИ имеет разные требования к хранению, поэтому часто необходимо выравнивать инфраструктуру на рабочую нагрузку на заказ. Использование решений, которые обеспечивают большую производительность, может быть расточительным, если использование меньше, чем ожидалось. Гибкие модели потребления могут помочь в адаптации для быстро меняющихся потребностей.
Кроме того, рассмотрите уникальные характеристики размера вашей компании, географии и ресурсов. Например, некоторые регионы предлагают более низкие затраты на энергию, в то время как другие сталкиваются с более высокими затратами на энергоносители. Технические факторы, такие как структура затрат центра обработки данных, затраты на облачные вычисления, затраты на передачу данных и расходы, связанные с сетью, имеют решающее значение.
Задержка и ответ
Производительность восприимчива к задержке, так как даже задержки в 100-200 миллионеродов могут повлиять на пользовательский опыт. Инфраструктура должна гарантировать, что все слои вычисления, сети и хранения создаются для обработки нагрузки, генерируемой приложениями Gen AI. Минимизируйте движение данных, совместимая вычислитель и хранение. Умное кэширование и предварительная загрузка часто используемых подсказок, моделей или встроений в памяти также могут уменьшить задержку.
Другим способом устранения задержки является рассмотрение гравитации данных — концепция, которая, как проект, становится все больше, тем сложнее и дорого, чтобы перемещать данные. Одним из заблуждений является то, что все данные одинаковы, и не имеет значения, где они хранятся. Но данные не то же самое, и привлечение их через Интернет может замедлить задержку и влияние на производительность. Таким образом, избегайте перемещения больших наборов данных и увеличения близости к данным. Например, модели поезда с использованием существующих данных.
Рабочая нагрузка меняется
Одна ловушка, которой следует избегать, — это не понимание того, как требования к рабочей нагрузке меняются с течением времени. Требования к рабочей нагрузке Gen AI могут значительно измениться между разработкой, тестированием и производством. В результате разработчики должны разработать модульный, масштабируемый рост, чтобы обеспечить быстрый рост использования, спроса клиентов или расширения продукта.
Узкие места на уровне хранения, сети или вычислений являются общей проблемой для Gen AI. Подкопленные компоненты могут нанести ущерб общему опыту. Унифицированное решение, которое рассматривает все три уровня в качестве единого объекта, сохранит надежность системы и удовлетворяет потребности производительности даже при тяжелых нагрузках.
Гибридные решения
Многие организации в настоящее время используют гибридные решения для устранения растущих затрат на хранение данных. Тем не менее, есть также вопрос о том, какие данные хранить в облаке или локальности в гибридной архитектуре. Ключевые факторы в этом решении включают безопасность, стоимость, производительность и устойчивость. Безопасность данных и конфиденциальность имеют решающее значение для обеспечения безопасной и совместимой инфраструктуры ИИ. Данные, которые являются частными, конфиденциальными или имеют интеллектуальную собственность, обычно лучше всего управляются в помещениях.
Инфраструктура Genai стоит дорогой в создании и обслуживании из -за оборудования, вычислений, затрат на энергию и безопасности. Многие предприятия могут рассмотреть возможность локальных решений для хранения, которые поддерживают ИИ, если они могут достичь привлекательной стоимости за ГБ. Это можно сделать, потребляя инфраструктуру в качестве услуги из каталога услуг, который соответствует требованиям хранения искусственного интеллекта. В противном случае варианты облаков могут иметь смысл из -за масштаба облачных провайдеров.
Архитектура производительности
Организации обычно выбирают локальные решения, потому что они позволяют создавать специально построенные архитектуры, которые поддерживают постоянную производительность, от хранения объектов до экстремальной многопроцессы. Эти решения для хранения, на которые можно ссылаться в каталоге услуг, могут затем быть выровнены с восходящими компонентами, такими как вычисление и сеть, чтобы обеспечить выполнение ключевых показателей обслуживания.
Устойчивость также является ключевым из-за огромных потребностей в электроэнергетике в центрах обработки данных, а также проблем с долгосрочной экономией энергии и соблюдением нормативных требований. Локальные решения обеспечивают больше контроля и эффективности. Хотя они, как правило, удаленные, облачные провайдеры получают выгоду от масштаба, что может компенсировать некоторые проблемы с устойчивости.
Гибкие победы
Гибкие модели потребления предоставляют организациям больше возможностей для оптимизации своих расходов в соответствии с их конкретными потребностями. В частности, высокая стоимость и энергетические потребности в ИИ делают гибкие модели потребления привлекательным вариантом. Недавнее введение более экономически эффективных вариантов, таких как DeepSeek, увеличило интерес к быстрому запуску и быстрого масштабирования.
Гибридные модели хорошо подходят для этого подхода, поддерживая модели подписки с оплатой как вы, которые позволяют быстро масштабироваться вверх и вниз по мере необходимости. Задачи, которые требуют обработки в реальном времени, могут быть поддержаны локальными, в то время как в облаке могут быть перемещены менее интенсивные рабочие нагрузки. Кроме того, предприятия хотят, чтобы гибкость облачных подписок применялась к их локальной инфраструктуре. Цель состоит в том, чтобы создать гибридный мир, в котором и облако, так и на предпринимательстве работают на моделях подписки.
Наконец, каталоги услуг, которые являются частью использования, основанного на потреблении, помогают снизить перерасход или недостаточную эффективность. Это позволяет клиентам потреблять только то, что им требуется из определенных классов в течение определенного времени.
В новом мире генеративного ИИ инфраструктура будет полагаться на стратегическое сочетание локальных и облачных сред. Из -за его значительных требований к ресурсам и требования к быстрому масштабируемости ИИ является окончательным гибридным применением. Модели гибкого потребления являются ключом к этому преобразованию, поскольку они позволяют предприятиям минимизировать первоначальные затраты, сохраняя при этом максимальную гибкость для расширения в локальных или облачных настройках.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Как SVP, глобальные услуги в Hitachi Vantara, Jeb отвечает за руководство профессиональным и управляемым бизнесом, чтобы помочь клиентам управлять и использовать свои данные для улучшения опыта клиентов и создания новых возможностей для стимулирования инноваций и роста. Подробнее от Джеба Хортона