Облако, построенное для ученых для данных Python, а не инженеров по инфраструктуре

Облако невероятно полезно-но что, если вы, любящий питон, ученый для данных?

Преобладающим советом было то, что если вы хотите запустить Python промышленного уровня, то запустите его на Kubernetes.

«Мы просто думаем, что это не так», — сказал Мэтью Роклин.

В 2020 году Rocklin стал соучредителем Coiled.io, чтобы предложить еще более простой способ разблокировать потенциал облака. «Ответ — просто использовать необработанные виртуальные машины [virtual machines]«Роклин сказал на подкасте« Talk Python ».« Они на самом деле довольно хороши, если вы делаете несколько вещей вокруг них ». (Как настройка правильных средств программного обеспечения и соответствующих журналов.)

В 2015 году Rocklin создал Dask, библиотеку Python, чтобы раскрутить много виртуальных машин для анализа и манипулирования данными. И после многих лет внести свой вклад в Python Projects для Data Science (например, инструменты, множественная диспетчерская и SIMPY), Rocklin Coiled.io, чтобы упростить развертывание программного обеспечения для создания виртуальной машины.

Он объяснил их миссию в прошлом месяце в эпизоде ​​подкаста, объясняющего «грязная правда облачного питона». Ведущий подкастов Майкл Кеннеди согласился, что большая часть современной облачной инфраструктуры, похоже, была сосредоточена на разработчиках веб -страниц и API. Кеннеди считает, что даже учебники для ученых не подчеркивают навыки Docker и Linux — хотя Роклин видит еще один возможный ответ. «Может быть, мы не должны решать это, обучая людей.

«Может быть, мы должны решить его, создав лучший инструмент».

Это свежая перспектива прямо из сердца сообщества Python. И на протяжении всего подкаста Роклин обосновался, что ученые -данные имеют свой собственный уникальный набор проблем.

И что, ориентированное на виртуальную машину решение, подобное катушке, может быть правильным инструментом для работы.

Почему Docker и Kubernetes не идеальны для ученых данных

Спросите Chatgpt о некоторых командах, которые вы можете вырезать и вставлять для запуска 100 виртуальных машин, он сказал: «И он будет напечатать на вас в течение нескольких минут! И это не тот тип печати, который может сделать большинство ученых-ученого, которые только что использовали Python в течение нескольких лет.

«Я был на самом деле очень шокирован тем, насколько тяжело это было относительно обычное дело».

Роклин признает, что Docker — отличный инструмент, но не обязательно для ученых данных, поскольку он «очень специализируется для обеспечения действительно стабильной системы, которая может работать на протяжении десятилетий». Ученые по данным, тем не менее, хотят «систему, которая может меняться каждые пять минут. Выбор, такие как инструменты, такие как Docker, Kubernetes или Terraform, на самом деле весьма отличаются от выбора, которые вы бы сделали, если бы вы создали своего рода промежуточное программное обеспечение для этой аудитории.

«Он предназначен для инженеров облачной инфраструктуры». (И хотя промежуточное программное обеспечение существует, «оно не предназначено для наших вариантов использования».)

Итак, «мы катились на нашу».

А во время подкаста он быстро развернул кластер EC2 на 1000 ядер с компьютера ноутбука-дважды.

Простая демонстрация: раскручивание кластера с декораторами Python

Во время этой демонстрации ведущий подкаста Кеннеди удивлялся, сколько возможностей было упаковано в простые заявления на Python.

vm_type = «g5.xlarge», keepalive = «20 минут» region = «us-west-2»,

И пока они говорили, Rocklin выключил аппаратное обеспечение ARM, просто набрав один персонаж (превратив заявление о декораторе с флагом ARM в комментарий).

# arm = true,

А потом он начал воспитывать новый кластер.

Декораторы Python всегда позволяли вам расширить поведение функции-поэтому эти утверждения расширяют виртуальную виртуальную функцию (которая доступна после импорта библиотеки с спиралью). «Внутренне мы шутим, что наша основная компетенция включает и выключает виртуальные машины», — сказал Роклин. «Как только у вас есть эта технология, написание API вокруг нее будет довольно дешево».

Роклин также считает, что если вы введете цикл Docker Push в рабочую цикл науки о данных, «это все усиливает. Люди в конечном итоге не делают этого». Таким образом, вместо использования Docker виртуальные машины Coiled копируют среду пользователя.

Конечный результат этой демонстрации? Тысяча машин, которые похожи на оригинальную машину пользователя, «просто многочисленны или больше или с графическими процессорами, или что бы то ни было».

По словам Роклина, первый кластер 1000 Вм стоил 1,39 доллара (добавив, что второй «стоит мне 45 центов…»). «Облако намного дешевле и намного дороже, чем я понял, исходя из того, правильно ли вы делаете это или делаете это или не делаете.

Позже Роклин даже ставит в него число. «Без сервера, лямбда и аналогичные технологии обычно имеют 4 -кратные до 5x премиум по стоимости. У них также есть ограничения, как вы не можете получить большие машины, вы не можете получить графические процессоры, ваши программные среды должны быть определенного размера».

Как избежать неожиданного облачного выставления

Также в подкасте присоединился коол -инженер -программист, который состоит из спирального сотрудника Нат Табрис, который видит в этом еще одну сложность облака: отсутствие ограждений, особенно для людей, которые не знают, где риски.

Роклин улыбнулся, вспомнив, что был аспирантом, использующим бесплатный уровень Amazon Web Services, который создал несколько виртуальных машин, выключил их, «а затем через три месяца я получу счет за 400 долларов. И это не было виртуальной машины, это было прикрепленное хранилище для виртуальных машин или какого -то сетевого ресурса, который застрял вокруг — у меня не было понятия».

Кеннеди добавляет, что существуют «всевозможные другие другие услуги», которые могут удивить вас сбором (включая базы данных и хранилище баз данных). «И поэтому часть того, что мы пытаемся сделать, — сказал Табрис, — по умолчанию вкладывает контроль, чтобы вы не могли случайно потратить столько денег».

По иронии судьбы, это необходимое время вычислительного времени «имеет тенденцию быть довольно предсказуемой частью стоимости». Удивительно большие счета поступают из «всех других вещей, о которых вы даже не думаете — например,« Если я перевернул эту обстановку, теперь я много ударяю в этот S3 API, и оказывается, что вы платите за звонок API ».

Табрис помнит клиента, использующего кластер с 1000 узлов, который настроил журнал на уровне отладки, что создало «очень болтливые журналы… Я думаю, что это было похоже на счет в размере 15 000 долларов». (Хотя эта история «имел счастливый конец, потому что мы разговаривали с AWS, и они в итоге съели эту стоимость для клиента».) Роклин отмечает, что это еще один хороший урок для обращения с этими внезапными неожиданными счетами: если вы поговорите с AWS, они могут вернуть вам деньги обратно.

И у Coileed теперь есть предупреждение, если он видит чат -журналы.

Поэтому, когда Кеннеди спрашивает, что такое рабочий процесс, чтобы убедиться, что его 2000 машин не работали весь день или излишне, Роклин указывает на часы катушек для этого автоматически — и закрывает машины, если они не используются.

Свобода экспериментировать

Но что -то происходит, когда виртуальные машины легко создать, сказал Rocklin: это дает пользователям «много возможностей для пользователя начать экспериментировать с аппаратным обеспечением». (Один пользователь проходил через каждый регион в своем облаке, пытаясь найти экземпляры GPU A100.) «Мы часто видим людей, играющих с Arm против Intel против AMD, играя с каждым типом графического процессора».

И вы также можете экспериментировать с регионами. Например, если ваш набор данных хранится в одном регионе, Табрис сказал: «Это имеет разницу в матче, как быстро вы можете загрузить его, если вы близки к нему, чем если вы далеки от этого».

Табрис поступил из мира веб -разработки, но понял, что для ученых данных: «На самом деле имеет смысл опробовать разные типы экземпляров для изучения.« Что это за графический процессор для меня? ». Различные процессоры также могут иметь значение — даже небольшие изменения, такие как переход от ARMV8 к ARMV7. «Некоторые из них на самом деле действительно имеют значение для рабочей нагрузки на науку о данных, потому что это связано с этими широкими инструкциями».

Некоторые процессоры имеют лучшую память — DDR5 вместо DDR4. «Это имеет значение для моей рабочей нагрузки? Собирается ли это сэкономить деньги?» Это может быть трудно узнать заранее, но «очень легко просто попробовать».

Роклин позже называет это «радостью этого… это то разнообразие, которое на самом деле является основной частью облака», называя это чем -то, о чем заботится.

Философия создания облачных вычислений игривых

Ведущий подкаста Кеннеди ценил дополнительную легкость, поскольку разнообразие и эксперименты в конечном итоге являются ключевой частью духа науки о данных. «Мы собираемся экспериментировать, мы собираемся исследовать, мы будем играть».

И Роклин согласился. «Я думаю, что многое из того, почему Python стал популярным, это то, что он часто играет, часто. Нам дают эти библиотеки, которые просты в использовании и мощные. И это похоже на игру».

Напротив, работа с библиотекой Boto в AWS или написание Yaml в Kubernetes «не похоже на игру… но здесь сегодня мы сыграли с 2000 виртуальных машин — наполовину, наполовину Intel. Половина на восточном побережье сша, наполовину на западном побережье сша… и теперь внезапно облако похоже на игру.

«И вы просто делаете разные вещи, когда все становится игривым. Вы ведете себя по -другому. Люди веселятся. И облако — действительно забавный инструмент для использования. Как только вы преодолеете всю боль».

Когда его спросили о последних мыслях, Роклин сказал, что большое обещание облака для восхитительного и мощного инструмента данных — не всегда хорошо доставляется. Он призывает ученых данных не урегулировать.

Кеннеди признал: «Это стало действительно сложно — но это не должно быть». И Табрис добавил, что «это сообщение« Вещи должны быть восхитительными »для нас важно».

Роклин соглашается с тем, что облако «может быть восхитительным опытом… мы все должны играть. Если вы не хотите использовать спиральные, это нормально. Но есть и другие способы делать что -то. Иди».

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Дэвид Кассель — гордый житель района залива Сан -Франциско, где он освещал технологические новости более двух десятилетий. За эти годы его статьи появлялись повсюду от CNN, MSNBC и The Wall Street Journal Interactive … Подробнее от Дэвида Касселя

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *