Ай -пионеры выкупают награду Тьюринга за обучение подкрепления

Два первоклассных компьютерных ученых выиграли награду Тьюринга 2024 года за свою работу по обучению подкреплению, дисциплину, в которой машины учатся с помощью подхода на основе испытания и ошибок, основанного на вознаграждении, который позволяет им адаптироваться в ограниченных или динамических средах.

Эндрю Дж. Барто, почетный профессор в Массачусетском университете Амхерста; и Ричард С. Саттон, профессор Университета Альберты, разработал ключевые алгоритмы и теории с помощью оригинальной серии работ, начиная с 1980 -х годов. Это включает в себя работу по технике подкрепления под названием Themalal Diffice Learning; Дуэт позже опубликовал академический учебник под названием «Подкрепление обучения: введение».

Послушанный математик Алан Тьюринг (на фото выше), в честь которого названа награда Тьюринга, также создал статью в 1950 -х годах под названием «Компьютерный механизм и интеллект, в которой задавались вопрос о том, могут ли компьютеры думать и затрагивали аналогичные концепции, связанные с изучением опыта.

В последние годы обучение подкреплению привлекло больше внимания после того, как Google DeepMind использовал технику для создания искусственного интеллекта, который победил лучших игроков в мире в мире. А в последние несколько месяцев китайский AI Upstart Deepseek попал в заголовки газет для своей изменяющей игру модели рассуждений R1, которая сильно опиралась на обучение подкреплению, чтобы создать более экономически эффективные модели фундамента.

Эндрю Г. Барто и Ричард С. СаттонКредиты изображения:ACM ‘Нобелевская премия за вычисление’

Премия Тьюринга, введенная Ассоциацией по вычислительной технике (ACM), часто была названа «Нобелевской премией за вычисления». Тем не менее, сама Нобелевская премия вторгалась в вычислительную сферу, особенно вокруг ИИ; Джефф Хинтон и Джон Хопфилд выиграли Нобелевскую премию по физике за свою работу в основе ИИ в прошлом году. Вскоре после этого последовало Демис Хассабис из DeepMind и John Jumper, которые были удостоены Нобелевской премии по химии за работу над Alphafold.

«Области исследований, начиная от когнитивной науки и психологии до нейробиологии, вдохновили на развитие обучения подкреплению, которое заложило основы для некоторых из наиболее важных достижений в области искусственного интеллекта и дал нам большее понимание того, как работает мозг», — сказал президент ACM Яннис Иоаннидис в пресс -релизе. «Работа Барто и Саттона — это не ступенька, от которой мы сейчас перешли. Подкрепление обучения продолжает расти и предлагает большой потенциал для дальнейших достижений в области вычислений и многих других дисциплин. Уместно, что мы чтим их самой престижной наградой в нашей области ».

Среди других известных пионеров ИИ, чтобы выиграть премию Тьюринга, включают главного в Meta AI Scientist Янн Лекун, который получил приз в 2018 году вместе с Джеффом Хинтоном и Йошуа Бенгио за их работу над глубокими нейронными сетями.

Барто и Саттон поделится денежным призом в размере 1 миллиона долларов, который был оказан поддержкой Google.