ogn_slon | Tabula rasa

В феврале 2011 компьютерная программа «Ватсон» компании IBM переиграла в телевизионном шоу Jeopardy! двух людей-чемпионов этого интеллектуального спорта (локализован в РФ под названием «Своя игра»). Я тогда написал восторженный пост по горячим следам. Комментарии к посту, как водится, оказались интереснее самого поста. В частности, в этом диалоге был поставлен правильный вопрос — научится ли в обозримом будущем искусственный интеллект (ИИ) побеждать людей в играх, правила которых ему только что объяснили: «Легко отличаю [программу от живого игрока]: роботы не умеют понять предложение поиграть в новую игру. Вот когда создадут коробку, которая на предложение поиграть хотя бы в “города”, после объяснения правил скажет “ес, ес, андерстенд!”, и проиграв первые две-три партии, начнет драть всех подряд — вот это будет круто». Я тогда ответил, что мы, вероятно, дождемся появления такой коробки: «По крайней мере, Ватсон, скорее всего, после небольшой доработки будет в состоянии понимать правила нехитрых новых игр вроде городов. Мне так кажется. Во всяком случае, я думаю, что мне представится повод написать у себя в блоге о чем-то подобном. Почти уверен — всё к тому идёт».

Прошло без малого семь лет. IBM занимается практическими приложениями и коммерциализацией «Ватсона». Не знаю, насколько успешен этот бизнес IBM, но новых зрелищных интеллектуальных высот Ватсон с тех пор вроде бы не брал. Зато индустрия ИИ в целом шагнула вперед в том числе и по части выразительных достижений. Компьютеры научились переигрывать людей в новых областях: видеоигры, распознавание изображений, восприятие человеческой речи и проч. Более того, ИИ стал обыгрывать людей в покер (с блефом). И, еще более того, искусственный интеллект преуспел в абстрактной живописи: оригинальные картины, сгенерированные алгоритмом, в ходе (скромного по масштабам) онлайнового опроса получили более высокие оценки зрителей, чем картины художников-людей с флагманской выставки жанра (в том числе и при углубленном оценивании «творческих характеристик»).

Но самым ярким новым достижением ИИ я считаю серию программ AlphaGo, которые уверенно обыгрывают чемпионов игры го. В отличие от шахмат, для го не существует простого аналитического способа приблизительной оценки позиции. Го также значительно богаче шахмат в комбинаторном отношении. Грубо говоря, разумную шахматную программу можно написать, объединив три модуля: 1) аналитической оценки позиции (очко за пешку, три очка с за легкую фигуру, четыре или пять за тяжелую, плюс еще столько-то за контроль центра и т. д.); 2) полного перебора вариантов, например, на три хода вперед; и 3) хотя бы небольшой дебютной библиотеки. После некоторой настройки и доводки, программа сможет обыгрывать средней руки игроков-людей. Причем такая шахматная программа будет способна относительно ясным и кратким образом объяснить любой свой ход. Это в шахматах. Изготовить аналогичным способом разумного компьютерного игрока в го, насколько я понимаю, не получится: аналитические методы оценки позиции слишком расплывчаты и недостаточно развиты, неглубокий просчет вариантов мало что дает, а на глубокий просчет не хватит ресурсов — дерево игры слишком обширно для полного глубокого перебора. Искусство успешной игры в го «более интуитивно», чем шахматное. Сильному игроку в го существенно сложнее, чем шахматисту, объяснить, почему на таком-то ходу он сыграл так-то. Ну, вот просто по опыту, интуитивно так сыграл.

Интуицию часто признают прерогативой людей, характерной «фирменной» чертой именно человеческого мышления — в противоположность «формальным» и «нетворческим» компьютерным вычислениям. И вот, появилась программа, обыгрывающая чемпионов-людей в «интуитивную» игру го. Причем недавно была опубликована статья о радикальном усовершенствовании этой программы — по существу, о создании нового алгоритма игры, который всухую расправляется с предыдущей версией алгоритма (уже игравшей на сверхчеловеческом уровне). Новый алгоритм изначально ничего не знает о го, кроме правил игры. Он самообучается с нуля, с состояния чистого листа (tabula rasa) и без внешнего руководства. Воспроизведу собственный пост в ФБ на этот счет, где цитирование аннотации ключевой статьи предваряется кратким (и немного вольным) изложением по-русски:

    AlphaGo Zero: программа игры в го, которая самообучается с нуля до сверхчеловеческого уровня за несколько дней без базы данных образцов игр.
    Предыдущая версия программы AlphaGo научилась побеждать чемпионов-людей, комбинируя тренировку на большой базе данных сыгранных людьми партий с внутренним самообучением (без руководства, за счет игр сама с собой). Новая программа AlphaGo Zero не нуждается ни в чем, кроме правил игры го. Базу данных игр ей не показывали, тактики и стратегии не объясняли. За несколько дней, интенсивно играя сама с собой, AlphaGo Zero вышла на уровень равной игры с предыдущей AlphaGo, а затем обошла ее и, в конечном счете, выиграла у своей предшественницы со счетом 100:0.

    A long-standing goal of artificial intelligence is an algorithm that learns, tabula rasa, superhuman proficiency in challenging domains. Recently, AlphaGo became the first program to defeat a world champion in the game of Go. The tree search in AlphaGo evaluated positions and selected moves using deep neural networks. These neural networks were trained by supervised learning from human expert moves, and by reinforcement learning from self-play. Here we introduce an algorithm based solely on reinforcement learning, without human data, guidance or domain knowledge beyond game rules. AlphaGo becomes its own teacher: a neural network is trained to predict AlphaGo’s own move selections and also the winner of AlphaGo’s games. This neural network improves the strength of the tree search, resulting in higher quality move selection and stronger self-play in the next iteration. Starting tabula rasa, our new program AlphaGo Zero achieved superhuman performance, winning 100–0 against the previously published, champion-defeating AlphaGo.
    Mastering the game of Go without human knowledge, pdf.

Резюме из всех этих новостей я бы вывел на данный момент такое: за прошедшие семь лет ИИ не взял высокую планку, которая была задана в комментариях к посту 2011 г, но процесс идет. Определенно, разработчиков ИИ можно поздравить с новым го!

S	M	T	W	T	F	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28

Konstantin Krayn

Tabula rasa

Tabula rasa

Profile

February 2022

Most Popular Tags

Style Credit

Expand Cut Tags