День, когда искусственный интеллект победил профи покера

День, когда искусственный интеллект победил профи покера

Казино Rivers в Питтсбурге (США) было местом проведения турнира Brains vs. Искусственный интеллект — соревнование, в котором участвовало программное обеспечение искусственного интеллекта (ИИ), способное играть в популярный техасский безлимитный покер (Техасский холдем) , против четырех профессиональных игроков. Результат нельзя было обжаловать: алгоритм Libratus — название искусственного интеллекта — деморализовал, разрушил и в конечном итоге унизил человеческий мозг.

Турнир длился 20 дней, с сессиями по 11 часов в день, в общей сложности 120 000 раундов в покер. В выбранном варианте игры хедз-ап профи против Либратуса один за другим. Раунды начинались с 20 000 долларов на игрока в виде (виртуальных) фишек для ставок.

К моменту окончания турнира Libratus выиграла в общей сложности 1,7 миллиона долларов из 2 миллионов долларов на кону. Затем участникам было распределено 200 000 долларов (на этот раз в реальном времени) в зависимости от их рейтинга в турнире и собранных фишек.

Ранее было согласовано, как оценивать результат: в зависимости от достигнутых цифр будет считаться, что победа будет «математически значимой». Организаторы турнира смогли с уверенностью 99,7% сказать, что результат «не был чисто случайным».

Создателями Libratus являются Туомас Сандхольм, профессор кафедры информатики, и Ноам Браун, докторант Университета Карнеги-Меллона в Питтсбурге. У них также были ресурсы суперкомпьютера Bridges из Питтсбургского суперкомпьютерного центра. Сандхольм изучал теорию игр в приложении к покеру и его стратегии в течение двенадцати лет до этого достижения.

Простая и популярная карточная игра

Из сотен вариантов покера для турнира был выбран, пожалуй, самый популярный — холдем. Возможно, лучший способ оценить это — это художественный фильм Rounders (1998, Джон Даль), где это объясняется и одновременно нравится, особенно когда речь идет о стратегии и ставках.

В холдеме каждый игрок получает две карты, и на столе открываются еще три, затем четвертая и, наконец, пятая. Раунды ставок заключаются по ходу игры. Рука каждого игрока определяется картами, которыми он владеет, и любой комбинацией с общими картами. После того, как ставки закончились — и если оппоненты не сбросят карты — выигрывает лучшая комбинация закрытых и общих карт. Тот факт, что существует несколько раундов ставок, где вы можете сделать чек, сделать ставку, посмотреть, сбросить или поднять, и что качество руки каждого игрока может меняться в лучшую или в худшую сторону по мере появления новых карт, представляющих больший интерес для игры.

Турнир длился 20 дней, с сессиями по 11 часов в день, всего 120 000 раундов в покер. Liberatus выиграл в общей сложности 1,7 миллиона долларов из 2 миллионов долларов, поставленных на карту

За столами холдема могут принимать участие от двух до более десяти игроков. Варианты бывают всевозможные: в зависимости от величины обязательных ставок перед стартом («блайнды»), минимальных ставок и других деталей, но самое главное — это лимиты. В некоторых версиях есть максимальная сумма ставки, в других случаях единственным ограничением является максимальная сумма денег, которая есть у других игроков. (В турнирах, подобных Мировой серии покера, пиковый момент приходится именно на то, когда игроки «выкладываются на полную» и ставят миллионы).

Алгоритмы теории игр

В последние десятилетия мы видели компьютеры, запрограммированные на непобедимые алгоритмы, чтобы играть и побеждать лучших игроков в шашки (1995), Отелло (1997), шахматы (Каспаров против Deep Blue , 1997) и считающегося непреодолимым го (AlphaGo vs. Fan Hui, 2016).

Однако между покером и всеми остальными есть большая разница: согласно математической теории игр первые являются играми с идеальной информацией , а покер — нет. Этот термин применяется, когда оба игрока имеют всю информацию о состоянии игры (фигуры, ходы, ставки, история и т.д).

Возможных ходов может быть много, астрономически большое количество, но в шахматах нет скрытой информации , и случай не влияет на то, что может случиться. Однако в покере карты игроков остаются загадкой до конца каждого раунда; это также шанс, кто выбирает точные карты, которые получит каждый игрок.

Игра в шашки была решена математически (со 100% точной стратегией), потому что на доске всего около 10 20 различных позиций, и они могут быть сгенерированы и исследованы все. Было подсчитано, что существует около 10 120 возможные шахматные позиции — и мы даже не смогли изучить их все, но в холдеме считается, что всего может быть около 10 160 вариантов на разных этапах игры, экспоненциальная и ужасно большая разница, за пределами всей нынешней вычислительной мощности.

Вычислительная проблема Limit Hold’em была решена в 2015 году, поэтому на этот раз мы попытались пойти дальше. Выбранный вариант, хедз-ап между двумя игроками (ИИ против человека) был практичным для турнира, но не таким интересным, как стандартное решение, но в вычислительном отношении гораздо более сложным для большего числа игроков, чем Это обычное дело в казино или интернет-залах.

Азартные игры, расчет, «блеф» и другие тактики

Конечно, покер (как и мус) — это весело, потому что вы должны уметь играть, блефовать и использовать все виды математических, а иногда и «психологических» тактик, чтобы получить преимущество. Священной библией игры является книга Дэвида Склански Теория покера в 1999 году, в которой игра анализируется со всех этих точек зрения. Тем, кто стремится хорошо играть, обязательно нужно просмотреть его страницы.

Азартные игры без хороших карт (на сленге «блеф») или умеренные игры, несмотря на то, что вы играете в хорошую игру, чтобы позволить другим доверять, — очевидно человеческое и неподражаемое отношение. Может ли компьютер скопировать эти стратегии? Элементарный способ — это случайное изменение тактики, но при этом возникает проблема, заключающаяся в том, что, если частота угадана, легко использовать ее в своих интересах, чтобы победить противника.

В случае Libratus программное обеспечение было разработано так, чтобы избежать тактических ошибок, присущих предыдущим версиям, которые были побеждены людьми. В более ранней версии 2015 года под названием Claudico использовалась очень «экстремальная и радикальная» стратегия ставок, закономерности которой оппоненты быстро угадали.

По словам Сандхольма, его создателя, Libratus сначала обучается правилам игры, а затем разрешается разрабатывать и тестировать стратегии. Спустя 15 миллионов часов вычислений результат состоит в том, что алгоритм извлекает уроки из результатов собственных вычислений без необходимости использовать человеческий опыт (как в случае шахмат с дебютами и оценками позиций). Кроме того, во время игр Libratus мог заранее рассчитывать все, что могло произойти в третьем и четвертом раундах торговли: какие карты могли бы выпасть, сколько было бы удобно делать ставки, как ответить на вызов и т. Д.

Невероятно, но никто никогда не учил Libratus блефовать — они возникли сами по себе, как часть стратегий, протестированных во время машинного обучения. Как они объяснили, это позволило ему понять, что оппоненты тоже могут блефовать, и действовать с учетом этого.

По словам людей, с которыми он столкнулся, ловкость Libratus в выборе размеров ставок с большой точностью, а также его более консервативность и отказ от риска в последних раундах дня были одними из то, что их больше всего удивило. Может быть, поэтому его латинское название переводится на испанский как «сбалансированный».

Своеобразный турнир

Сразить людей и компьютеры против любой игры на виду у всего мира — непростая задача. Каждый игрок участвовал в раундах перед экраном, удаленно подключенным к Libratus в суперкомпьютерном центре. В то же время все было видно на больших экранах в комнате, и за ним можно было следить через Twitch, платформу потоковой передачи видеоигр.

Игрокам разрешалось встречаться после каждого сеанса для обмена информацией и согласования стратегий (то, что обычно не происходит между людьми, но это давало им преимущество перед машиной). И они сделали это. Они даже тусовались на популярном форуме Reddit, чтобы задать вопрос и ответить. Однако они не обнаружили в алгоритме уязвимостей, которые можно было бы легко использовать, и некоторые из обнаруженных, по их мнению, уязвимостей исчезли на следующий день. Как это было возможно?

Весы также могли «думать» после того, как день закончился. Таким образом он изучил, что произошло, добавил 6000 новых раундов с реальными данными по каждой игре и уточнил стратегию. Они говорят, что он казался больше озабоченным исправлением собственных ошибок, чем использованием ошибок своих оппонентов (что-то, что другие программы пытались безуспешно). Вооружившись этими новыми знаниями, я начал новый день без усталости.

Программное обеспечение было разработано, чтобы избежать тактических ошибок, присутствовавших в предыдущих версиях, которые были побеждены людьми. Версия 2015 года под названием Claudico использовала очень «экстремальную и радикальную» стратегию ставок, закономерности которой быстро угадали его оппоненты
В конце турнира игроки-люди, профессионалы, за плечами которых много лет турниров, были эмоционально опустошены, гадая, как их можно было обыграть. Фактически, букмекерские конторы изначально давали преимущество 4: 1 в пользу людей, поэтому те, кто делает ставку на искусственный интеллект, делают хорошие дела.

Пределы Libratus до сих пор неизвестны, но, как и в других играх, таких как шахматы, как указал Джейсон Коттке, вполне вероятно, что человек, работающий вместе с таким искусственным интеллектом, как Libratus, был лучше. каждому из них индивидуально.

Другие более важные области применения

Возможно, самое интересное в этом прогрессе в области искусственного интеллекта — это идея, что алгоритм со стратегией не зависит от игры. Фактически, говорит его создатель, достаточно было бы заменить модуль с правилами игры на другой, чтобы можно было разработать новые стратегии. И не только в сфере казино-игр.

Некоторые математические эквиваленты реального мира, к которым применяется теория игр, — это аукционы, переговоры, компьютерная безопасность или военная стратегия. Ситуации все из них, в которых обрабатывается неполная информация (что собирается делать другая сторона, как далеко они готовы делать ставки, кто первым сбросит бомбу) и где необходимо учитывать фактор неопределенности.

Есть ли отныне жизнь в покере?

Каспаров проиграл машине, но люди по-прежнему играют в шахматы. Также продолжаются шашки, Отелло, Го и другие игры. В случае с Libratus его победа была ошеломляющей, но не полной: версия покера, в которой он выигрывал, была только хедз-апом между двумя игроками, а не полными столами с 6, 10 или более людьми. Эксперты говорят, что сложность сегодня вычислительно недостижима.

Многие задаются вопросом, не стоит ли «замаскировать» Libratus и отправить его играть в онлайн-игровые комнаты против людей на реальные деньги. Тот факт, что вам требуется большая вычислительная мощность за кулисами (в основном суперкомпьютер), делает это непрактичным, поэтому можете быть уверены: сегодня это будет непросто и не выгодно.

Однако многие игроки беспокоятся о том дне, когда программисты будут готовить ботов, чтобы обкрадывать других игроков, изображая людей за игровыми столами. Это то, что вполне может произойти, и над чем работают различные компании-разработчики программного обеспечения. Но они существуют уже десять лет, и это не перестает быть чем-то анекдотическим. На самом деле, некоторые хорошо известные случаи мошенничества со стороны онлайн-казино были совершены с использованием гораздо более элементарных методов.

Это, несомненно, будет еще одним практическим вызовом искусственного интеллекта, своего рода тестом Тьюринга, но с твердыми деньгами в виде приза.

Евгений

Related Posts

Увеличьте свою прибыль в покере за 5 простых шагов

Увеличьте свою прибыль в покере за 5 простых шагов

Онлайн-покер против Live-покера: что наиболее выгодно?

Онлайн-покер против Live-покера: что наиболее выгодно?

Вот что значит быть профессиональным игроком в покер

Вот что значит быть профессиональным игроком в покер

Испанцы играют на деньги

Испанцы играют на деньги

No Comment

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *