W pierwszej części tego artykułu rozpoczęliśmy poszukiwania mające na celu śledzenie rozwoju komputerów pokonujących mistrzów ludzkości w kilku klasycznych grach - m.in. Backgammon, Szachy i Go - a także w kilku bardziej nowoczesnych wynalazkach.

W tej części skupimy się na postępie, jaki dokonał się w ciągu ostatnich dwóch lat. Obejmuje ona dwie bardzo popularne, aczkolwiek złożone gry wideo, a mianowicie StarCraft II i Dota 2, jak również program, który jest w stanie grać w wiele gier na nadludzkich poziomach. Omówimy również, dlaczego bycie dobrym w grach jest niezmiernie ważnym aspektem badań nad sztuczną inteligencją i uczeniem się maszynowym, które wiele osób ma tendencję do niedoceniania, oraz jakie są tego konsekwencje dla całej ludzkości.

StarCraft II - Layers of Abstraction and Reinforcement Learning

StarCraft II to strategiczna gra wideo, w której gracz bada mapę, gromadzi zasoby, buduje nowe bazy i budynki, bada technologię i produkuje jednostki bojowe, aby ostatecznie zaatakować i zniszczyć wszystkie bazy przeciwnika.

Grający w nią program musi zinterpretować każdą klatkę gry, trwającą ułamek sekundy, i wykonać działania za pomocą myszy i klawiatury. Prostszą wersją jest połączenie bezpośrednio z API gry i interakcja z jej abstrakcyjnym modelem. Mimo to, gra ma wiele wyzwań do rozważenia:

  • Posiada niedoskonałe informacje, ponieważ przeciwnik ukrywa się w tzw. mgle wojny.
  • Gracze są zobowiązani do zarządzania dziesiątkami budynków i jednostek.
  • Strategicznie wymagane jest również rozbudowane planowanie z wyprzedzeniem, w tym utrzymanie równowagi pomiędzy inwestowaniem zasobów zarówno w wyniki ekonomiczne, jak i potęgę militarną.
  • Na poziomie taktycznym gracze muszą również przez cały czas kierować poszczególnymi jednostkami w walce.

Mimo to AlphaStar, program stworzony przez zespół stojący za AlphaGo, był w stanie zdecydowanie pokonać jednego z najlepszych ludzkich graczy - Grzegorza "MaNA" Komnicznika - na początku 2019 roku, z idealnym wynikiem 5 do 0.

AlphaStar stale modeluje i analizuje stan pola walki, a z wejścia wideo potrafi rozpoznać swoje bazy, armie i środowisko, w którym działa. Obecna wersja ograniczała się do odegrania tylko jednego z sześciu możliwych meczów i tylko na jednej mapie, ale z drugiej strony, była ograniczona liczbą akcji na minutę, które mogła wyemitować i narzuciła niewielkie opóźnienie pomiędzy wejściem a reakcją w celu wyeliminowania czynnika odruchu nadludzkiego.

Program był najpierw szkolony podobnie jak AlphaGo, obserwując zestaw powtórek meczów rozgrywanych między ludźmi, ale w drugiej fazie, wiele przypadków programu było umieszczanych w meczach przeciwko sobie. Te instancje, zwane inaczej agentami, balansowały pomiędzy badaniem nowego terytorium taktyki i strategii, a wykorzystywaniem wiedzy, którą miał już zdobyć, aby uzyskać przewagę. Wyniki są następnie interpretowane jako nagroda, która kieruje dalszymi działaniami. Technika ta nazywana jest Nauką Wzmocnień (Reinforcement Learning) i jest jednym z trzech najnowszych paradygmatów Nauczania Maszynowego obecnie stosowanych, obok nauki nadzorowanej i bez nadzoru.

Od lata 2019 r. agenci AlphaStar korzystają z darmowego roamingu na publicznych serwerach gier, ucząc się od niezliczonej ilości ludzkich graczy, grając we wszystkie trzy wyścigi dostępne w StarCraft II. Wciąż czekamy na wersję programu, która będzie w stanie wygrać z każdym wyścigiem przeciwko sobie na wielu dostępnych mapach.

Dota 2 - Teamplay and Recurrent Neural Networks

Dota 2 to wieloosobowa gra online arena walki z dwoma zespołami pięciu graczy.każda gra kontroluje jednego bohatera, zdobywa doświadczenie, zdobywa złoto, kupuje przedmioty i harcerzy na mapie, a także wabienie, zasadzka i walka z wrogimi bohaterami - wszystko po to, aby ostatecznie zniszczyć jeden z budynków strażników opozycji, aby wygrać grę.

Istnieje ponad 100 dostępnych bohaterów, każdy z kilku unikalnych umiejętności i ponad 200 przedmiotów w grze. Zasady są bardzo złożone, a liczba możliwych interakcji pomiędzy elementami gry i grami wydaje się nie mieć końca. Koordynacja pomiędzy wszystkimi 5 graczami w drużynie jest również bardzo ważnym aspektem gry.

W sierpniu 2017 roku zespół OpenAI zaprezentował pierwszą wersję swojego programu, nazwaną po prostu Five. Była ona w stanie pokonać kilku mistrzów ludzkości w bardzo ograniczonej wersji gry z zaledwie dwoma bohaterami w pierwszej fazie gry. W kwietniu 2019 roku, zaktualizowana wersja, grająca w meczu na całej długości, z pulą bohaterów zredukowaną do 18, i kilkoma innymi ograniczeniami, była w stanie pokonać zespół ludzkich mistrzów OG z wynikiem 2 do 0.

OpenAI Five widzi wykorzystuje API gry, podobnie jak wczesne wersje AlphaStar, i widzi stan gry jako listę 20,000 numerów, emitując jedną z 170,000 możliwych dyskretnych akcji 8 razy na sekundę. Czasy reakcji są, po raz kolejny sztucznie opóźnione, aby wyeliminować aspekty nadludzkiego odruchu.

Każdy zawodnik SI jest również oddzielnym programem, więc pełna drużyna w grze składa się z 5 współpracujących ze sobą niezależnych podmiotów. Programy zostały wyszkolone z wykorzystaniem wzmacniających technik nauczania z optymalizacją polityki proksymalnej. Każdy program składa się z warstwy 1.024 jednostek pamięci krótkotrwałej. LSTM jest rodzajem rekurencyjnej sieci neuronowej, która nie działa na jednym wejściu, ale może przetwarzać dowolnie długi ciąg wejść i śledzić jego zależności ze względu na wewnętrzną reprezentację stanu. System został przeszkolony na 128.000 rdzeni Preemptible maszyn wirtualnych i 256 procesorach graficznych P100 na platformie Google Cloud, co pozwoliło mu zgromadzić w sumie 900 lat doświadczenia w grze w czasie rzeczywistym dziennie. Podobnie jak w przypadku AlphaStar, nadal czekamy na wersję, która będzie w stanie pokonać ludzkich bohaterów w grze bez żadnych ograniczeń.

Three in One - Towards General Game Playing

Tymczasem Deep Mind pracuje nad rozszerzeniem swojego programu AlphaGo. Kolejnym krokiem po pokonaniu mistrza ludzkości w 2017 roku była wersja zwana AlphaGo Zero.

W odróżnieniu od poprzednich wersji, nie opierała się ona na żadnym wstępnym treningu na historycznych danych meczowych, ale zaczynała od zera, bez wiedzy o Go, doskonaląc się tylko grając przeciwko sobie, wykorzystując technikę uczenia się wzmocnienia.

Udało mu się osiągnąć wydajność na tym samym poziomie AlphaGo od 2016 roku w ciągu 3 dni od treningu, osiągając w ciągu 21 dni ten sam poziom co jego poprzednik w 2017 roku.

W grudniu 2018 roku Deep Mind opublikował kolejny kamień milowy - program o nazwie AlphaZero był w stanie nauczyć się od podstaw trzech różnych gier i szybko osiągnąć nadludzkie poziomy. Były to gry Szachy, Go i Shogi. Po 34 godzinach treningu, AlphaZero było w stanie pokonać swojego poprzednika, AlphaGo Zero, który był trenowany przez 3 dni z wynikiem od 60 do 40. Następnie pokonał najlepszy program do gry w szachy, Stockfish, po zaledwie 4 godzinach treningu - wszystko od podstaw. Grając przeciwko Stockfish, AlphaZero musiało tylko ocenić trzy rzędy wielkości mniej pozycji na sekundę niż Stockfish, ale to wystarczyło.

W końcu udało się wygrać z najlepszym programem Shōgi - Elmo. Shogi, znany również jako Szachy japońskie, jest rozgrywany na planszy 9 na 9, na której znajduje się 20 sztuk 8 typów. Jego obecna forma pochodzi z XVI wieku i ma nieco większą przestrzeń problemową niż szachy klasyczne. AlphaZero jest jednym z najbardziej znanych przykładów ogólnej gry, konstrukcji sztucznej inteligencji, która może z powodzeniem zagrać w więcej niż jedną grę. Taki projekt jest ważnym krokiem na drodze do wykorzystania sztucznej inteligencji do rozwiązania coraz bardziej zróżnicowanego zestawu problemów.

Inne gry i nie tylko

Istnieje wiele projektów z zakresu sztucznej inteligencji, które dotyczą różnych gier i działań konkurencyjnych. OpenAI jest gospodarzem m.in. projektu Neural MMO, w którym ogromna liczba agentów stara się przetrwać i realizować różne zadania w rozległych otwartych światach z różnymi zasobami i wyzwaniami. IBM rozszerza Watsona na Debater, który próbuje zmagać się z ludzkim ekspertem w otwartej debacie na dany temat. DeepStack, opracowany na University of Alberta, w międzyczasie wygrywa z najlepszymi graczami Texas Hold'em Poker.

Wraz z gwałtownie rosnącą popularnością oraz dostępnością narzędzi do nauki maszyn, bibliotek oraz zasobów, jak również dostępnością wyspecjalizowanej mocy Cloud computing, liczba gier, w których maszyna jest lepsza od najlepszych ludzi w danej działalności lub dziedzinie gwałtownie rośnie. Wyposażenie inteligentnych maszyn w czujniki i środki do interakcji ze światem fizycznym jest naturalnym przedłużeniem podboju światów wirtualnych - i jest to obecnie badane.

Gra końcowa

Niektórzy mogą twierdzić, że programy grające w gry, a zwłaszcza gry wideo, nie są warte wysiłku, ponieważ nie są "poważną nauką". To nie może być dalej od prawdy.

Gry są modelami rzeczywistości z różną precyzją i różnicami. Zdolność do automatycznego opanowania wykonywania dowolnych zadań w środowiskach o coraz większej złożoności jest ostatecznym celem badań nad sztuczną inteligencją. W końcu świat to tylko środowisko gry, choć jest ono niezwykle złożone. Nie musimy jednak tego wszystkiego rozumieć ani znać dokładnie, aby móc efektywnie grać.

Prowadzenie autonomicznego samochodu to gra. Diagnozowanie pacjentów na podstawie zdjęć rentgenowskich jest grą. Tłumaczenie między językami to gra. Wykrywanie złośliwych e-maili jest grą.

Maszyny stają się lepsze od ludzi przy szybko rosnącej liczbie zadań. Badania nad grami mają również aspekt rozrywkowy i pokazowy, który przyciąga uwagę szerokiej publiczności i pomaga zarówno badaczom, jak i firmom jeszcze szybciej się rozwijać. Daje to również ludziom realny kontekst świata. Każdy grał w szachy, a wielu z nich wie o tym, jak wygląda Starcraft II i jego nieodłączna złożoność, co pozwala szerszej publiczności łatwo porównać obecne wyniki dzisiejszej SI.

Kolejnym ważnym krokiem w tym przedsięwzięciu jest Sztuczna Inteligencja Ogólna lub Silna SI, która jest w stanie zrozumieć i nauczyć się każdego intelektualnego zadania, jakie może wykonać człowiek. Wielu nazywa to ostatecznym ludzkim wynalazkiem, lub świętym Graalem nauki, podczas gdy inni uważają to za niemożliwe, przynajmniej w naszym życiu. Jednak w trakcie dotychczasowej podróży byliśmy świadkami wielu sceptycznych twierdzeń o tym, co jest możliwe do rozbicia na pył.

Perspektywa biznesowa

Nauka maszynowa jest w fazie wzrostu. Wiemy, jak tworzyć systemy, które są w stanie pokonać najlepszych graczy w niezwykle złożonych grach w czasie rzeczywistym z coraz większą łatwością i elastycznością. Przekłada się to bezpośrednio na możliwości zapewnienia nieocenionej pomocy lub całkowitego zastąpienia ludzi w ogromnej liczbie szybko rozwijających się i wyrafinowanych obszarów biznesowych - co jeszcze przed chwilą uważano za niemożliwe.

Komentarze (0)

Zostaw komentarz