Nachrichten & Berichte

Ankündigungen, Nachrichten und Berichte aus der Welt des Go-Spiels

Partien & Theorie

Partien, Kommentare und Theorie aus der Welt des Go-Spiels

Kultur & Geschichte

Interesseantes und Hintergründiges aus der Welt des Go-Spiels

Dies & Das

Spannendes und Nebensächliches rund um die Welt des Go-Spiels

Verlag & Shop

Aktivitäten, Aktionen und Angebote aus dem Hebsacker Verlag

Home » Nachrichten & Berichte, Top-Artikel, Videos

AlphaGo Zero – von 0 auf 100 in nur 40 Tagen!

Von | 19. Oktober 2017

Die Forschung auf dem Gebiet der künstlichen Intelligenz ist in der Spracherkennung und Bilderkennung, in der Genforschung und Medikamentenentwicklung aktiv. In vielen Fällen handelt es sich dabei um Spezialsysteme, die enorme Mengen an menschlichem Know-how und durch Menschen produzierte oder beeinflusste Daten nutzen. Dieses menschliche Wissen kann jedoch unzuverlässig oder nicht verfügbar sein. Daher ist es ein zentrales Ziel der KI-Forschung, diesen Schritt zu umgehen und Algorithmen zu entwickeln, die Fortschritt ohne menschlichen Eingriff erzielen. In ihrem jüngsten Aufsatz in der Zeitschrift Nature beschreibt das AlphaGo-Team von Google Deepmind einen bedeutenden Schritt in diese Richtung.

Das neue Nature-Paper stellt AlphaGo Zero vor, die neusten Version von AlphaGo, die noch deutlich stärker ist als ihre Vorgänger. Frühere Versionen von AlphaGo trainierten zunächst auf der Basis von Amateur- und Profipartien, um zu lernen, wie man Go spielt. AlphaGo Zero lernte nun das Spiel einfach durch Partien gegen sich selbst, beginnend mit kompletten Zufallszügen. Dabei übertraf AlphaGo Zero sehr schnell das menschliche Spielniveau und besiegte die zuvor veröffentlichte Version von AlphaGo, die 2016 Lee Sedol 9p mit 4:1 geschlagen hat, bei 100 Partien mit unglaublichen 100 Siegen und 0 Niederlagen.

Dies gelang durch eine neuartige Form des “Verstärkungslernens”, bei der AlphaGo Zero zu seinem eigenen Lehrer wird. Das System beginnt mit einem neuronalen Netz, das nichts über das Spiel von Go weiß und spielt dann Spiele gegen sich selbst, indem es dieses neuronale Netzwerk mit einem leistungsfähigen Suchalgorithmus kombiniert. Während das Programm spielt, wird das neuronale Netz neu eingestellt und aktualisiert, um Züge, sowie den möglichen Gewinner der Partien jeweils vorherzusagen. Dieses aktualisierte neuronale Netz wird dann mit dem Suchalgorithmus rekombiniert, um eine neue, stärkere Version von AlphaGo Zero zu erstellen – und danach beginnt dieser Kreislauf erneut. Bei jeder Iteration verbessert sich die Leistung des Systems ein wenig und die Qualität der Selbstspiel-Spiele steigt, was zu immer genaueren neuronalen Netzen und immer stärkeren Versionen von AlphaGo Zero führt. Und diese Technik ist tatsächlich mächtiger als frühere Versionen von AlphaGo, weil sie nicht mehr durch die Grenzen des menschlichen Wissens begrenzt ist. Stattdessen kann sie vom stärksten Spieler der Welt lernen – von sich selbst.

Es unterscheidet sich auch in anderer Hinsicht von früheren Versionen seiner selbst. AlphaGo Zero verwendet allein die schwarz-weißen Steine des Go-Boards als Input, während frühere Versionen von AlphaGo einige von Menschen geschriebene Features enthielten. Und es verwendet ein neuronales Netz statt zwei. Frühere Versionen von AlphaGo benutzten ein “policy network”, um den nächsten Zug auszuwählen, und ein “value network”, um den Gewinner des Spiels in jeder Brettposition vorherzusagen. Diese werden nun in AlphaGo Zero zusammengefasst und können so effizienter trainiert und ausgewertet werden. AlphaGo Zero verwendet keine “Rollouts” mehr – schnelle, zufällige Partien, die von anderen Go-Programmen verwendet werden, um vorherzusagen, welcher Spieler in der aktuellen Board-Position gewinnt. Stattdessen stützt sich diese AlphaGo-Version bei der Bewertung von Positionen auf seine eigenen, hochqualitativen neuronalen Netze. All diese Unterschiede tragen dazu bei, die Performance des Systems zu verbessern und es allgemeiner zu gestalten.

Nach nur drei (!) Tagen Eigentraining hat AlphaGo Zero die zuvor veröffentlichte Version von AlphaGo, die Lee Sedol geschlagen hatte, 100:0 geschlagen. Nach 40 Tagen Selbsttraining wurde AlphaGo Zero noch bedeutend stärker und übertraf die Version von AlphaGo, die Anfang des Jahres als “Master” bekannt geworden ist und die den Weltranglistenersten Ke Jie geschlagen hat. Im Laufe von Millionen AlphaGo-Zero-Spielen gegen sich selbst lernte das System nach und nach Go von Grund auf neu und sammelte Tausende von Jahren menschlichem Wissen innerhalb nur wenigen Tagen. AlphaGo Zero entdeckte dabei natürlich auch neues Wissen, entwickelte unkonventionelle Strategien, die die Techniken, die es in den Spielen gegen Lee Sedol und Ke Jie gespielt hatte, noch übertraf. Und genau diese Kreativität gibt dem Deepmind-Team die Zuversicht, dass künstliche Intelligenz bei der Lösung der zentralen Herausforderungen der Menschheit helfen wird. AlphaGo Zero ist zwar noch in den Anfängen, stellt aber einen entscheidenden Schritt in die Richtung einer allgemeinen künstlichen Intelligenz dar. Wenn vergleichbare Programme auf andere Probleme wie die Proteinfaltung, Energieeffizienz oder bei der Suche nach neuen Materialien angewandt werden können, haben die daraus resultierenden Ergebnisse vermutlich das Potenzial, neuartige und bedeutende Lösungen zu finden.

Hier nun einige AlphaGo-Zero-Partien (und alle derzeit verfügbaren Alphago-Zero-Partien):

Alpha Zero vs. Alpha Lee

Alpha Zero vs. Alpha Master

 

Dieser Artikel basiert auf den Informationen von Deepminds AlphaGo-Website 

Themen: , , , , , ,

Hinterlassen Sie einen Kommentar!

Seien Sie bitte so nett, bleiben Sie beim Thema und hinterlasen Sie keinen Spam.