Wie werden KI‘s eigentlich trainiert? Eine Einführung in Reinforcement Learning.

​Das Thema Künstliche Intelligenz (KI) ist allgegenwärtig und betrifft uns früher oder später alle. Doch was verbirgt sich eigentlich hinter der Faszination KI? Wie funktioniert sie und welche Auswirkungen hat sie auf unser alltägliches Leben und die Zukunft unserer Gesellschaft? Mit der neuen e-dynamics Blogbeitragsserie möchten wir ein tieferes Verständnis für KI fördern und dazu einladen, die spannenden Möglichkeiten sowie die damit verbundenen Herausforderungen anhand von Beispielen aus der Praxis kennenzulernen. Begleitet uns in die faszinierende Welt der Künstlichen Intelligenz!

In unseren ersten beiden Beiträgen haben wir mit den Basics gestartet: Was ist überhaupt eine KI? und Inwiefern unterscheiden sich KI’s voneinander?
Mit dem dritten Beitrag der Serie tauchen wir etwas tiefer in die Materie ein und widmen uns der Frage, wie KI’s trainiert werden und unterscheiden dabei zwischen Supervised Learning, Unsupervised Learning und Reinforcement Learning.

In dieser Ausgabe widmen wir uns dem Reinforcement Learning, was so viel bedeutet wie „Lernen durch Belohnung“. Jeder Hundebesitzer kennt es: Um meinem Hund einen neuen Trick beizubringen, geht meist kein Weg am Kauf von vielen Leckerlis vorbei. Die Belohnung vermittelt dem Hund, welches Verhalten richtig ist und somit ist dieser in der Lage, zu lernen und sich entsprechend anzupassen.

BlogBeitrag KI Reinforcement Learning

Genau diesen Ansatz möchten wir uns beim Reinforcement Learning, im Deutschen „Bestärkendes Lernen“, zu Nutze machen. Eine künstliche Intelligenz agiert in einer definierten Umgebung, um die beste Strategie zur Erreichung eines festgelegten Ziels zu finden. Ein Feedbacksystem ermöglicht der KI durch Belohnungen oder Strafen seine Strategien zur Zielerreichung zu bewerten. In mehreren Durchläufen kann die KI auf diesem Weg ihr Verhalten stetig anpassen, sodass die Wahrscheinlichkeit für einen Erfolg maximiert wird.

Wie funktioniert Reinforcement Learning?

Der Lernprozess beim Reinforcement Learning wird auch Markov-Entscheidungsprozess (MDP) bezeichnet und enthält folgende Bestandteile:

1. Die Umgebung (Environment)

Der Raum, in dem der Lernprozess stattfindet. Dieser kann einen physikalischen Raum, z.B. ein Labor oder ein Spielfeld darstellen, kann aber auch rein virtuell vorgegeben sein.

2. Zustände

Zustände beschreiben alle relevanten Merkmale der Umgebung. Die Zustände verändern sich im Laufe der Zeit durch unterschiedliche Einflussfaktoren.

3. Der Agent

Der Agent, bzw. die KI, kann in einem vordefinierten Rahmen mit seiner Umgebung interagieren.

4. Aktionen

Die Aktionen stellen mögliche Interaktionen zwischen Agenten und Umgebung dar. Die Auswahl an möglichen Aktionen ist häufig stark abhängig vom momentanen Zustand der Umgebung. Die Durchführung einer Aktion hat wiederum zur Folge, dass sich der Zustand der Umgebung verändert.

5. Belohnungen / Strafen

Rückmeldungen an den Agenten, welche die Aktionen hinsichtlich der Zielerreichung bewerten. Eine Belohnung für eine bestimmte Aktion ermutigt den Agenten, diese Aktion zu wiederholen. Eine Strafe bewegt den Agenten dazu andere Strategien zu erkunden. Das entsprechende Feedbacksystem wird vom Entwickler der KI vorgegeben.

Der Lernprozess

Die Basis des Reinforcement Learnings liegt im folgenden Kreislauf.

  1. Der Agent erfasst den momentanen Zustand der Umgebung.
  2. Aus der Menge der möglichen Aktionen wählt der Agent eine Aktion, die zu seiner Strategie am besten passt.
  3. Der Zustand der Umgebung ändert sich entsprechend der durchgeführten Aktion. Die Änderung des Zustands wird analysiert. Hatte die Aktion einen positiven Effekt auf die Zielerreichung, so wird eine Belohnung ausgesprochen. Bei einem negativen Effekt wird eine Bestrafung erteilt.
  4. Basierend auf diesem Feedback aktualisiert der Agent seine Strategie, indem er das Feedback bei ähnlichen Zuständen in Zukunft berücksichtigt.

Diese Schritte durchläuft die KI so lange bis entweder keine weiteren Aktionen mehr möglich sind oder die Zielerreichung nicht weiter verbessert werden kann. Anschließend wird ein neuer Durchlauf vom Startzustand der Umgebung mit der bereits angepassten Strategie begonnen. Dies wird so lange wiederholt, bis die KI eine Strategie zur Zielerreichung identifiziert hat. Der ganze Lernprozess ist also im Grunde ein intelligenter Trial-and-Error-Prozess.

Die Lerngeschwindigkeit bzw. sogar, ob der Prozess überhaupt zum gewünschten Ergebnis führt, ist dabei stark vom gewählten Feedbacksystem abhängig. Bei unpassenden Belohnungen bzw. Strafen kann es nämlich vorkommen, dass die KI nicht zielführende Strategien entwickelt oder sich in Sackgassen manövriert. Wird beispielsweise bei einer KI für autonomes Fahren ausschließlich das Vermeiden von Kollisionen belohnt, so lernt die KI unter Umständen sich überhaupt nicht zu bewegen.

Um den Lernprozess des Reinforcement Learnings zu beschleunigen, werden außerdem häufig mehrere KI’s gleichzeitig trainiert und die Ergebnisse nach den Durchläufen zu einer gemeinsamen, „besten Strategie“ zusammengefasst.

Vorteile und Herausforderungen von Reinforcement Learning

Wie bei jeder Lernmethode gibt es auch beim Reinforcement Learning einige Vorteile, aber auch Herausforderungen, die wir im Folgenden einmal näher untersuchen werden.

Vorteile:

  • Flexibilität: Reinforcement Learning kann für verschiedene Fälle und Umgebungen angewendet werden, da die KI stets selbstständig nach einer Lösung suchen kann.
  • Selbstständiges Lernen: Der Agent oder die künstliche Intelligenz braucht, anders als beim Supervised Learning, keine vorab gekennzeichneten Trainingsdaten, sondern kann allein durch die eigenen Erfahrungen einen Lernerfolg erreichen.
  • Langfristige Optimierung: Je nach Anwendungsfall können durch genügend lange Trainingszeiten KI’s entwickelt werden, die bei der Erreichung der Ziele die Fähigkeiten von Menschen übertreffen. Dies resultiert vor allem aus der Tatsache, dass keine menschlichen Strategien nachgeahmt werden, sondern die KI ihren eigenen optimalen Weg definiert.
  • Spaß: Gerade, wenn das Training der KI visuell verfolgt werden kann, ist es sehr unterhaltsam, sie beim Erforschen und Testen von verschiedenen Strategien zu beobachten.

Herausforderungen:

  • Rechenintensiv und langsam: Die Lerngeschwindigkeit in gerade zu Beginn des Trainings sehr langsam, weshalb mehrere KI’s gleichzeitig über lange Zeiträume trainiert werden müssen.
  • Feedback-Engineering: Ein ungeeignetes Feedbacksystem beeinflusst den Erfolg des Trainings maßgeblich. Daher ist die Definition der Belohnungen und Bestrafungen enorm wichtig und kann sehr komplexe Ausmaße annehmen.
  • Sicherheits- und Kostenrisiken: Für bestimmte Anwendungen, z.B. autonomes Fahren, können KI’s nur in gesicherten Umgebungen mittels Reinforcement Learning trainiert werden, da das Trial-and-Error-Prinzip einerseits zu hohen Sicherheitsrisiken für andere Beteiligte und andererseits zu hohen Kosten im Test-Setup führen kann.

Anwendungsbeispiele von Reinforcement Learning

  1. Autonomes Fahren: Wie bereits erwähnt, können selbstfahrende Autos mit Hilfe des Reinforcement Learning Ansatzes trainiert werden.
  2. Spiele: Spiele, wie Schach oder auch Go, eignen sich durch ihre festgelegten Regeln und das begrenzte Spielfeld sehr gut für die Entwicklung von KIs. Dabei findet das Training der KI effizient bei Spielen gegen sich selbst statt.
  3. Empfehlungssysteme: Vorschläge für weitere passende Artikel werden von vielen Anbietern im E-commerce angewandt. Die Wahl der vorgeschlagenen Artikel beruht häufig auf durch Reinforcement Learning trainierten KI’s.

Fazit

Reinforcement Learning ist eine sehr spannende und realitätsnahe Trainingsmethode. Maschinen wird es ermöglicht, durch Erfahrung autonom dazu zu lernen. Aufgrund der Flexibilität bietet es in vielen komplexen Umgebungen vielfältige Anwendungen an. Daher wird das Reinforcement Learning auch in der Zukunft eine bedeutende Rolle im KI-Spektrum spielen.

Eine weitere Methode, um KI’s zu trainieren ist das Unsupervised Learning. Im nächsten Blogpost widmen wir uns diesem Trainingsansatz. Stay Tuned!

STARTET JETZT MIT UNSERER EXPLAINABLE AI-ALLZWECKWAFFE DURCH!
ED.DETECT  AUTOMATISIERT EURE PROZESSE & SORGT FÜR DEN MAXIMALEN BUSINESS BOOST.

Findest Du das Thema KI spannend oder hast Du Fragen zu den unterschiedlichen Trainingsmethoden von Künstlicher Intelligenz? Dann melde Dich gerne direkt bei uns.