Theme 1 Theme 2 Theme 3 Theme 4 Theme 5 Theme 6 Theme 7
Home Impressum Print
kreissl.info[rmation science]
best practices
 
Lernen aus Beobachten

Kapitel 7 - Lernen aus Beobachten

Nennen Sie die Bestandteile des Allgemeinen Modells lernender Agenten!

  • Performanzelement
  • Lernelement
  • Kritik
  • Problemgenerator

Was macht das Performanzelement?

Es wählt externe Aktionen auf Grund von Wahrnehmungen aus. Es steht also für das, was bisher der ganze Agent war.

Was macht das Lernelement?

Das Lernelement ist dafür zuständig Verbesserungen vorzunehmen. Es nimmt als Input Wissen über das Performanzelement und die Rückmeldung aus der Kritikeinheit. Es gibt Verbesserungen an das Performanzelement aus, so daß sich der Agent in Folgeaktionen besser verhält.

Was macht die Kritik-Einheit?

Sie beurteilt das Verhalten des Agenten und sagt dem Lernelement, wie gut sich der Agent verhält. Sie verwendet als Referenz einen fixen extern eingegebenen Performanzstandart, welcher nicht Teil des Agenten ist. Diese Referenz ist notwendig, weil die Wahrnehmungen des Agenten alleine nicht ausreichen, um Aussagen über die Qualität des Agenten treffen zu können. Wäre der Performanzstandard Bestandteil des Agenten, könnte er den Standard an sein Verhalten anpassen.

Was soll der Problemgenerator bewirken?

Er Schlägt Aktionen vor, die zu neuen und informativen Erfahrungen führen. Diese Einheit verleit dem Agenten ein exploratives Verhalten. Ohne diese Einheit, würde der Agent nie etwas neues probieren, sondern immer nur Aktionen basierend auf seinem aktuellen Wissen ausführen.

An welchen vier Punkten orientiert sich der Entwurf des Lernelements?

  1. Welche Komponenten des Performanzelements müssen verbessert werden?
  2. Welche Repräsentation wird für diese Komponenten benutzt?
  3. Welche Rückmeldung ist erhältlich?
  4. Welche Vorabinformation ist erhältlich?

Welche weiteren Komponenten hat ein Performanzelement?

  • Direkte Abbildung von Bedingungen auf Aktionen über den aktuellen Zustand
  • Hilfsmittel zur Ableitung relevanter Eigenschaften der Welt aus den Wahrnehmungsfolgen
  • Informationen über Art und Weise, wie sich Welt verändert
  • Informationen über Ergebnisse möglicher Aktionen des Agenten
  • Nützlichkeitsinformationen, die die Wünschbarkeit von Weltzuständen anzeigen
  • Action-Wert-Informationen, welche die Wünschbarkeit spezieller Aktionen in speziellen Weltzuständen anzeigen
  • Ziele, die Klassen von Zuständen definieren, deren Erreichen den Nutzen des Agenten Maximieren
Jede dieser Komponenten kann gelernt werden, wenn der Agent das entsprechende Feedback erhält. Die Komponenten können unterschiedlich repräsentiert werden (logische Sätze oder probabilistische Formalismen wie Bayessche Netze). Es gibt verschiedenste Lernalgorithmen, welche aber alle auf der gleichen Grundlage operieren.

Nennen Sie die drei grundlegenden Methoden des Lernens!

Überwachendes Lernen

Der Agent kann das Ergebnis seiner Aktionen beobachten oder es wird ihm mitgeteilt. ("Lernen durch Lehrer")

Reinforcement Learning

Der Agent erhält eine Reaktion als Belohnung oder Bestrafung. Es wird ihm aber nicht gesagt, was die richtige Aktion ist. Das muß Agent selbst erforschen.

Nicht überwachendes Lernen

Der Agent erhält kein Feedback über die Wirkungen seiner Aktionen. Er kann nur Beziehungen zwischen seinen Wahrnehmungen lernen. Falls er keine Nutzenfunktion hat, kann der Agent nicht lernen was er tun soll.

Wodurch definiert sich induktives Lernen?

Beim überwachenden Lernen bekommt der Lehrer eine Menge von Beispielen vorgelegt und soll daraus eine Funktion erlernen. Beispiele haben die Form
(x,f(x))
, mit x als Eingabe und f(x) als Ausgabe der zu lernenden Funktion.
Eine reine induktive Inferenz (Induktion) besteht aus der Aufgabe:
  • Bestimme auf Basis einer Menge von Beispielen von f eine Funktion h, genannt die Hypothese, welche f approximiert
  • Im Allgemeinen können viele Hypothesen aus Beispielen generiert werden
  • Wird einer Hypothese einer anderen bevorzugt, so heißt dies ein Bias
  • Da es meist immer eine Großzahl konsistenter Hypothesen gibt, haben Lernalgorithmen einen irgendwie gearteten Bias
Die einfachste Form eines lernenden Agenten ist ein reflexiver lernender Agent. Er kann (Wahrnehmung, Aktion)-Paare erlernen. Die Grundstruktur eines solchen Agenten besteht aus
  • REFLEX-PERFORMANCE-ELEMENT
  • REFLEX-LEARNING-ELEMENT

Klassifizieren Sie die drei Arten von Lernalgorithmen!

  • Lernalgorithmen auf Basis Logischer Sätze als Entscheidungsbäume oder Versionsraum-Ansatz
  • Lernalgorithmen auf Basis nicht linearer numerischer Funktionen als neuronale Netze
  • Lernalgorithmen auf Basis Bayesscher Netze

Lernen von Entscheidungsbäumen

Was wissen Sie über Entscheidungsbäume als Performanzelemente?

Ein Entscheidungsbaum nimmt als Eingabe ein Beschreibung eines Objekt oder einer Situation. Er gibt als Ausgabe ein Wahr oder Falsch an und repräsentiert somit eine boolesche Funktion. Eine Repräsentation höherwertiger Funktionen aber auch möglich. Ein innerer Knoten entspricht einen Test auf den Wert einer der Eigenschaften. Ein Blattknoten entspricht einem booleschen Wert.

Welche Ausdruckskraft haben Entscheidungsbäume?

Entscheidungsbäume repräsentieren Mengen von Implikationen. Sie können nicht beliebige Mengen von Sätzen der Logik erster Stufe repräsentieren. Sie können nur Aussagen über einzelne Objekte (Knoten) treffen. Aussagen über eine Objektmenge sind nicht möglich.
Deshalb ist die Entscheidungsbaumsprache im wesentlichen auch aussagenlogisch. Die Ausdruckskraft von Entscheidungsbäumen entspricht genau der der Aussagenlogik.
Jede boolesche Funktion oder aussagenlogischer Satz kann als Baum dargestellt werden. Man braucht nur die Wahrheitstabelle zu iterieren und jede Zeile als Pfad im Baum interpretieren. Nachteilig ist die hohe Komplexität bei bestimmten Eingaben, welche schnell eine exponentielle Größe erreicht.

Was heißt Induktion von Entscheidungsbäumen aus Beispielen und wie geht dies von statten?

Es wird versucht aus einer Menge von Datensätzen einen Baum zu generieren. Ein Beispiel wird durch die Belegung der Attribute und des Zielprädikates spezifiziert. Der Wert des Zielprädikates heißt Klassifikation des Beispiels. Ist ein Wert des Beispiels wahr so ist es eine positive, sonst eine negative Klassifikation. Die gesamte Menge der Beispiele heißt Trainingsmenge.
Bei der Erstellung eines Entscheidungsbaums soll ein Muster extrahiert werden, welches möglichst viele Fälle in knapper Form darstellen kann.

Ein Allgemeines Prinzip induktiven Lernens ist Ockhams Rasiermesser.

"Die wahrscheinlichste Hypothese ist die einfachste, die mit allen Beobachtungen konsistent ist."

Den kleinstmöglichen Entscheidungsbaum zu finden ist nicht lösbar. Aber mit DECITION-TREE-LEARNING ist es möglich, einen kleinen Baum zu finden. Dieser Algorithmus testet immer das wichtigste Attribut zuerst. Damit ist das Attribut gemeint, nach dem sich die Beispiele am meisten unterscheiden.

Verwendung der Informationstheorie

Erklären Sie das Prinzip des Informationsgewinns!

Die Implementierung der CHOOSE-ATTRIBUTE Funktion ist grundlegend wichtig. Man benötigt eine Einteilung in gute und unnütze Attribute. Beste Werte sollten perfekten Attributen zugeschrieben werden und kleinste den wertlosen Attributen.

Information

  • Ist im Sinne der Shannonschen Informationstheorie zu verstehen
  • In diesem Sinn ist eine Information eine Antwort auf eine Frage
  • Informativ ist eine Antwort dann, wenn sie neue Erkenntnisse bringt
Der Gehalt einer Information wird in Bits gemessen. Ein Bit genügt, um eine Ja/Nein-Frage zu beantworten. Beim Entscheidungsbaum-Lernen wird die Wichtigkeit der einzelnen Attribute in Abhängigkeit von der Anzahl enthaltener positiver und negativer Beispiele berechnet.
Der Informationsgewinn aus dem Attributtest ist definiert durch die Differenz zwischen dem ursprünglichen Informationsbedarf und dem neuen (Gain(a)).
Die in der CHOOSE-ATTRIBUT genutzte Heuristik ist genau die, die das Attribut mit dem größten Informationsgewinn selektiert.

Was ist rauschen Rauschen und Overfitting?

Ist ein allgemeines Problem und tritt nicht nur beim Entscheidungsbaum-Lernen auf. Wenn eine große Menge möglicher Hypothesen gegeben ist, besteht die Gefahr, daß man bedeutungslose Regelmäßigkeiten in den Daten entdeckt, welche die Laufzeit stark verschlechtern. Overfitting kann durch Pruning vermieden werden.

Wie funktioniert das Pruning?

Entdeckte Attribute, welche für Informationsgehalt irrelevant sind werden ignoriert. Dazu müssen aber irrelevante Attribute von relevanten unterschieden werden können. Angenommen man teilt eine Menge von Beispielen mit einem irrelevanten Attribut auf...
Die entstehenden Teilmengen haben dann in der Regel etwa die selbe Verteilung von positiven und negativen Beispielen wie die ursprüngliche Menge. Damit ist der Informationsgewinn annähernd null.
Damit stellt sich aber die Frage, ab wann es sich lohnt ein Attribut zur Aufteilung einer Menge zu verwenden und wann nicht.
Dazu werden Signifikanztests herangezogen...
  • Er beginnt mit Annahme, es gebe kein zugrundeliegendes Muster (Nullhypothese)
  • Dann wird berechnet, wie weit die Daten vom vollständigen Fehlen eines Musters abweichen
  • Wenn der Grad der Abweichung statistisch unwahrscheinlich ist, dann besteht beträchtliche Evidenz für das Vorliegen eines signifikanten Musters in den Daten
Im Fall der Entscheidungsbäume ist die Nullhypothese, daß das gerade betrachtete Attribut irrelevant ist und so der Informationsgewinn für eine unendlich große Menge Beispielen null ist. Nun muß die Wahrscheinlichkeit dafür berechnet werden, daß unter Annahme der Nullhypothese eine Beispielmenge die beobachtete Abweichung von der beobachteten Verteilung der positiven und negativen Beispiele vergleicht.
Puring liefert bei stark vertauschten Daten bessere Ergebnisse.

Welche Erweiterungen der Anwendbarkeit von Entscheidungsbäumen sind notwendig?

Es müssen Maßnahmen getroffen werden, um fehlende Daten zu ergänzen. Attribute müssen mit besonderen Eigenschaften verwendbar gemacht werden.

Fehlende Daten

Oft sind nicht alle Attributwerte für jedes Beispiel bekannt, da sie entweder nicht erfaßt oder erfaßbar sind. Dabei treten zwei Probleme treten auf:
  • Wie soll man den Baum konstruieren, wenn bei einigen Beispielen die Werte fehlen?
  • Wie soll ein neues Beispiel klassifiziert werden, wenn eins der Testattribute nicht anwendbar ist?

Attribute mit fehlenden Werten

Ist Zahl der Werte eines Attributes sehr hoch, kann es passieren, daß der Informationsgehalt als sehr hoch eingeschätzt wird, obwohl dies nicht der Fall ist. Solche Attribute müssen mit der Gain Ratio behandelt werden.

Attribute mit kontinuierlichen Werten

Attribute wie Größe oder Gewicht haben kontinuierliche Wertebereiche. Um sie für Entscheidungsbaum-Lernen verwendbar zu machen, müssen die Wertebereiche diskretisiert werden. Dies wird meist manuell gemacht.
Eine bessere Möglichkeit ist, die Attribute im Rahmen des Lernprozesses vorab zu untersuchen und eine sinnvolle Unterteilung des Wertebereiches zu finden.
Intelligente Agenten
Agententypen, Eigenschaften einer Agentenumgebung, Problemformulierung, Problemtypen, Zustandsraum
Lösen durch Suchen
Knoten, Rand, allgemeiner Suchalgorithmus, blinde Suchverfahren, heuristische Suchfunktionen, Optimierung
Schlußfolgern
Wissensbasis, Inferenzmaschine, autonom, Wissensrepräsentation, Konsequenz, Inferenzen, Aussagenlogik
Logik 1. Ordnung
Eigenschaften und Bestandteile, Symbole und Sätze,Ortsbestimmung, Ableiten, Vorwärts- und Rückwärtsverkettung
Planen
Repräsentationen, Ziele und Aktionen, Situationsraum, Planraum, Kausale Kanten, Promotion, Demotion
Handeln
Bedingtes Planen, Ausführungsüberwachung, Unsicherheit, Evidenz, Wahrscheinlichkeitsaxiome, Bayessche Regel
Beobachten
Modell lernender Agenten, Performanzelement, Lernelement, Kritik, Problemgenerator, induktives Lernen
Neuronale Netze
Struktur, Begriffe, Rechenelemente, Perzeptron, Anwendungen
Quelle: Die Ausarbeitung basiert auf dem Skript von Prof. Dr. Werner Dilger
PDF download:
Kleine ÜbersichtMerkblatt
KI EinführungZusammenfassung
Die wichtigsten StichwörterStichwörter
Logik als GrammatikGrammatiken
Alle Regeln im ÜberlblickInferenzen



last change 16.12.2009 10:04:53  © 2002 - 2009 Holger Kreissl


Valid XHTML 1.0 Transitional