Blog

Werkzeugkoffer KI -
Überblick über häufig verwendete Verfahren

Von Lena Ferber am 24. Mai 2024

Im ersten Teil dieser Reihe haben wir uns die wahren Superhelden der KI angeschaut. Weiter geht es hier mit Entscheidungsbäumen und Random Forest, zwei weitere mächtige Werkzeuge, die uns helfen, komplexe Datenmuster zu entschlüsseln und fundierte Vorhersagen zu treffen. 

  • Neuronale Netze: Modelle, die vom Aufbau des menschlichen Gehirns inspiriert sind.
  • Entscheidungsbäume: Einfache, aber effektive Modelle zur Klassifizierung und Regression*.
  • Random Forest: Ein Ensemble-Verfahren, das aus einer Vielzahl von Entscheidungsbäumen besteht.
*Eine Klassifizierung ordnet Datenpunkten Kategorien zu, während eine Regression numerische Werte vorhersagt.
  • Zeitreihenprognose: Verfahren zur Vorhersage zukünftiger Werte einer Zeitreihe.

Teil 2 | Entscheidungsbäume und Random Forest:
Navigieren im Dickicht der Daten

Was genau verbirgt sich hinter diesen mystischen Begriffen und wie können sie uns im Alltag nützen? Tauchen wir ein in das faszinierende Reich der Entscheidungsfindung und entdecken, wie diese cleveren Algorithmen Licht ins Dunkel der Daten bringen.

Entscheidungsbäume: Wegweiser durch den Datenwald

Stellen Sie sich einen Baum vor, der voller wertvoller Informationen steckt. Anstatt Blätter trägt dieser Baum jedoch Fragen und Antworten. Ein Entscheidungsbaum im maschinellen Lernen funktioniert ganz ähnlich. Er führt uns Schritt für Schritt durch den Datendschungel, indem er uns gezielte Fragen zu den einzelnen Merkmalen stellt. Basierend auf unseren Antworten verzweigt sich der Pfad und führt uns schlussendlich zu einem Ergebnis – der Vorhersage. Schauen wir uns das an einem einfachen Beispiel an:

Beispiel: Handelt es sich bei einer Person um einen echten Allgäuer? 

Unser Entscheidungsbaum fragt uns:

1. Ist die Person im Allgäu geboren? 

  • Ja → ist Allgäuer
  • Nein → weiter zu Frage 2

2. Spricht die Person Allgäuer Dialekt?

  • Ja → ist Allgäuer
  • Nein → weiter zu Frage 3

3. Lebt die Person seit über 25 Jahren im Allgäu? 

  • Ja → ist Allgäuer
  • Nein → ist kein Allgäuer

Entscheidungsbäume im Bereich des maschinellen Lernens sind sehr Anfängerfreundlich: Sie sind einfach zu verstehen und zu interpretieren, selbst ohne tiefgründiges Statistik Wissen. Dank ihrer baumartigen Struktur lassen sie sich visuell ansprechend (siehe Abbildung XY)  darstellen, was die Fehlersuche und das Verständnis der Modellentscheidungen erheblich erleichtert. Flexibel eingesetzt werden können sie zudem für sowohl kategoriale (z.B. „Ja“ oder „Nein“) als auch numerische (z.B. Temperatur) Daten.

Doch wie so oft im Leben hat auch diese Medaille zwei Seiten:  Bei sehr großen und komplexen Datensätzen können Entscheidungsbäume sehr umfangreich und unübersichtlich werden. Zudem können Entscheidungsbäume anfälliger für Overfitting sein. Das bedeutet, dass sie sich manchmal zu stark an den Trainingsdatensatz anpassen und dadurch ihre Fähigkeit verlieren, neue, unbekannte Daten korrekt zu klassifizieren oder vorherzusagen. Um dieses Risiko zu minimieren, kombiniert man häufig viele Entscheidungsbäume zu einem sogenannten Random Forest. 

Random Forest: Die Weisheit der Vielen

Stellen Sie sich nun einen ganzen Wald voller Entscheidungsbäume vor. Jeder Baum hat seine eigene einzigartige Perspektive auf die Daten. Random Forest, der clevere Cousin des Entscheidungsbaums, vereint die Weisheit dieser vielfältigen Experten, um noch zuverlässigere und robustere Vorhersagen zu treffen.

Wie funktioniert ein Random Forest?

  1. Viele verschiedene Bäume pflanzen: Statt einen einzelnen Entscheidungsbaum zu erstellen, trainiert Random Forest eine Vielzahl von Bäumen mit jeweils einem Teil des Datensatzes.
  2. Demokratie im Wald: Jeder Baum darf seine eigene Vorhersage für neue Daten treffen.
  3. Abstimmen und gewinnen: Die Vorhersagen aller Bäume werden gesammelt und ausgezählt. Diejenige Kategorie oder derjenige Wert, der die meisten Stimmen erhält, wird als endgültige Vorhersage des Random Forest ausgegeben.

Höhere Genauigkeit ist das Motto von Random Forest. Durch die Kombination der Vorhersagen mehrerer Bäume kann dieser clevere Algorithmus die Genauigkeit im Vergleich zu einzelnen Entscheidungsbäumen deutlich verbessern. Robustheit ist ein weiterer Trumpf. Der Ensemble-Ansatz macht ihn weniger anfällig für Overfitting und somit robuster gegenüber verrauschten oder unvollständigen Daten. Effizienz ist der dritte im Bunde. Dank intelligenter Algorithmen kann Random Forest auch auf große Datensätze effizient angewendet werden.

Doch auch Random Forest ist nicht perfekt. Seine Funktionsweise ist etwas komplexer als die eines einzelnen Entscheidungsbaums, was die Interpretation der Ergebnisse erschweren kann. Zudem kann das Training eines Random Forest rechenintensiver sein als das Training einzelner Entscheidungsbäume.

Trotz dieser Nachteile ist Random Forest ein leistungsstarkes Werkzeug, das in vielen Bereichen eingesetzt werden kann, z. B. in der Finanzwelt, im Marketing oder in der Medizin.

Sie möchten mehr über die individuelle Entwicklung von KI-Projekten erfahren und interessieren sich dafür wie auch Ihr Unternehmen von Künstlicher Intelligenz profitieren kann?

Kontaktieren Sie uns gerne für eine unverbindliche Beratung.