Das maschinelle Lernen entspricht einem Teilgebiet der „Künstlichen Intelligenz“ und befasst sich mit dem Erlernen neuen Wissens durch IT-Systeme. Dieser Wissenserwerb erfolgt durch Algorithmen, welche in bestehenden Datensätzen spezifische Muster und Regelmäßigkeiten erkennen. Das erworbene Wissen soll dabei durch das System verallgemeinert werden, sodass auch bei neuen und unbekannten Daten Rückschlüsse gezogen werden können.
Zunächst müssen dem IT-System jedoch alle für das Erlernen benötigten Daten sowie die entsprechenden Algorithmen zur Verfügung gestellt werden. Diese werden dann genutzt, um das System stufenweise zu trainieren. Die verwendeten Algorithmen, das heißt sich nach einem bestimmten (wiederholendem) Schema richtende Rechenvorgänge, lassen sich der Kategorie des „überwachten Lernens“ zuordnen. Ziel dessen ist die Definition einer Funktion, welche unbekannte Beobachtungen einer bestimmten Klasse (Klassifikation) oder einem bestimmten Wert (Regression) zuordnen kann.
Grundsätzlich lassen sich die Prozesse des maschinellen Lernens in unterschiedliche Teilschritte differenzieren, bei denen im Falle des überwachten Lernens zu Beginn die Erhebung der Datenmenge steht. Liegen die Daten bereits in digitaler Form vor, entfällt der Schritt der Digitalisierung. Darauf folgt eine Aufbereitung der Daten, bei der irrelevante Bereiche eines Bildes geschwärzt oder Störsignale in Audiospuren entfernt werden können, um die Mustererkennung zu optimieren. Im daran anschließenden Teilschritt ist es nötig, alle vorhandenen und bekannten Daten mit einer entsprechenden Beschriftung zu labeln bevor diese final in die Software des IT-Systems eingeladen werden.
Aufgrund der gelabelten Beispiele lernt das System und versucht eine Funktion zu entwickeln, die neue unbekannte Daten einer Klasse zuordnen kann. Die erhaltenen Ergebnisse werden überprüft und die Gewichtungen des Lernprozesses angepasst, bis eine definierte Erfolgsquote bei der Zuordnung erreicht wird.
Ist die Aufgabe beispielsweise, ein Objekt in einem Bild zu erkennen, so wird erwartet, dass das Label des Inputs sowie des Outputs übereinstimmen. Ist dies nicht der Fall, muss das System mit einer Anpassung reagieren, bis das Ergebnis korrekt ist (Abbildung 2+3).