Skip to main content

Machine Learning-Glossar

Tatsächlich

Tatsächliche Werte sind Werte in Ihrem Dataset, die angeben, zu welcher Kategorie eine Zeile gehört. Wenn Sie beispielsweise ein Dataset zur Kundenabwanderung haben, könnte es eine Spalte mit Ja- und Nein-Variablen enthalten, die angeben, ob ein Kunde abgewandert ist oder nicht. Es handelt sich um die tatsächlich beobachteten Werte, mit denen Sie Ihr Machine Learning-Modell trainieren können.

Tatsächlich vs. Prognostiziert

In einem Diagramm mit der Gegenüberstellung von tatsächlichen und prognostizierten Werten werden die tatsächlichen Werte aus Ihren Trainingsdaten den prognostizierten Werten gegenübergestellt, die Ihr Modell für Ihr Ziel ausgibt. Modelle mit niedrigeren Fehlerbewertungen enthalten Datenpunkte, bei denen die tatsächlichen Werte näher an den prognostizierten Werten liegen.

Angepasstes R²

Angepasstes R² ist ein normalisiertes Anpassungsmaß, das angibt, inwieweit Ihre Eigenschaften die Variation in Ihrem Ziel erklären. Verwenden Sie dieses Maß, um zu vergleichen, wie gut verschiedene Regressionsalgorithmen ähnliche Daten modellieren. Bewertungen liegen zwischen 0 und 1, wobei 1 eine optimale Eignung darstellt.

Algorithmus

Ein Algorithmus ist ein Verfahren, das ein Rechner verwendet, um ein Problem zu lösen. Unter Beachtung einer Reihe von Regeln erstellt ein Algorithmus ein Modell anhand von Trainingsdaten, die eine Reihe von Eigenschaften enthalten. Wenn das Modell neue Daten erfasst, kann es ein Ergebnis prognostizieren. Beispiele für Algorithmen sind die Forest-Zufallsfunktion, der Entscheidungsbaum und die logistische Regression.

Boolesch

Boolesche Daten stellen Werte dar, die nur einen von zwei Zuständen annehmen können, z. B. wahr oder falsch.

Kategorial

Kategoriale Eigenschaften enthalten eine begrenzte Anzahl an Werten, die verschiedene Kategorien repräsentieren, etwa den Kreditstatus einer Person mit den Werten „genehmigt", „abgelehnt" und „kein".

Kollinearität

Kollinearität liegt vor, wenn zwei oder mehr Eigenschaften dasselbe messen. In diesen Fällen haben Sie möglicherweise mehrere Features, denen Ihr Modell eine zu hohe Gewichtung zuweist. Kollinearität kann das Maß der Permutationsbedeutung (Permutation Feature Importance, PFI) verzerren.

Überlegungen zur Permutationsbedeutung

Die Permutationsbedeutung (Permutation Feature Importance, PFI) ist eine effektive Methode, um zu messen, wie wichtig die jeweiligen Eigenschaften für Ihr Modell sind. Es gibt dabei aber Einschränkungen. Sie ist anfällig für Probleme mit Kollinearität, Interaktionseffekten und NaN-Werten (Not a Number/keine Zahl). Überprüfen Sie Ihre Daten sorgfältig, um sicherzustellen, dass keines dieser Probleme Ihr Modell beeinträchtigt.

Konstante

Wenn Sie diese Option wählen, interpretiert die Assistierte Modellierung leere Felder als fehlende Werte. Wählen Sie diese Option, wenn Sie der Meinung sind, dass der Modellierungsalgorithmus in den fehlenden Werten selbst eine Bedeutung finden könnte, da dieser manchmal Muster in den fehlenden Daten finden kann. Sie können diese Option auch dann auswählen, wenn Sie glauben, dass andere Methoden zur Behandlung fehlender Daten Ihr Modell beeinträchtigen könnten.

Feature auslassen

Wenn Sie diese Option wählen, verwendet die Assistierte Modellierung diese Feature nicht für das Modell. Wählen Sie diese Option, wenn Ihr Dataset zu viele fehlende Werte enthält.

Feature

Eigenschaften sind messbare Gruppen von Werten, die Sie zur Prognose des Ziels verwenden können. Ein Modell hat in der Regel mehrere Eigenschaften von unterschiedlicher Bedeutung. Bei einem Regressionsproblem, z. B. dem Versuch, den Kurs einer Aktie zu prognostizieren, könnte die Gruppe der Eigenschaften aus dem täglichen Anfangskurs, dem Endkurs und der Anzahl der Transaktionen bestehen. Bei einem Klassifizierungsproblem, z. B. bei dem Versuch, die Zugehörigkeit einer Schwertlilie zu einer bestimmten Blumenart zu prognostizieren, könnten die Eigenschaften die Länge und Breite der Kelch- und Blütenblätter sein.

Bedeutung der Eigenschaften

Die Assistierte Modellierung verwendet die Methode der Permutationsbedeutung (Permutation Feature Importance, PFI), um die Bedeutung jeder Eigenschaft für Ihr Modell zu messen, indem Eigenschaften anhand des Testdatasets bewertet werden. Verwenden Sie dieses Maß, um festzustellen, welche Features für Ihr Modell am wichtigsten sind. Sie können dieses Maß auch verwenden, um Features zu identifizieren, die Ihr Modell durch eine zu schwache oder zu starke Assoziation mit dem Ziel dem Risiko eines Generalisierungsfehlers aussetzen könnten.

Gini

Gini Unreinheit (Gini) ist ein Maß für den Beitrag einer Eigenschaft, wobei jeder Eigenschaft ein Prozentsatz zugewiesen wird, der angibt, wie viel sie zum gesamten Prognosemodell beiträgt. Die Assistierte Modellierung verwendet dieses Maß in Verbindung mit einem Entscheidungsbaum, um Eigenschaften auszuwählen, die entsprechend ihrer Beiträge gute Prädiktoren sind. Verwenden Sie Gini, um Features zu identifizieren, die Ihr Modell dem Risiko eines Generalisierungsfehlers aussetzen könnten, weil sie zu viel oder zu wenig beitragen.

ID

Bei der Assistierten Modellierung werden ID-ähnliche Spalten beim Festlegen von Datentypen weggelassen, da Sie diese nicht zur Prognose eines Ziels verwenden können. ID-ähnliche Daten stellen Werte dar, die sowohl eindeutig als auch diskret sind. Diese Features (Eigenschaften) enthalten Informationen wie eine Kunden-ID oder eine Transaktionsnummer.

NaN-Werte (Not a Number/keine Zahl)

Ein NaN-Wert kann entstehen, wenn Sie eine Methode wie die Permutationsbedeutung verwenden, die die Werte in Ihrem Dataset neu anordnet. In diesen Fällen könnten Sie Datenzeilen haben, die keinen Sinn ergeben, z. B. ein Haus mit weniger Türen als geschlossenen Räumen. NaN-Werte können das Maß der Permutationsbedeutung verzerren.

Interaktionseffekt

Ein Interaktionseffekt tritt auf, wenn zwei oder mehr Features (Eigenschaften) ein Ziel viel stärker (oder viel weniger) beeinflussen als sie es unabhängig voneinander tun würden. In diesen Fällen haben Sie möglicherweise Features mit über- oder unterbetonten Effekten auf das Ziel. Interaktionseffekte können das Maß der Permutationsbedeutung verzerren.

MAE

Der mittlere absolute Fehler (Mean Absolute Error, mae) gibt an, wie gut Ihr Regressionsmodell zu Ihren Daten passt. MAE ähnelt der Wurzel der mittleren Fehlerquadratsumme (Root Mean Square Error, rmse), wird jedoch weniger von Ausreißern beeinflusst. Höhere Bewertungen deuten auf mehr Fehler und schlechtere Anpassung hin. Bewertungen von 0 deuten auf keine Fehler und optimale Anpassung hin.

Max. Fehler

Max. Fehler ist ein Maß für die größte Differenz zwischen prognostizierten und tatsächlichen Werten. Verwenden Sie dieses Maß, um das Worst-Case-Szenario für Ihr Regressionsmodell abzuleiten. Höhere Bewertungen deuten auf mehr Fehler hin. Bewertungen von 0 deuten auf keine Fehler und optimale Anpassung hin.

Mittelwert

Wenn Sie diese Option wählen, ersetzt die Assistierte Modellierung fehlende Werte durch die Summe aller Zeilen eines Features dividiert durch die Gesamtanzahl der Zeilen. Verwenden Sie diese Methode nur für numerische Daten. Wir empfehlen diese Option, wenn Ihre Daten normal verteilt sind und keine Ausreißer enthalten.

Median

Wenn Sie diese Option wählen, ersetzt die Assistierte Modellierung fehlende Werte durch die Zahl, die den Mittelpunkt der Verteilung Ihrer Feature darstellt. Wir empfehlen diese Option, wenn Ihre Daten verzerrt sind oder Ausreißer enthalten.

Modus

Wenn Sie diese Option wählen, ersetzt die Assistierte Modellierung fehlende Werte durch die Zahl, die am häufigsten auftritt. Wir empfehlen diese Option, wenn Ihre Feature kategoriale Werte enthält und Sie diese nicht auslassen wollen. Diesen Modus können Sie außerdem nutzen, um fehlende numerische Werte zu ergänzen.

Unwesentliche Eigenschaft

Dabei handelt es sich um eine Eigenschaft, auf die Ihr Modell bei der Zielprognose nicht angewiesen ist. Ziehen Sie in Betracht, diese Eigenschaft auszulassen, um die Komplexität Ihres Modells zu verringern.

Numerisch

Numerische Eigenschaften enthalten reelle Zahlen wie 1, 3, 14 oder 100.

OLS

Die Methode der kleinsten Quadrate (Ordinary Least Squares, OLS) ist ein Maß der Anpassung, das zur Bestimmung der Varianz einer Eigenschaft nützlich ist. Die Assistierte Modellierung verwendet dieses Maß, um zu bewerten, wie stark eine Eigenschaft mit dem Ziel assoziiert ist. Verwenden Sie OLS, um Eigenschaften zu identifizieren, die Ihr Modell durch eine zu schwache oder zu starke Assoziation mit dem Ziel dem Risiko eines Generalisierungsfehlers aussetzen könnten.

Prognostiziert

Prognostizierte Werte sind Werte, die ein Algorithmus auf der Grundlage der Trends, die er in den von Ihnen bereitgestellten Eigenschaften findet, den Zeilen zuweist. Wenn Sie beispielsweise über ein Dataset verfügen, der mit einer Kundenabwanderung verbunden ist, kann der Algorithmus die Prognose „Ja" (ein Kunde wird abwandern) oder „Nein" (ein Kunde wird nicht abwandern) erstellen.

Residuen

Ein Residuum ist die Differenz zwischen einem beobachteten Wert und einem prognostizierten Wert für Ihr Ziel. Residuen können positiv oder negativ sein. Verwenden Sie Residuen, um zu bewerten, wie gut ein Modell zu Ihren Trainingsdaten passt und inwiefern es sich unterscheidet.

Residuenvergleich

Diese Darstellung vergleicht die Residuen, die die Regressionsalgorithmen ausgeben. Darin werden die Residuen absolut, logarithmisch transformiert und geordnet, damit 0 keinen Fehler und höhere Werte einen größeren Fehler anzeigen. Verwenden Sie das Residualvergleichsdiagramm, um zu bewerten, wie gut verschiedene Modelle zu Ihren Trainingsdaten passen.

RMSE

Die Wurzel der mittleren Fehlerquadratsumme (Root Mean Square Error, MSE) ist ein Maß dafür, wie gut Ihr Regressionsmodell zu Ihren Daten passt. Verwenden Sie RMSE, um zu vergleichen, wie zuverlässig verschiedene Regressionsalgorithmen ähnliche Daten modellieren. Höhere Bewertungen deuten auf mehr Fehler und schlechtere Anpassung hin. Bewertungen von 0 deuten auf keine Fehler und optimale Anpassung hin.