Skip to main content

Text Classification Tool Icon Textklassifizierung

Das Textklassifizierung-Tool trainiert und gibt ein Textklassifizierungsmodell basierend auf Ihren Trainingsdaten aus. Verbinden Sie das Modell mit dem Vorhersagen-Tool , um Ihre neuen, noch unbekannten Textdaten zu klassifizieren.

Alteryx Intelligence Suite - Überblick

Dieses Tool ist Teil der Alteryx Intelligence Suite . Alteryx Intelligence Suite erfordert eine separate Lizenz und ein Add-on-Installationsprogramm für Designer. Nachdem Sie Designer installiert haben, installieren Sie Intelligence Suite und starten Sie Ihre kostenlose Testversion .

Sprachunterstützung

Das Textklassifizierung-Tool unterstützt Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.

Tool-Komponenten

Das Textklassifizierung-Tool verfügt über vier Anker (zwei Eingabeanker und zwei Ausgabeanker):

  • T -Eingabeanker: Verwenden Sie den  T -Eingabeanker, um Ihre Trainingsdaten zu verbinden. Die Trainingsdaten müssen eine Spalte mit Text und eine Spalte mit Labels für den Text enthalten.

  • V -Eingabeanker: Verwenden Sie den  V -Eingabeanker, um den Validierungstext und die Labels zu verbinden.

  • M -Ausgabeanker: Verwenden Sie den  M -Ausgabeanker, um das Modell, das Sie erstellt haben, nachgeschaltet zu übergeben. Verwenden Sie Ihr Modell mit dem  Vorhersagen-Tool .

  • M -Ausgabeanker: Verwenden Sie den  M -Ausgabeanker, um Bewertungsmetriken Ihres Modells zu erfassen.

Tool-Konfiguration

  1. Fügen Sie dem Canvas ein Textklassifizierung-Tool hinzu.

  2. Verbinden Sie den T -Eingabeanker mit Ihren Trainingsdaten. Konfigurieren Sie dann die Einstellungen für den Trainingstext :

    1. Wählen Sie die Spalte mit Text aus, die die Trainingstextdaten enthält.

    2. Wählen Sie die Spalte mit Labels  aus, die die Labels für Ihre Trainingstextdaten enthält.

  3. Verbinden Sie den V -Eingabeanker mit den Validierungsdaten. Konfigurieren Sie dann die Einstellung für die Validierung :

    1. Wählen Sie die Spalte mit Text , die die Validierungstextdaten enthält.

    2. Wählen Sie die Spalte mit Labels  aus, die die Labels für Ihre Validierungstextdaten enthält.

  4. Konfigurieren Sie die Erweiterten Optionen entsprechend Ihrem Anwendungsfall. Weitere Informationen finden Sie im nächsten Abschnitt.

  5. Klicken Sie auf Ausführen , um den Workflow auszuführen.

Wichtig

Beachten Sie, dass die Spalten dem Zeichenfolgen- Datentyp entsprechen müssen.

Erweiterte Optionen

Wählen Sie den  Algorithmus aus, den Sie für Ihr Modell verwenden möchten:

  • Auto-Modus

  • Multinomiales Naïve Bayes

  • Lineare SVC

Auto-Modus

Finden Sie ein optimales Modell mit den verfügbaren Modellalgorithmen. Die Auto-Modus -Auswahl nutzt die Multinomial-Naïve-Bayes- und Linear-SVC-Algorithmen. Bei jedem Modell wird ein kleiner Bereich der entsprechenden Parameter durchsucht. Im Auto-Modus wird dann die optimale Kombination aus Algorithmus und Hyperparametern ausgegeben. Zur Feinabstimmung Ihres Modells wählen Sie eine für den Algorithmus spezifische Dropdown-Liste.

Multinomiales Naïve Bayes

Der Algorithmus Multinomiales Naïve Bayes ist ein probabilistisches Klassifizierungsmodell. Das Naïve Bayes-Klassifikator-Tool erstellt ein Modell, das die Wahrscheinlichkeit vorhersagt, dass ein Textteil zu einem Label gehört. Um Ihr Modell zu erstellen, verwenden Sie Trainingsdaten in Form von Textzeilen und deren zugehörigen Labels (auch als Klassen oder Ziel bezeichnet). Der Algorithmus geht davon aus, dass alle Features voneinander unabhängig sind. Die Vorteile des Naïve Bayes-Klassifikator-Tools sind, dass es skalierbar ist und in der Regel mit einem kleinen Trainingsset gut funktioniert.

Alpha

Alpha ist ein additiver Glättungsparameter, den Sie zur Steuerung der Modellkomplexität verwenden können. Ein Wert von 0 bedeutet keine Glättung. Ein Wert größer als 0 kann Ihre Ergebnisse verbessern, wenn ein Wort aus den Testdaten nicht in den Trainingsdaten vorhanden ist.

Das Tool sucht anhand eines von Ihnen definierten Bereichs von Alpha-Werten nach dem besten Modell. Um diese Alpha-Werte zu erstellen, geben Sie den zu suchenden Bereich ( von bis ) und die  Anzahl der Schritte innerhalb dieses Bereichs ein.

1. Beispiel

Von = 0, bis = 1, Anzahl der Schritte = 5 → erstellt die folgenden Alpha-Werte für das Modell und den Versuch: [0, 0.25, 0.5, 0.75, 1].

2. Beispiel

Von = 0, bis = 1, Anzahl der Schritte = 2 → erstellt die folgenden Alpha-Werte für das Modell und den Versuch: [0, 1].

Kreuzvalidierung

Die Kreuzvalidierung  ist ein Verfahren zur Neuabtastung, bei dem verschiedene Abschnitte (oder Folds) Ihrer Daten für Modelltraining und -validierung verwendet werden. Wählen Sie, wie viele Folds während der Kreuzvalidierung verwendet werden sollen.

Term Frequency-Inverse Document Frequency (TF-IDF)

Die Konvertierung von Rohtext in numerische Daten ist ein erforderlicher Schritt für die Textklassifizierung. Mit diesem Vektorisierungsschritt kann das Modell Ihre Daten interpretieren. Für die Textklassifizierung verwenden wir die Term Frequency-Inverse Document Frequency (TF-IDF) Vektorisierungsmethode. Dies sind die TF-IDF-Einstellungen:

  • Analyzer

  • Wählen Sie, ob Features aus Wörtern ( word ) oder Zeichen ( char ) anhand Ihres Eingabetextes erstellen möchten.

  • Min. Dokumenthäufigkeit

  • Geben Sie die Mindesthäufigkeit zulässiger Begriffe in Ihre Textdaten ein. Unterhalb dieser Häufigkeit fügt das Tool dem Algorithmus keine Begriffe hinzu.

Lineare SVC

Die lineare SVC gehört zur Klasse der Support Vector Machine-Modelle. Sie können diesen Algorithmus auf Daten mit zwei (binär) oder mehr Klassen anwenden. Nach der Anpassung an Ihre Daten findet das Modell die beste Hyperebene, die Ihre Daten in die korrekten Kategorien aufteilt. Lineare SVC ist effektiv in großen dimensionalen Bereichen wie Text, kann jedoch bei Anwendung auf ein großes Trainings-Dataset langsam sein.

penalty

Wählen Sie bei Abzügen verwendete Norm.aus. Beachten Sie, dass die  L2 -Norm (auch bekannt als die  euklidische Norm ) der in der Support Vector-Klassifizierung verwendete Standard ist. Der L1-Standard ergibt wenige Koeffizientenvektoren.

Verlust

Wählen Sie eine Verlustfunktion. „Hinge“ ist die Standardauswahl für diesen Algorithmus.

C (Log-Bereich)

C ist ein Regularisierungsparameter. Dieser muss größer als 0 sein. Große Werte von „C“ entsprechen einer geringeren Regularisierung und einem Modell, das eine enge Anpassung an die Trainingsdaten versucht. Im Gegensatz dazu entsprechen kleine C-Werte einer erhöhten Regularisierung.

Das Tool sucht nach dem besten Modell auf der Grundlage eines von Ihnen festgelegten Bereichs von C-Werten. Um diese C-Werte zu erstellen, geben Sie den zu durchsuchenden  Protokollbereich  ( von bis ) und die  Anzahl der Schritte  innerhalb dieses Bereichs ein.

1. Beispiel

Von = -3, bis = 2, Anzahl der Schritte = 6 → erstellt die folgenden C-Werte für das Modell und den Versuch: [0,001, 0,01, 0,1, 1, 10, 100].

2. Beispiel

Von = 0, bis = 1, Anzahl der Schritte = 2 → erstellt die folgenden C-Werte für das Modell und den Versuch: [0, 10].

Kreuzvalidierung

Die Kreuzvalidierung  ist ein Verfahren zur Neuabtastung, bei dem verschiedene Abschnitte (oder Folds) Ihrer Daten für Modelltraining und -validierung verwendet werden. Wählen Sie, wie viele Folds während der Kreuzvalidierung verwendet werden sollen.

Term Frequency-Inverse Document Frequency (TF-IDF)

Die Konvertierung von Rohtext in numerische Daten ist ein erforderlicher Schritt für die Textklassifizierung. Mit diesem Vektorisierungsschritt kann das Modell Ihre Daten interpretieren. Für die Textklassifizierung verwenden wir die Term Frequency-Inverse Document Frequency (TF-IDF) Vektorisierungsmethode. Dies sind die TF-IDF-Einstellungen:

  • Analyzer

  • Wählen Sie, ob Features aus Wörtern ( word ) oder Zeichen ( char ) anhand Ihres Eingabetextes erstellen möchten.

  • Min. Dokumenthäufigkeit

  • Geben Sie die Mindesthäufigkeit zulässiger Begriffe in Ihre Textdaten ein. Unterhalb dieser Häufigkeit fügt das Tool dem Algorithmus keine Begriffe hinzu.