Skip to main content

speech_tagger70cb.png PoS Tagging (Part of Speech)

Verwenden Sie das PoS-Tagging-Tool, um Wortarten wie Substantive, Verben und Adjektive in einem Text zu identifizieren. Das Wortarten-Tagging ist ein gängiger Verarbeitungsschritt zur Bereinigung, Vorbereitung und Verbesserung von Daten für NLP-Anwendungen (Natural Language Processing). Das PoS-Tagging-Tool nutzt die Wortarten-Funktionen des Spacy -Pakets. Die Genauigkeit der sprachlichen Kennzeichnung beträgt für Englisch etwa 97 % und weicht bei den anderen unterstützten Sprachen leicht davon ab.

Alteryx Intelligence Suite - Überblick

Dieses Tool ist Teil der Alteryx Intelligence Suite . Alteryx Intelligence Suite erfordert eine separate Lizenz und ein Add-on-Installationsprogramm für Designer. Nachdem Sie Designer installiert haben, installieren Sie Intelligence Suite und starten Sie Ihre kostenlose Testversion .

Sprachunterstützung

Das PoS-Tagging-Tool unterstützt Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch. Die Wortarten-Ausgabe-Tags sind nur in Englisch verfügbar.

Tool-Komponenten

Das PoS-Tagging-Tool verfügt über zwei Anker:

  • Eingabeanker: Verwenden Sie den Eingabeanker, um die Textdaten zu verbinden, die Sie analysieren möchten.

  • Ausgabeanker: Verwenden Sie den Ausgabeanker, um die getaggten Textdaten nachgeschaltet zu übergeben.

Tool-Konfiguration

  1. Fügen Sie dem Canvas ein PoS-Tagging-Tool hinzu.

  2. Verwenden Sie die Anker, um das PoS-Tagging-Tool mit den Textdaten zu verbinden, die Sie im Workflow verwenden möchten.

  3. Wählen Sie die Sprache der Textdaten aus.

  4. Wählen Sie die Spalte mit Text aus, die Sie analysieren möchten.

  5. Klicken Sie auf Ausführen , um den Workflow auszuführen.

Ausgabe

Das PoS-Tagging-Tool gibt die eingehenden Spalten zusätzlich zu zwei weiteren Spalten aus:

  • part_of_speech_tags: Diese Spalte enthält eine JSON-Ausgabe mit einer Liste von Wortarten-Tags und -Beschreibungen. Jedes Token (Wort) in einem Korpus (wobei jede Zeile in der Eingabetextspalte ein Korpus enthält) enthält die unten aufgeführten Werte in der JSON-Ausgabe.

    • text: das getaggte Wort.

    • part_of_speech: der grobkörnige Teil des Wortarten-Tags.

    • part_of_speech_description: der grobkörnige Teil der Wortarten-Tag-Beschreibung.

    • fine_grained_tag: der feinkörnige Teil des Wortarten-Tags.

    • fine_grained_tag_description: der feinkörnige Teil der Wortarten-Tag-Beschreibung.

    • dependency: die Abhängigkeit der Wortart.

    • dependency_description: die Beschreibung der Wortartabhängigkeit.

    • character_index: der Index des ersten Zeichens des Wortes im Korpus. Der Index beginnt bei 0.

    • word_index: der Index des Wortes im Korpus. Der Index beginnt bei 0.

    • text_length: die Länge des Wortes.

  • dependency_diagram: Diese Spalte enthält ein HTML-Objekt des Tagger-Abhängigkeitsdiagramms desplaCy , das über das Durchsuchen-Tool angezeigt werden kann.

So parsen Sie die JSON-Ausgabe

Um die JSON-Ausgabe in Tabellendaten zu transformieren, verwenden Sie in diesem Beispiel-Workflow eine Kombination der Tools JSON-Parse , Text in Spalten aufteilen und Kreuztabelle :

  1. Übergeben Sie die Ausgabe des PoS-Tagging-Tools an die Eingabe des JSON-Parse-Tools.

  2. Wählen Sie als JSON-Feld die Wortartenspalte aus.

  3. Wählen Sie Werte in einzelnem Zeichenfolgenfeld ausgeben aus.

  4. Übergeben Sie die Ausgabe des JSON-Parse-Tools an die „Text in Spalten aufteilen“-Eingabe.

  5. Wählen Sie unter Spalte zum Aufteilen die JSON-Namensspalte aus und legen Sie als Trennzeichen einen Punkt ( . ) fest.

  6. Wählen Sie  In Spalten aufteilen  aus und legen Sie die Spaltenanzahl  auf  3 fest.

  7. Übergeben Sie die Ausgabe des Tools „Text-in-Spalten-aufteilen“ an die Eingabe des Tools „Kreuztabelle“.

  8. Konfiguration des Kreuztabellen-Tools:

    1. Daten nach diesen Werten gruppieren : Wählen Sie den Spaltennamen mit Ihren ursprünglichen Textdaten und die zweite aufgeteilte JSON-Namensspalte (standardmäßig JSON_Name2 ) aus.

    2. Spaltenüberschriften ändern : Wählen Sie die dritte aufgeteilte JSON-Namensspalte (standardmäßig JSON_Name3 ) aus.

    3. Werte für neue Spalten : Wählen Sie JSON_ValueString aus.

    4. Aggregationsmethode für Werte : Wählen Sie Verketten aus.

  9. Führen Sie Ihren Workflow aus. Die Ausgabe des Kreuztabellen-Tools enthält jetzt die Ausgabe des PoS-Tagging-Tools in tabellarischer Form.

Abhängigkeitsdiagramm

Im Folgenden sehen Sie als Beispiel ein Abhängigkeitsdiagramm für den Satz „Dies ist ein Satz“. Unter jedem Wort wird das entsprechende grobkörnige Wortarten-Tag eingefügt. Die Beschreibung des grobkörnigen Wortarten-Tags befindet sich in der JSON-Ausgabe unter „part_of_Speech_description“. Jeder Pfeil zeigt die syntaktische Abhängigkeit zwischen zwei Wörtern an. Für jede Abhängigkeit befindet sich in der JSON-Ausgabe unter „dependency_description“ eine entsprechende Beschreibung.

Dependency Diagram Example

Beschreibungen der grobkörnigen Wortarten-Tags für das obige Abhängigkeitsdiagramm:

  • AUX: Hilfsverb

  • DET: Bestimmungswort

  • NOUN: Substantiv

Beschreibungen der Abhängigkeiten für das obige Abhängigkeitsdiagramm:

  • nsubj: nominelles Subjekt

  • attr: Attribut

  • det: Bestimmungswort

Häufig gestellte Fragen (FAQ)

Das Diagramm ist ein visuelles Element, das dem Benutzer hilft, die Wortarten-Tags zu sehen. Das Diagramm zeigt außerdem, wie Wörter zugeordnet werden. Zu diesem Zeitpunkt sind die Abhängigkeiten nur Teil der visuellen Darstellung und nicht in der Ausgabe enthalten.

Zu diesem Zeitpunkt funktioniert das PoS-Tagging nicht mit den Berichterstellung-Tools. Zum Beispiel können Sie das Abhängigkeitsdiagramm nicht als Bild speichern.

Das Modell wird beim ersten Durchlauf zwischengespeichert, sodass der erste Durchlauf langsamer ist. Bei nachfolgenden Durchläufen sind die Workflows für den gleichen Text schneller. Hinweis: Der Cache läuft nach einiger Zeit ab und es ist möglich, dass der Zyklus dann von vorne beginnt.