Themenmodellierung
Verwenden Sie Themenmodellierung, um Themen in einem Textauszug zu identifizieren und zu kategorisieren. Ziehen Sie in Betracht, das Textvorverarbeitung-Tool der Übergabe der Daten an das Themenmodellierung-Tool vorzuschalten.
Alteryx Intelligence Suite - Überblick
Dieses Tool ist Teil der Alteryx Intelligence Suite . Alteryx Intelligence Suite erfordert eine separate Lizenz und ein Add-on-Installationsprogramm für Designer. Nachdem Sie Designer installiert haben, installieren Sie Intelligence Suite und starten Sie Ihre kostenlose Testversion .
Sprachunterstützung
Das Themenmodellierung-Tool unterstützt Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.
Tool-Komponenten
Das Themenmodellierung-Tool hat drei Anker:
Eingabeanker: Verwenden Sie den Eingabeanker, um die Textdaten zu verbinden, die Sie analysieren möchten.
D -Anker: Verwenden Sie den D -Anker, um die Daten, die Sie analysiert haben, nachgeschaltet weiterzugeben.
R -Anker: Verwenden Sie den R -Anker, um einen Bericht der Analyse anzuzeigen.
M -Anker: Verwenden Sie den M -Anker, um das Modellobjekt zur Verwendung mit neuen Daten weiterzugeben. Das Modellobjekt ist mit dem Vorhersagen-Tool kompatibel.
Tool-Konfiguration
Fügen Sie dem Canvas ein Themenmodellierung-Tool hinzu.
Verwenden Sie den Anker, um das Themenmodellierung-Tool mit den Textdaten zu verbinden, die Sie im Workflow verwenden möchten.
Wählen Sie das Textfeld aus, das Sie analysieren möchten.
Geben Sie die Anzahl der Themen an, die Sie modellieren möchten.
Wählen Sie im Abschnitt Ausgabeoptionen die im R -Anker gewünschte Ausgabeart aus:
Die Option Interaktives Diagramm generiert einen interaktiven Bericht, der zwei Diagramme enthält: Top-30 der auffälligsten Begriffe und eine intertopische Distanzkarte.
Die Option Wortrelevanz-Übersicht erstellt einen statischen Bericht mit Messungen der Bedeutung der einzelnen Begriffe für das Modell und der Relevanz für jedes Thema.
Die Wörterbuchoptionen und die LDA-Optionen sind auf ihre Standardwerte eingestellt. Weitere Informationen zu diesen Optionen finden Sie unten im Abschnitt „Erweiterte Optionen“.
Führen Sie den Workflow aus.
Ressourcen
Dieses Tool verwendet die Latent Dirichlet Allocation (LDA), um Themen zu identifizieren. Hier finden Sie einige Ressourcen über den LDA-Algorithmus und die Konzepte von Auffälligkeit und Relevanz .
Erweiterte Optionen
Das Themenmodellierung-Tool verfügt über einige erweiterte Optionen.
Wörterbuchoptionen
Name | Beschreibung | Optionen | Empfohlene Option |
---|---|---|---|
Mindesthäufigkeit | Mindesthäufigkeit bezieht sich auf die Mindesthäufigkeit, mit der ein Wort in einem Textbestand erscheinen kann, bevor das Themenmodellierung-Tool das Wort ignoriert, wobei die Häufigkeit durch die Anzahl der Dokumente, die ein Wort enthalten, geteilt durch die Gesamtzahl der Dokumente im Textbestand gemessen wird. |
| 1 % |
Maximale Häufigkeit | Maximale Häufigkeit bezieht sich auf die maximale Häufigkeit, mit der ein Wort in einem Textbestand erscheinen kann, bevor das Themenmodellierung-Tool das Wort ignoriert, wobei die Häufigkeit durch die Anzahl der Dokumente, die ein Wort enthalten, geteilt durch die Gesamtzahl der Dokumente im Textbestand gemessen wird. |
| 80% |
Maximale Wortanzahl | Maximale Wortanzahl gibt an, wie viele Wörter der Algorithmus des Themenmodellierung-Tools berücksichtigen soll, je nachdem, wie häufig die Wörter in allen Dokumenten vorkommen. |
| 0 |
LDA-Optionen
Name | Beschreibung | Optionen | Empfohlene Option |
---|---|---|---|
Alpha | Alpha bezeichnet die Themendichte, die der Algorithmus in jedem Dokument erwarten sollte. Die Erhöhung des Alpha -Werts ermöglicht es dem Algorithmus, eine größere Anzahl von unterschiedlichen Themen in einem Dokument zu erkennen. Das Verringern des Alpha -Werts begrenzt die Anzahl der Themen, die der Algorithmus in jedem Dokument erkennt. | Nummer | Kein |
Eta | Eta stellt die Dichte der Wörter dar, die benötigt wird, um ein Thema zu bilden. Die Erhöhung des Eta -Werts erhöht die Anzahl der Wörter, die zur Identifizierung eines Themas erforderlich sind. Das Verringern des Eta -Werts reduziert die Anzahl der Wörter, die zum Identifizieren eines Themas benötigt werden. | Nummer | >= 0 |
Ausgabe
Der D -Anker gibt für jedes Thema eine neue Spalte aus. Die Spalten geben an, inwieweit die einzelnen Themen in dem mit der jeweiligen Zeile verbundenen Text vorkommen. Ein höherer Wert in der Themenspalte weist darauf hin, dass der Text mit einer höheren Wahrscheinlichkeit diesem Thema zugeordnet werden kann. Der R Anker gibt je nach Auswahl einen von zwei Berichten aus:
Die Option Interaktives Diagramm gibt eine interaktive Visualisierung des Modells zurück, die Sie mit einem Durchsuchen-Tool anzeigen können. Das interaktive Diagramm besteht aus zwei Komponenten: einer Karte mit der Distanz zwischen den Themen und einigen Metriken für die Bewertung. Die intertropische Distanzkarte zeigt uns, wie ähnlich sich die identifizierten Themen sind.
Die Wortrelevanz-Zusammenfassung gibt die im Themenmodell enthaltenen Wörter sowie die Metriken zu Relevanz und Salienz (Auffälligkeit) zurück. Die Salienz sagt aus, wie prominent das Wort im Gesamttext ist. Relevanz ist eine Metrik, die verwendet wird, um Wörter innerhalb von Themen zu ordnen und uns dabei hilft, die am besten geeigneten Wörter für jedes Thema zu identifizieren. Je höher der Wert für ein bestimmtes Thema ist, desto wichtiger ist dieses Wort für dieses Thema.
Der M -Anker gibt nachgeschaltet ein Modellobjekt zur Verwendung mit neuen Daten aus. Das Modellobjekt ist mit dem Vorhersagen-Tool kompatibel.