Modellazione dell'argomento
Utilizza Modellazione degli argomenti per identificare e classificare gli argomenti nel corpo del testo. Valuta la possibilità di utilizzare lo strumento Pre-elaborazione del testo a monte prima di passare i dati allo strumento Modellazione dell'argomento.
Alteryx Intelligence Suite necessario
Questo strumento fa parte di Alteryx Intelligence Suite . Intelligence Suite richiede una licenza separata e un ulteriore programma di installazione per Designer. Dopo aver installato Designer, installa Intelligence Suite e avvia la versione di prova gratuita .
Supporto linguistico
Lo strumento Modellazione dell'argomento supporta le lingue inglese, francese, tedesco, italiano, portoghese e spagnolo.
Componenti dello strumento
Lo strumento Modellazione dell'argomento ha tre ancoraggi:
Ancoraggio di input: utilizza l'ancoraggio di input per connettere i dati di testo che desideri analizzare.
Ancoraggio D : utilizza l'ancoraggio D per passare i dati analizzati a valle.
Ancoraggio R : utilizza l'ancoraggio R per visualizzare un report dell'analisi.
Ancoraggio M : utilizza l'ancoraggio M per passare l'oggetto modello a valle da utilizzare con i nuovi dati. L'oggetto modello è compatibile con lo strumento Previsione .
Configurazione dello strumento
Aggiungi uno strumento Modellazione degli argomenti all'area di disegno.
Utilizza l'ancoraggio per connettere lo strumento Modellazione degli argomenti ai dati di testo che desideri utilizzare nel flusso di lavoro.
Seleziona il Campo di testo che si desidera analizzare.
Specifica il Numero di argomenti che si desidera modellare.
Nella sezione Opzioni di output , seleziona il tipo di output desiderato nell'ancoraggio R :
L'opzione Grafico interattivo genera un report interattivo che include due grafici: primi 30 termini salienti e mappa a distanza intertropica.
L'opzione Riepilogo rilevanza della parola genera un report statico con misure dell'importanza di ogni termine per il modello e pertinenza per ogni argomento.
Le Opzioni dizionario e le Opzioni LDA sono configurate sulle impostazioni predefinite. Per ulteriori informazioni su queste opzioni, consulta la sezione Opzioni avanzate riportata di seguito.
Avvia il flusso di lavoro.
Risorse
Questo strumento utilizza l'allocazione Dirichlet latente (LDA) per identificare gli argomenti. Ecco alcune risorse sull' algoritmo LDA e i concetti di importanza e pertinenza .
Opzioni avanzate
Lo strumento Modellazione argomenti ha alcune opzioni avanzate.
Opzioni dizionario
Nome | Descrizione | Opzioni | Opzione consigliata |
---|---|---|---|
Frequenza minima | Frequenza minima è la frequenza minima con cui una parola può apparire nel corpo di testo prima che lo strumento Modellazione dell'argomento ignori la parola, dove la frequenza è misurata dal numero di documenti contenenti una parola diviso per il numero totale di documenti nel corpo del testo. |
| 1% |
Frequenza massima | Frequenza massima è la frequenza massima con cui una parola può apparire nel corpo di testo prima che lo strumento Modellazione dell'argomento ignori la parola, dove la frequenza è misurata dal numero di documenti contenenti una parola diviso per il numero totale di documenti nel corpo del testo. |
| 80% |
Massimo numero di parole | Numero massimo di parole specifica il numero di parole che si desidera vengano considerate dall'algoritmo dello strumento Modellazione dell'argomento, in base alla frequenza con cui le parole vengono visualizzate in tutti i documenti. |
| 0 |
Opzioni LDA
Nome | Descrizione | Opzioni | Opzione consigliata |
---|---|---|---|
Alfa | Alfa rappresenta la densità degli argomenti che l'algoritmo dovrebbe aspettarsi in ogni documento. L'aumento di Alfa consente all'algoritmo di riconoscere un numero maggiore di argomenti distinti in un documento. La riduzione di Alfa limita il numero di argomenti riconosciuti dall'algoritmo in ogni documento. | Numero | none |
ETA | Eta rappresenta la densità di parole necessarie per creare un argomento. L'aumento di Eta aumenta il numero di parole necessarie per identificare un argomento. La riduzione di Eta riduce il numero di parole necessarie per identificare un argomento. | Numero | >= 0 |
Output
L'ancoraggio D restituisce una nuova colonna per ogni argomento. Le colonne rappresentano il grado in cui ogni argomento è presente nel testo associato a ogni riga. Un valore più alto nella colonna dell'argomento indica una maggiore probabilità che il testo ci si associ. L' ancoraggio R genera uno dei due rapporti in base alla selezione effettuata:
L'opzione Grafico interattivo restituisce una visualizzazione interattiva del modello che puoi visualizzare con uno strumento Sfoglia. Il grafico interattivo è costituito da 2 parti: una mappa con la distanza tra gli argomenti e alcune metriche per la valutazione. La mappa Distanza tra gli argomenti mostra la somiglianza tra gli argomenti identificati.
Riepilogo rilevanza parole restituisce le parole incluse nel modello dell'argomento insieme alle metriche di pertinenza e importanza. L'importanza fa riferimento alla prominenza di una parola nel testo generale. La rilevanza è una metrica utilizzata per ordinare le parole all'interno degli argomenti e ci aiuta a identificare le parole più appropriate per ogni argomento. Maggiore è il valore per un determinato argomento, maggiore è l'importanza della parola per quell'argomento.
L'ancoraggio M restituisce un oggetto modello a valle da utilizzare con i nuovi dati. L'oggetto modello è compatibile con lo strumento Previsione .