Skip to main content

Icon for the Topic Modeling Tool Modellazione dell'argomento

Utilizza Modellazione degli argomenti per identificare e classificare gli argomenti nel corpo del testo. Valuta la possibilità di utilizzare lo strumento Pre-elaborazione del testo a monte prima di passare i dati allo strumento Modellazione dell'argomento.

Alteryx Intelligence Suite necessario

Questo strumento fa parte di Alteryx Intelligence Suite . Intelligence Suite richiede una licenza separata e un ulteriore programma di installazione per Designer. Dopo aver installato Designer, installa Intelligence Suite e avvia la versione di prova gratuita .

Supporto linguistico

Lo strumento Modellazione dell'argomento supporta le lingue inglese, francese, tedesco, italiano, portoghese e spagnolo.

Componenti dello strumento

Lo strumento Modellazione dell'argomento ha tre ancoraggi:

  • Ancoraggio di input: utilizza l'ancoraggio di input per connettere i dati di testo che desideri analizzare.

  • Ancoraggio D : utilizza l'ancoraggio D per passare i dati analizzati a valle.

  • Ancoraggio R : utilizza l'ancoraggio R per visualizzare un report dell'analisi.

  • Ancoraggio M : utilizza l'ancoraggio M per passare l'oggetto modello a valle da utilizzare con i nuovi dati. L'oggetto modello è compatibile con lo strumento Previsione .

Configurazione dello strumento

  1. Aggiungi uno strumento Modellazione degli argomenti all'area di disegno.

  2. Utilizza l'ancoraggio per connettere lo strumento Modellazione degli argomenti ai dati di testo che desideri utilizzare nel flusso di lavoro.

  3. Seleziona il Campo di testo che si desidera analizzare.

  4. Specifica il Numero di argomenti che si desidera modellare.

  5. Nella sezione Opzioni di output , seleziona il tipo di output desiderato nell'ancoraggio R :

    • L'opzione Grafico interattivo genera un report interattivo che include due grafici: primi 30 termini salienti e mappa a distanza intertropica.

    • L'opzione Riepilogo rilevanza della parola genera un report statico con misure dell'importanza di ogni termine per il modello e pertinenza per ogni argomento.

  6. Le  Opzioni dizionario  e le  Opzioni LDA  sono configurate sulle impostazioni predefinite. Per ulteriori informazioni su queste opzioni, consulta la sezione Opzioni avanzate riportata di seguito.

  7. Avvia il flusso di lavoro.

Risorse

Questo strumento utilizza l'allocazione Dirichlet latente (LDA) per identificare gli argomenti. Ecco alcune risorse sull' algoritmo LDA e i concetti di  importanza e pertinenza .

Opzioni avanzate

Lo strumento Modellazione argomenti ha alcune opzioni avanzate.

Opzioni dizionario

Nome

Descrizione

Opzioni

Opzione consigliata

Frequenza minima

Frequenza minima è la frequenza minima con cui una parola può apparire nel corpo di testo prima che lo strumento Modellazione dell'argomento ignori la parola, dove la frequenza è misurata dal numero di documenti contenenti una parola diviso per il numero totale di documenti nel corpo del testo.

  • > = 0%

  • < = 100%

1%

Frequenza massima

Frequenza massima è la frequenza massima con cui una parola può apparire nel corpo di testo prima che lo strumento Modellazione dell'argomento ignori la parola, dove la frequenza è misurata dal numero di documenti contenenti una parola diviso per il numero totale di documenti nel corpo del testo.

  • > = 0%

  • < = 100%

80%

Massimo numero di parole

Numero massimo di parole specifica il numero di parole che si desidera vengano considerate dall'algoritmo dello strumento Modellazione dell'argomento, in base alla frequenza con cui le parole vengono visualizzate in tutti i documenti.

  • >= 0

0

Opzioni LDA

Nome

Descrizione

Opzioni

Opzione consigliata

Alfa

Alfa rappresenta la densità degli argomenti che l'algoritmo dovrebbe aspettarsi in ogni documento. L'aumento di Alfa consente all'algoritmo di riconoscere un numero maggiore di argomenti distinti in un documento. La riduzione di Alfa limita il numero di argomenti riconosciuti dall'algoritmo in ogni documento.

Numero

none

ETA

Eta rappresenta la densità di parole necessarie per creare un argomento. L'aumento di Eta aumenta il numero di parole necessarie per identificare un argomento. La riduzione di Eta riduce il numero di parole necessarie per identificare un argomento.

Numero

>= 0

Output

L'ancoraggio D restituisce una nuova colonna per ogni argomento. Le colonne rappresentano il grado in cui ogni argomento è presente nel testo associato a ogni riga. Un valore più alto nella colonna dell'argomento indica una maggiore probabilità che il testo ci si associ. L' ancoraggio R genera uno dei due rapporti in base alla selezione effettuata:

  • L'opzione Grafico interattivo restituisce una visualizzazione interattiva del modello che puoi visualizzare con uno strumento Sfoglia. Il grafico interattivo è costituito da 2 parti: una mappa con la distanza tra gli argomenti e alcune metriche per la valutazione. La mappa Distanza tra gli argomenti mostra la somiglianza tra gli argomenti identificati.

  • Riepilogo rilevanza parole restituisce le parole incluse nel modello dell'argomento insieme alle metriche di pertinenza e importanza. L'importanza fa riferimento alla prominenza di una parola nel testo generale. La rilevanza è una metrica utilizzata per ordinare le parole all'interno degli argomenti e ci aiuta a identificare le parole più appropriate per ogni argomento. Maggiore è il valore per un determinato argomento, maggiore è l'importanza della parola per quell'argomento.

L'ancoraggio  M  restituisce un oggetto modello a valle da utilizzare con i nuovi dati. L'oggetto modello è compatibile con lo strumento Previsione .