Classificazione testo
Lo strumento Classificazione testo addestra e invia un modello di classificazione del testo basato sui dati di addestramento. Collega il modello allo strumento Previsione per classificare i nuovi dati di testo non visualizzati.
Alteryx Intelligence Suite necessario
Questo strumento fa parte di Alteryx Intelligence Suite . Intelligence Suite richiede una licenza separata e un ulteriore programma di installazione per Designer. Dopo aver installato Designer, installa Intelligence Suite e avvia la versione di prova gratuita .
Supporto linguistico
Lo strumento Classificazione testo supporta le lingue inglese, francese, tedesco, italiano, portoghese e spagnolo.
Componenti dello strumento
Lo strumento Classificazione testo ha 4 ancoraggi (2 di input e 2 di output):
Ancoraggio di input T : usa l'ancoraggio di input T per collegare i dati di addestramento. I dati di addestramento devono avere una colonna con il testo e una colonna con l'etichetta del testo.
Ancoraggio di input V : usa l'ancoraggio di input V per collegare il testo di convalida e le etichette.
Ancoraggio di output M : usa l'ancoraggio di output M per trasferire il modello creato a valle. Utilizza il modello con lo strumento Previsione .
Ancoraggio di ouput E : usa l'ancoraggio di output E per raccogliere le metriche di valutazione del modello.
Configura lo strumento
Aggiungi uno strumento Classificazione testo all'area di disegno.
Collega l'ancoraggio di input T ai dati di addestramento. Successivamente, configura le impostazioni di Testo di addestramento :
Seleziona la colonna con testo che contiene i dati del testo di addestramento.
Seleziona la colonna con etichette che contiene le etichette per i dati del testo di addestramento.
Collega l'ancoraggio di input V ai dati di convalida. Successivamente, configura le impostazioni di convalida :
Seleziona la colonna con testo che contiene i dati del testo di convalida.
Seleziona la colonna con etichette che contiene le etichette per i dati del testo di convalida.
Configura le opzioni avanzate in base al caso d'uso. Per i dettagli, consulta la sezione successiva.
Esegui il flusso di lavoro.
Importante
Tieni presente che le colonne devono essere un di tipo dati stringa.
Opzioni avanzate
Scegli l' algoritmo che desideri utilizzare per il modello:
Modalità automatica
Multinomial Naive Bayes
Linear SVC
Modalità automatica
Cerca un modello ottimale tra gli algoritmi del modello disponibili. La modalità automatica utilizza gli algoritmi Multinomial Naive Bayes e Linear SVC. Per ogni modello, esegue la ricerca in un piccolo intervallo di parametri corrispondenti. La modalità automatica genera quindi la combinazione ottimale di algoritmo e iperparametri. Per ottimizzare il modello, scegli uno dei menu a discesa specifici dell'algoritmo.
Multinomial Naïve Bayes
L'algoritmo Multinomial Naive Bayes è un modello di classificazione probabilistico. Il classificatore Naive Bayes crea un modello che prevede la probabilità che una sezione di testo appartenga a un'etichetta. Per creare il modello, utilizza i dati di addestramento sotto forma di righe di testo con le relative etichette associate (dette anche classi o target). L'algoritmo presuppone che tutte le funzionalità siano indipendenti l'una dall'altra. I vantaggi del classificatore Naive Bayes sono la scalabilità e migliore funzionalità con un set di addestramento di piccole dimensioni.
Alfa è un parametro di livellamento aggiuntivo che può essere utilizzato per controllare la complessità del modello. Un valore pari a 0 indica che non viene applicato alcun livellamento. Un valore maggiore di 0 potrebbe migliorare i risultati se una parola nei dati del test non esiste nei dati di addestramento.
Lo strumento cerca il modello migliore in base a un intervallo di valori Alfa definiti dall'utente. Per creare questi valori Alfa, immetti l'intervallo in cui desideri eseguire la ricerca Da – A ) e il Numero di passaggi all'interno di tale intervallo.
Esempio 1
Da = 0, A = 1, Numero di passaggi = 5 → crea i seguenti valori Alfa per il modello da provare: [0, 0,25, 0,5, 0,75, 1].
Esempio 2
Da = 0, A = 1, Numero di passaggi = 2 → crea i seguenti valori Alfa per il modello da provare: [0, 1].
La convalida incrociata è una tecnica di ricampionamento che utilizza diverse porzioni (o fold) di dati per l'addestramento e la convalida dei modelli. Scegli il numero di fold da utilizzare durante la convalida incrociata.
La conversione del testo non elaborato in dati numerici è un passaggio obbligatorio per la classificazione del testo. Questa fase di vettorizzazione consente al modello di interpretare i dati. Per lo strumento Classificazione testo si utilizza la tecnica di vettorizzazione TF-IDF (Frequenza dei termini - Frequenza inversa nei documenti). Di seguito sono indicate le impostazioni TF-IDF:
Analizzatore
Scegli se creare le funzionalità a partire da parole (parola) o caratteri (carattere) in base al testo di input.
Min. Frequenza minima nei documenti
Specifica la frequenza minima dei termini consentiti nei dati di testo. Lo strumento non aggiungerà termini al di sotto di questa frequenza al vocabolario dell'algoritmo.
Linear SVC
Il classificatore Linear SVC appartiene alla classe di modelli Macchina a vettori di supporto. Puoi applicare questo algoritmo ai dati con 2 (binari) o più classi. Una volta adattato ai dati, il modello individua il miglior iperpiano che divide i dati nelle categorie corrette. Il classificatore Linear SVC è efficace in uno spazio ad alta dimensionalità come il testo, ma può rallentare quando viene applicato a un set di dati di addestramento di grandi dimensioni.
Scegli la norma utilizzata nella penalizzazione. Tieni presente che la norma L2 (detta anche norma euclidea ) è lo standard utilizzato nella classificazione a vettori di supporto. La norma L1 produce vettori dei coefficienti sparsi.
Scegli una funzione di perdita. Hinge è la scelta standard per questo algoritmo.
C è un parametro di regolarizzazione. Deve essere maggiore di 0. I valori di C grandi corrispondono a una minore regolarizzazione e a un modello che tenta di adattarsi perfettamente ai dati di addestramento. Al contrario, i valori di C piccoli corrispondono a una maggiore regolarizzazione.
Lo strumento cerca il modello migliore in base a un intervallo di valori di C definiti dall'utente. Per creare questi valori di C, immetti l'intervallo logaritmico in cui desideri eseguire la ricerca ( Da – A ) e il Numero di passaggi all'interno di tale intervallo.
Esempio 1
Da = -3, A = 2, Numero di passaggi = 6 → crea i seguenti valori di C per il modello da provare: [0,001, 0,01, 0,1, 1, 10, 100].
Esempio 2
Da = 0, A = 1, Numero di passaggi = 2 → crea i seguenti valori di C per il modello da provare: [0, 10].
La convalida incrociata è una tecnica di ricampionamento che utilizza diverse porzioni (o fold) di dati per l'addestramento e la convalida dei modelli. Scegli il numero di fold da utilizzare durante la convalida incrociata.
La conversione del testo non elaborato in dati numerici è un passaggio obbligatorio per la classificazione del testo. Questa fase di vettorizzazione consente al modello di interpretare i dati. Per lo strumento Classificazione testo si utilizza la tecnica di vettorizzazione TF-IDF (Frequenza dei termini - Frequenza inversa nei documenti). Di seguito sono indicate le impostazioni TF-IDF:
Analizzatore
Scegli se creare le funzionalità a partire da parole (parola) o caratteri (carattere) in base al testo di input.
Min. Frequenza minima nei documenti
Specifica la frequenza minima dei termini consentiti nei dati di testo. Lo strumento non aggiungerà termini al di sotto di questa frequenza al vocabolario dell'algoritmo.