Skip to main content

Icon for the Text Pre-processing Tool Strumento Pre-elaborazione del testo

Utilizza lo strumento Pre-elaborazione del testo per pulire i dati di testo

  • Converti le parole alle loro radici (in altre parole, lemmatizzare).

  • Filtra le cifre indesiderate, la punteggiatura e le stop word.

Alteryx Intelligence Suite necessario

Questo strumento fa parte di Alteryx Intelligence Suite . Intelligence Suite richiede una licenza separata e un ulteriore programma di installazione per Designer. Dopo aver installato Designer, installa Intelligence Suite e avvia la versione di prova gratuita .

Importante

A partire dalla versione 21.4, lo strumento Pre-elaborazione del testo rimuove correttamente i pronomi quando selezioni Usa stop word predefinite . In precedenza, lo strumento sostituiva i pronomi con la frase -PRON- .

Supporto linguistico

Lo strumento Pre-elaborazione del testo supporta le lingue inglese, francese, tedesco, italiano, portoghese e spagnolo.

Componenti dello strumento

Lo strumento Pre-elaborazione del testo ha tre ancoraggi.

  • Ancoraggio di input verde: utilizza l'ancoraggio di input verde in alto per connettere i dati di testo che desideri elaborare.

  • Ancoraggio di input grigio: utilizza l'ancoraggio di input grigio in basso per inserire un elenco di stop word da un elenco. Consigliamo di utilizzare il formato CSV, ma l'elenco può essere in qualsiasi formato di input, purché le stop word siano elencate in una singola colonna con una parola per riga.

  • Ancoraggio di output: utilizza l'ancoraggio di output per passare i dati elaborati a valle.

Configura lo strumento

  1. Aggiungi uno strumento di pre-elaborazione del testo all'area di disegno.

  2. Utilizza l'ancoraggio per connettere lo strumento Pre-elaborazione del testo ai dati di testo che desideri utilizzare nel flusso di lavoro.

  3. Identifica la lingua dei dati.

  4. Seleziona il campo di testo che desideri utilizzare.

  5. Esegui il flusso di lavoro.

Opzioni avanzate

Lo strumento Pre-elaborazione del testo ha alcune opzioni avanzate

Normalizzazione testo

Per convertire le parole nelle radici, seleziona la casella Converti in radice di Word (lemmatizza) .

Questa opzione trasforma le parole derivate nelle rispettive radici. Ad esempio, le parole "in esecuzione", "eseguito" e "esegue" si trasformano tutte nella parola "esegui" dopo averle lemmatizzate. In questo modo, quando si applica un algoritmo di Machine Learning per analizzare le parole, la macchina è in grado di riconoscere che tutte queste parole devono essere raggruppate.

Filtro

Per rimuovere le cifre, seleziona la casella Cifre . questa opzione rimuove determinati token di cifre (in altre parole, numeri) dai dati. È possibile selezionare questa opzione perché i numeri possono confondere alcuni algoritmi di elaborazione del linguaggio naturale.

Per rimuovere la punteggiatura, seleziona la casella di Punteggiatura . Questa opzione rimuove la punteggiatura dai dati. È possibile selezionare questa opzione perché la punteggiatura può confondere alcuni algoritmi NLP. Alcuni token di punteggiatura, ad esempio il punto in "Sig.ra", vengono mantenuti perché sono significativi.

Per rimuovere le stop word, seleziona la casella  Stop Word . Alcune stop word vengono rimosse per impostazione predefinita. Lo strumento Pre-elaborazione del testo utilizza il pacchetto spaCy come impostazione predefinita. spaCy ha diversi elenchi di stop word per diverse lingue. È possibile visualizzare l'elenco completo delle stop word per ogni lingua nel repository spaCy GitHub:

Puoi anche rimuovere le stop word che non vengono rimosse per impostazione predefinita. Inserisci le stop word che desideri rimuovere nel campo di testo. Inserirle in formato delimitato da virgole (in altre parole, separa ogni parola con virgola e uno spazio, in questo ordine).

Output

Nella griglia dei risultati, lo strumento crea una nuova colonna nei dati con il nome della colonna elaborata più il significante "_processed".