Tagger parte del discorso
Utilizza lo strumento Tagger parte del discorso per identificare le parti del discorso, ad esempio nomi, verbi e aggettivi, nel testo. Il tagging di una parte del discorso è un passaggio di elaborazione comune per la pulizia, la preparazione e il miglioramento dei dati per le applicazioni di Natural Language Processing. Lo strumento Tagger parte del discorso sfrutta le funzionalità per le parti del discorso del pacchetto spaCy . La precisione del tagging per la lingua inglese è di circa il 97% e varia leggermente per le altre lingue supportate .
Alteryx Intelligence Suite necessario
Questo strumento fa parte di Alteryx Intelligence Suite . Intelligence Suite richiede una licenza separata e un ulteriore programma di installazione per Designer. Dopo aver installato Designer, installa Intelligence Suite e avvia la versione di prova gratuita .
Supporto linguistico
Lo strumento Tagger parte del discorso supporta le lingue inglese, francese, tedesco, italiano, portoghese e spagnolo. I tag di output delle parti del discorso sono disponibili solo in inglese.
Componenti dello strumento
Lo strumento Tagger parte del discorso ha 2 ancoraggi:
Ancoraggio di input: utilizza l'ancoraggio di input per connettere i dati di testo che desideri analizzare.
Ancoraggio di output: utilizza l'ancoraggio di output per passare i dati di testo con i tag a valle.
Configura lo strumento
Aggiungi uno strumento Tagger parte del discorso nell'area di disegno.
Utilizza gli ancoraggi per connettere lo strumento Tagger parte del discorso ai dati di testo che desideri utilizzare nel flusso di lavoro.
Seleziona la lingua dei dati di testo.
Seleziona la colonna con testo che desideri analizzare.
Esegui il flusso di lavoro.
Output
Lo strumento Tagger parte del discorso produce come output le colonne in entrata oltre a 2 colonne:
Part_of_speech_tags: questa colonna contiene un output JSON con un elenco di tag e descrizioni delle parti del discorso. Ogni token (parola) in un corpus (dove ogni riga nella colonna di testo di input contiene un corpus) contiene i valori elencati di seguito all'interno dell'output JSON.
text: la parola con tag.
part_of_speech: il tag della parte del discorso a grana grossa.
part_of_speech_description: la descrizione del tag della parte del discorso a grana grossa.
fine_grained_tag: il tag della parte del discorso a grana fine.
fine-grained-tag_description: la descrizione del tag della parte del discorso a grana fine.
dependency: la dipendenza della parte del discorso.
dependency_description: la descrizione della dipendenza della parte del discorso.
character_index: l'indice del primo carattere della parola nel corpus. L'indice inizia da 0.
word_index: l'indice della parola nel corpus. L'indice inizia da 0.
text_length: la lunghezza della parola.
dependency_diagram: questa colonna contiene un oggetto HTML del diagramma delle dipendenze del tagger displayCy visualizzabile tramite lo strumento Sfoglia.
Come analizzare l'output JSON
Per trasformare l'output JSON in dati tabulari, utilizza una combinazione di strumenti Analisi JSON , Testo in colonne e Campi incrociati in questo flusso di esempio:
Passa l'output dello strumento Tagger parte del discorso all'input dello strumento Analisi JSON.
Seleziona la colonna della parte del discorso in Campo JSON .
Seleziona Valori di output in un singolo campo stringa .
Passa l'output dello strumento Analisi JSON all'input di Testo in colonne.
Seleziona la colonna del nome JSON in Colonna da dividere e imposta Delimitatori sul punto ( . ).
Seleziona Suddividi in colonne e imposta Numero di colonne su 3 .
Passa l'output dello strumento Testo in colonne all'input dello strumento Campi incrociati.
Configurazione dello strumento Campi incrociati:
Raggruppa i dati in base a questi valori : seleziona il nome della colonna contenente i dati di testo originali e la seconda colonna del nome JSON divisa (per impostazione predefinita è JSON_Name2 ).
Modifica intestazioni colonna : seleziona la terza colonna del nome JSON divisa (per impostazione predefinita è JSON_Name3 ).
Valori per nuove colonne : seleziona il JSON_ValueString .
Metodo per aggregare i valori : seleziona Concatena .
Esegui il flusso di lavoro. L'output dello strumento Campi incrociati ora contiene il formato tabulare dell'output dello strumento Tagger parte del discorso.
Diagramma delle dipendenze
Di seguito è riportato un esempio di diagramma delle dipendenze per la frase "This is a sentence". Il tag della parte del discorso a grana grossa è inserito sotto ogni parola. La descrizione per il tag della parte del discorso a grana grossa è nell'output JSON sotto "part_of_speech_description". Ogni freccia indica la dipendenza sintattica tra due parole. La descrizione di ciascuna dipendenza è nell'output JSON in "dependency_description".
Descrizioni dei tag delle parti del discorso a grana grossa per il diagramma delle dipendenze precedente:
AUX: ausiliario
DET: determinante
NOUN: sostantivo
Descrizioni delle dipendenze per il diagramma delle dipendenze precedente:
nsubj: soggetto nominale
attr: attributo
det: determinante
Domande frequenti
Il diagramma è una rappresentazione visiva che aiuta l'utente a visualizzare i tag delle parti del discorso. Il diagramma illustra anche il modo in cui le parole sono associate. In questa fase, le dipendenze sono solo parte della rappresentazione visiva e non sono incluse nell'output.
Al momento, lo strumento Tagger parte del discorso non funziona con gli strumenti Crea report. Ad esempio, non è possibile salvare il diagramma delle dipendenze come immagine.
Alla prima esecuzione il modello viene memorizzato nella cache e quindi la prima esecuzione sarà più lenta. Per lo stesso testo, i flussi di lavoro saranno più veloci nelle esecuzioni successive. Nota che la cache scade ed è possibile che il ciclo ricominci.