Strumento Riconoscimento entità denominata
Utilizza lo strumento Riconoscimento entità denominata per identificare le entità, come persone, luoghi e cose, nel testo. Lo strumento sfrutta le funzionalità di riconoscimento delle entità denominate nel pacchetto spaCy . Puoi utilizzare il gruppo predefinito di entità o le tue entità personalizzate.
Alteryx Intelligence Suite necessario
Questo strumento fa parte di Alteryx Intelligence Suite . Intelligence Suite richiede una licenza separata e un ulteriore programma di installazione per Designer. Dopo aver installato Designer, installa Intelligence Suite e avvia la versione di prova gratuita .
Supporto linguistico
Lo strumento Riconoscimento entità denominata supporta le lingue inglese, francese, tedesco, italiano, portoghese e spagnolo.
Componenti dello strumento
Lo strumento Riconoscimento entità denominata ha 4 ancoraggi.
Ancoraggio di input D : consente di collegare i dati di testo alle entità che desideri identificare.
Ancoraggio di input E (opzionale): consente di collegare i dati alle entità personalizzate che desideri identificare. Questi dati devono contenere i nomi delle entità personalizzate e le etichette che desideri utilizzare per addestrare il modello.
Ancoraggio di output D : consente di generare nuove colonne di dati che mostrano informazioni sulle entità nei dati.
Ancoraggio di output M : genera l'oggetto modello a valle per l'utilizzo con nuovi dati. L'oggetto modello è compatibile con lo strumento Previsione .
Configurazione del modello predefinito
Configura lo strumento
Trascina lo strumento nell'area di disegno.
Collega l'ancoraggio di input D ai dati di testo con le entità che desideri identificare.
Seleziona la lingua dei dati di testo.
Seleziona la colonna con testo .
Esegui il flusso di lavoro.
Elenco delle entità predefinite in inglese
PERSON: persone immaginarie e reali.
NORP: nazionalità, religione o gruppo politico.
FAC: strutture come edifici, aeroporti, autostrade e ponti.
ORG: organizzazioni come aziende, agenzie e istituzioni.
GPE: entità geografiche come paesi, città e Stati.
LOC: località non GPE come catene montuose, corpi idrici e continenti.
PRODUCT: prodotti come veicoli e alimenti. Esclusi i servizi.
EVENT: eventi come uragani denominati, guerre, eventi sportivi.
WORK_OF_ART: opere d'arte come libri, canzoni e film.
LAW: documenti denominati accorpati in leggi.
LANGUAGE: lingue denominate.
DATE: entità data.
TIME: entità ora, meno di un giorno.
PERCENT: percentuale, include "%" e la parola "percento".
MONEY: valore monetario, include l'unità.
QUANTITY: misure quali altezza, peso e distanza.
ORDINAL: entità ordinali come primo, secondo e terzo.
CARDINAL: numeri che non rientrano in un'altra categoria numerica.
È possibile trovare gli elenchi di entità predefinite per le altre lingue nella documentazione relativa a spaCy.
Configurazione del modello personalizzato
Se desideri utilizzare le tue entità personalizzate per preparare il modello, seleziona Addestra con nuove entità . Il contenuto di origine deve includere almeno 20 istanze di ogni entità personalizzata. Collega le entità personalizzate all'ancoraggio di input E .
Formato dell'elenco delle entità personalizzate
È possibile utilizzare lo strumento Input di testo per passare le tue entità personalizzate all'ancoraggio di input E . Lo strumento utilizza il tuo elenco delle entità per addestrare un nuovo modello. Il formato dell'elenco delle entità è il seguente con alcuni esempi:
Entità | Etichetta |
---|---|
Riesling | GRAPE |
Sauvignon Blanc | GRAPE |
Pinot Nero | GRAPE |
Syrah | GRAPE |
Cabernet Sauvignon | GRAPE |
Configura lo strumento
Trascina lo strumento nell'area di disegno.
Collega l'ancoraggio di input D ai dati di testo con le entità che desideri identificare.
Collega l'ancoraggio di input E all'elenco delle entità personalizzate.
Seleziona la lingua dei dati di testo collegati all'ancoraggio di input D .
Seleziona la colonna con testo dai dati di testo collegati all'ancoraggio di input D .
Seleziona Addestra con nuove entità .
Seleziona la colonna con entità dall'elenco delle entità personalizzate collegato all'ancoraggio di input E .
Seleziona la colonna con etichette dall'elenco delle entità personalizzate collegato all'ancoraggio di input E .
Seleziona la casella di spunta se desideri che il modello esegua la distinzione tra maiuscole e minuscole .
(Facoltativo) Configura la sezione Addestra modello . Per i dettagli, consulta la seguente sezione.
Esegui il flusso di lavoro.
Addestramento del modello
Una epoch è un singolo passaggio (in avanti e all'indietro) di tutti i dati in un set di addestramento attraverso una rete neurale. Le epoch sono correlate alle iterazioni, ma non sono la stessa cosa. Un'iterazione è un passaggio singolo di tutti i dati in un batch di un set di addestramento.
L'aumento del numero delle epoch consente al modello di apprendere dal set di addestramento per un periodo più lungo. Tuttavia, questa operazione aumenta anche le spese di calcolo.
Si può aumentare il numero di epoch per ridurre gli errori nel modello. Tuttavia, a un certo punto, il livello di riduzione degli errori potrebbe non valere la spesa di calcolo aggiuntiva. Inoltre, l'aumento eccessivo del numero di epoch può causare problemi di overfitting, mentre un uso insufficiente di epoch può causare problemi di underfitting.
Per impostazione predefinita, lo strumento utilizza 10 epoch.
L'arresto anticipato indica a un metodo di Machine Learning iterativo, come la rete neurale convoluzionale utilizzata nello strumento Riconoscimento entità denominata, quando interrompere l'apprendimento. Riconoscimento entità denominata utilizza F1 come metrica per l'arresto anticipato.
L'arresto anticipato è utile quando il modello presenta problemi di overfitting. L'overfitting si verifica quando il modello apprende memorizzando le risposte, anziché identificando gli schemi sottostanti nei dati. Puoi utilizzare l'arresto anticipato anche per evitare che l'algoritmo venga eseguito in epoch non necessari.
Utilizza l'arresto anticipato se temi che il tuo modello presenti problemi di overfitting con i dati o che ulteriori epoch non migliorino il modello.
Per impostazione predefinita, lo strumento utilizza l'arresto anticipato.
Un batch è un sottoinsieme dell'intero set di dati di addestramento.
La riduzione delle dimensioni del batch consente di distribuire la quantità di dati che passano attraverso una rete neurale in un determinato momento. Questa procedura consente di addestrare i modelli senza occupare lo spazio di memoria che occorrerebbe se tutti i dati passassero attraverso la rete neurale contemporaneamente. A volte l'elaborazione in batch può accelerare l'addestramento, ma suddividere i dati in batch può anche aumentare gli errori nel modello.
Separa i dati in batch quando la macchina non è in grado di elaborare tutti i dati contemporaneamente o se desideri ridurre i tempi di addestramento.
Per impostazione predefinita, lo strumento utilizza una dimensione batch di 32.
Output
L'ancoraggio di output D aggiunge 2 colonne all'output:
entità: questa colonna contiene un output JSON con un elenco di tag e descrizioni delle entità.
entità: entità trovata dal modello.
etichetta: l'etichetta dell'entità.
indice_carattere: l'indice del primo carattere della parola nel corpo del testo. L'indice inizia da 0.
indice_parola: l'indice della parola nel corpo del testo. L'indice inizia da 0.
lunghezza_entità: lunghezza dei caratteri dell'entità.
diagramma_entità: questa colonna contiene il testo con entità etichettate ed è visibile con lo strumento Sfoglia .
L'ancoraggio di output M contiene un oggetto modello. Puoi salvare l'oggetto modello e utilizzarlo su nuovi dati con lo strumento Previsione.
Come analizzare l'output JSON
Per trasformare l'output JSON in dati tabulari, utilizza una combinazione di strumenti Analisi JSON , Testo in colonne e Campi incrociati in questo flusso di esempio:
Passa l'output dello strumento Riconoscimento entità denominata all'input dello strumento Analisi JSON.
Seleziona la colonna delle entità in Campo JSON .
Seleziona Valori di output in un singolo campo stringa .
Passa l'output dello strumento Analisi JSON all'input di Testo in colonne.
Seleziona la colonna del nome JSON in Colonna da dividere e imposta Delimitatori sul punto ( . ).
Seleziona Suddividi in colonne e imposta Numero di colonne su 3 .
Passa l'output dello strumento Testo in colonne all'input dello strumento Campi incrociati.
Configurazione dello strumento Campi incrociati:
Raggruppa i dati in base a questi valori : seleziona il nome della colonna contenente i dati di testo originali e la seconda colonna del nome JSON divisa (per impostazione predefinita è JSON_Name2 ).
Modifica intestazioni colonna : seleziona la terza colonna del nome JSON divisa (per impostazione predefinita è JSON_Name3 ).
Valori per nuove colonne : seleziona il JSON_ValueString .
Metodo per aggregare i valori : seleziona Concatena .
Esegui il flusso di lavoro. L'output dello strumento Campi incrociati ora contiene il formato tabulare dell'output dello strumento Riconoscimento entità denominata.
Domande frequenti
L'algoritmo assegna prima la priorità all'elenco personalizzato.
Per impostazione predefinita no, Riconoscimento entità denominata non può riconoscere Michael Jordan e Air Jordan come la stessa persona. Tuttavia, puoi addestrare un nuovo modello a questo tipo di riconoscimento passando un'entità personalizzata e un elenco di etichette. Tieni presente che lo strumento Riconoscimento entità personalizzata non sostituisce lo strumento Trova Sostituisci. L'algoritmo potrebbe rilevare altri soprannomi per Michael Jordan in base alle associazioni nei dati di origine.
No, Riconoscimento entità personalizzata supporta solo la lingua specificata. Ad esempio, se si specifica Inglese, Riconoscimento entità personalizzata cerca solo il testo inglese all'interno dei dati di origine. Se i dati di origine contengono testo in altre lingue supportate da Riconoscimento entità personalizzata (ad esempio in francese), è possibile creare un altro processo di Riconoscimento entità personalizzata sull'area di disegno per il testo in francese e unire i risultati alla fine.