Etiquetado gramatical

Usa la herramienta Etiquetado gramatical para identificar elementos gramaticales, como nombres, verbos y adjetivos a partir del texto. El etiquetado gramatical es un paso de procesamiento común para limpiar, preparar y mejorar los datos de las aplicaciones de procesamiento de lenguaje natural. La herramienta Etiquetado gramatical aprovecha las capacidades gramaticales del paquete spaCy . La exactitud del etiquetado gramatical para el inglés es de aproximadamente el 97% y varía ligeramente para los demás idiomas admitidos .

Se requiere Alteryx Intelligence Suite

Esta herramienta forma parte de Alteryx Intelligence Suite. Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita.

Idiomas compatibles

La herramienta Etiquetado gramatical admite los idiomas inglés, francés, alemán, italiano, portugués y español. Las etiquetas de salida gramatical solo están disponibles en inglés.

Componentes de la herramienta

La herramienta Etiquetado gramatical tiene 2 anclas:

Ancla de entrada: utiliza esta ancla para conectar los datos de texto que quieres analizar.
Ancla de salida: utiliza el ancla de salida para pasar los datos del texto etiquetado en sentido descendente.

Configurar la herramienta

Agrega una herramienta Etiquetado gramatical al lienzo.
Utiliza las anclas para conectar la herramienta Etiquetado gramatical a los datos de texto que quieres utilizar en el flujo de trabajo.
Selecciona el idioma de los datos de texto.
Selecciona la Columna con texto que quieres analizar.
Ejecuta el flujo de trabajo.

Salida

La herramienta Etiquetado gramatical genera las columnas entrantes además de 2 columnas:

part_of_speech_tags: Esta columna contiene una salida JSON con una lista de etiquetas y descripciones gramaticales. Cada token (palabra) de un corpus (donde cada fila de la columna de entrada de texto contiene un corpus) contiene los valores indicados a continuación dentro de la salida JSON.
- text: La palabra etiquetada.
- part_of_speech: La etiqueta gramatical general.
- part_of_speech_description: La descripción de la etiqueta gramatical general.
- fine_grained_tag: La etiqueta gramatical detallada.
- fine_grained_tag_description: La descripción de la etiqueta gramatical detallada.
- dependency: La dependencia gramatical.
- dependency_description: La descripción de la dependencia gramatical.
- character_index: El índice del primer carácter de la palabra en el corpus. El índice comienza en 0.
- word_index: El índice de la palabra en el corpus. El índice comienza en 0.
- text_length: La longitud de la palabra.
dependency_diagram: Esta columna contiene un objeto HTML del diagrama de dependencia de etiquetado displaCy que se puede ver mediante la herramienta Examinar.

Cómo analizar la salida JSON

Para transformar la salida JSON en datos tabulares, utiliza una combinación de las herramientas Análisis JSON , Texto a columnas y Tabulación cruzada en este flujo de ejemplo:

Pasa la salida de la herramienta Etiquetado gramatical a la entrada de la herramienta de Análisis JSON.
Selecciona la columna gramatical en Campo JSON .
Selecciona Emitir valores como salida a un solo campo de cadena .
Pasa la salida de la herramienta Análisis JSON a la entrada Texto a columnas.
Selecciona la columna Nombre JSON en Columna para dividir y establece los Delimitadores en un punto ( . ).
Selecciona Dividir en columnas y establece el Número de columnas en 3 .
Pasa la salida de la herramienta Texto a columnas a la entrada de la herramienta Tabulación cruzada.
Configuración de la herramienta Tabulación cruzada:
1. Agrupar datos por estos valores : selecciona el nombre de la columna que contiene los datos de texto originales y la segunda columna de nombre JSON dividida (de manera predeterminada es JSON_Name2 ).
2. Cambiar encabezados de columnas : selecciona la tercera columna de nombre JSON dividida (de manera predeterminada es JSON_Name3 ).
3. Valores para columnas nuevas : Selecciona JSON_ValueString .
4. Método para agregar valores : selecciona Concatenar .
Ejecuta el flujo de trabajo. La salida de la herramienta Tabulación cruzada contiene ahora la forma tabular de la salida de la herramienta Etiquetado gramatical.

Diagrama de dependencia

A continuación, se muestra un diagrama de dependencia de ejemplo para la oración "This is a sentence." (Esta es una oración.). La etiqueta gramatical general se completa debajo de cada palabra. La descripción de la etiqueta gramatical general se encuentra en la salida JSON bajo “part_of_speech_description”. Cada flecha indica la dependencia sintáctica entre dos palabras. La descripción de cada dependencia se encuentra en la salida JSON bajo “dependency_description”.

Descripciones de etiquetas gramaticales generales del diagrama de dependencia anterior:

AUX: Auxiliar
DET: Determinante
NOUN: Sustantivo

Descripciones de dependencia del diagrama de dependencia anterior:

nsubj: Sujeto nominal
attr: Atributo
det: Determinante

Preguntas frecuentes

¿Cómo debo utilizar el diagrama de dependencia?

El diagrama es visual para ayudar al usuario a ver las etiquetas gramaticales. El diagrama también muestra cómo se asocian las palabras. En esta etapa, las dependencias son solo parte de lo visual y no están incluidas en la salida.

¿Funciona el diagrama de dependencia con las herramientas de informes?

En este momento, Etiquetado gramatical no funciona con las herramientas de informes. Por ejemplo, no se puede guardar el diagrama de dependencia como una imagen.

¿Por qué tarda varios segundos en ejecutarse la herramienta Etiquetado gramatical?

El modelo se almacena en caché en la primera ejecución y, por lo tanto, la primera ejecución será más lenta. Para el mismo texto, los flujos de trabajo serán más rápidos en ejecuciones posteriores. Se debe tener en cuenta que la caché caduca y que es posible que el ciclo se inicie de nuevo.