Skip to main content

Decision Tree Tool Icon Herramienta Árbol de decisión

Ejemplo de cada herramienta

La herramienta Árbol de decisión tiene un ejemplo de uso. Consulta Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

Usa el Árbol de decisión para crear un conjunto de reglas de división de “si- entonces” para optimizar los criterios de creación de modelos según los métodos de aprendizaje del árbol de decisión. La formación de reglas se basa en el tipo de campo del objetivo:

  • si el campo objetivo es miembro de un conjunto categórico, se crea un árbol de clasificación.

  • Si el campo objetivo es una variable continua, se crea un árbol de regresión.

Utiliza la herramienta Árbol de decisión cuando se prediga el campo objetivo utilizando uno o más campos variables, como un problema de clasificación o regresión de objetivo continuo.

Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivas e inicia sesión en el portal de descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.

Conectar una entrada

La herramienta Árbol de decisión requiere una entrada con…

  • Un campo objetivo de interés

  • Uno o más campos predictores

Los paquetes utilizados en la estimación del modelo varían según el flujo de datos entrante.

  • Un flujo de datos de Alteryx utiliza la función rpart R de código abierto.

  • Un flujo de metadatos XDF, procedente de una herramienta Entrada XDF o de una herramienta Salida XDF, utiliza la función RevoScaleR rxDTree.

  • Un flujo de datos de SQL Server en base de datos utiliza la función rxBTrees.

  • La instalación de Microsoft Machine Learning Server aprovecha la función RevoScaleR rxBTrees para los datos en las bases de datos de SQL Server o Teradata. Esto requiere que el equipo y el servidor locales se configuren con Microsoft Machine Learning Server, que permite el procesamiento en el servidor de base de datos y da como resultado una mejora significativa del rendimiento.

Capacidades de RevoScaleR

En comparación con las funciones de código abierto R, la función basada en RevoScaleR puede analizar conjuntos de datos mucho más grandes. Sin embargo, la función basada en RevoScaleR debe crear un archivo XDF, que aumenta el costo general, utiliza un algoritmo que hace más pases por los datos, aumenta el tiempo de ejecución y no puede crear algunas salidas de diagnóstico del modelo.

Configurar la herramienta para el procesamiento estándar

Estas opciones son necesarias para generar una decisión.

  • Ingresa el nombre del modelo: nombre para el modelo al que se puede hacer referencia con otras herramientas. El nombre o el prefijo del modelo debe comenzar con una letra y puede contener letras, números y caracteres especiales como el punto (".") y el guión bajo ("_"). R distingue entre mayúsculas y minúsculas.

  • Seleccionar variable objetivo: el campo de datos que deseas predecir, también conocido como una respuesta o variable dependiente.

  • Selecciona las variables predictoras: los campos de datos utilizados para influir en el valor de la variable objetivo, también conocido como característica o variable independiente. Se requiere un campo predictivo como mínimo, pero no hay límite superior en el número de campos predictivos seleccionados. La variable objetivo en sí no debe utilizarse en el cálculo del valor objetivo, por lo que el campo objetivo no debe incluirse en los campos predictivos. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

Selecciona Personalizar para configurar ajustes adicionales.

Personaliza el modelo

Pestaña Modelo

Las opciones que cambian la forma en que el modelo evalúa los datos y se crea.

Elegir algoritmo: selecciona la función rpart o la función C5.0. Las opciones posteriores difieren dependiendo del algoritmo que elijas.

  • rpart: un algoritmo basado en el trabajo de Breiman, Friedman, Olshen y Stone; considerado el estándar. Utiliza rpart si estás creando un modelo de regresión o si necesitas un gráfico de depuración.

    • Tipo de modelo y ponderaciones de muestreo: controles para el tipo de modelo basados en la variable objetivo y el manejo de ponderaciones de muestreo.

      • Tipo de modelo: el tipo de modelo utilizado para predecir la variable objetivo.

        • Automático: el tipo de modelo se selecciona automáticamente en función del tipo de variable objetivo.

        • Clasificación: el modelo predice un valor de texto discreto de una categoría o grupo.

        • Regresión: el modelo predice valores numéricos continuos.

      • Usar ponderaciones de muestreo en la estimación del modelo: una opción que permite seleccionar un campo que juzga la importancia que se coloca en cada registro y pondera el registro de forma acorde al crear una estimación de modelo.

        Si se utiliza un campo tanto como predictor y como ponderación de muestra, el campo de salida con la variable de ponderación se antepone con “Right_”.

    • Criterios de división y elementos suplentes: controles de cómo el modelo determina una división y cómo se utilizan los sustitutos en la evaluación de los patrones de datos. Los criterios de división a utilizar: selecciona la forma en que el modelo evalúa cuándo un árbol debe dividirse.

      • Los criterios de división cuando se utiliza un modelo de regresión son siempre los mínimos cuadrados.

        • Coeficiente de Gini

        • Se utiliza la impureza Gini.

        • Índice de información

      • Utilizar elementos suplentes para: selecciona el método para usar sustitutos en el proceso de división. Los sustitutos son variables relacionadas con la variable primaria que se utilizan para determinar el resultado de la división para un registro con información faltante.

        • Omitir observaciones con valor faltante para la regla de división primaria: el registro en el que falta la variable candidata no se tiene en cuenta para determinar la división.

        • Dividir los registros en los que falta la variable candidata: todos los registros en los que falta la variable candidata se distribuyen de manera uniforme en la división.

        • Enviar observación en la dirección mayoritaria si faltan todos los sustitutos: todos los registros en los que falta la variable candidata se envían al lado de la división que contiene más registros.

      • Selecciona la mejor división de sustitutos usando: selecciona los criterios a fin de elegir la mejor variable para la división entre un conjunto de variables posibles.

        • Número de clasificaciones correctas para una variable candidata: elige la variable para la división en función del número total de registros que se clasifican correctamente.

        • Porcentaje de clasificaciones correctas para una variable candidata elige la variable para la división en función del porcentaje de registros que están correctamente clasificados.

    • Hiperparámetros: controles para la distribución previa del modelo. Ajusta el procesamiento según la distribución previa.

      • El número mínimo de registros necesarios para permitir una división: establece el número de registros que deben existir antes de que se produzca una división. Si hay menos registros que el número mínimo, entonces no se permiten más divisiones.

      • El número mínimo permitido de registros en un nodo terminal: establece el número de registros que pueden estar en un nodo terminal. Un número menor aumenta el número potencial de nodos terminales finales al final del árbol.

      • El número de iteraciones que se utilizarán en la validación cruzada para depurar el árbol: establece el número de grupos (N) en los que los datos deben dividirse cuando se prueba el modelo. El número por defecto es 10, pero otros valores comunes son 5 y 20. Un mayor número de iteraciones da más precisión al árbol, pero puede tardar más en procesarse. Cuando el árbol se depura utilizando un parámetro de complejidad, la validación cruzada determina cuántas divisiones o ramas hay en el árbol. En la validación cruzada, N - 1 de las iteraciones se utilizan para crear un modelo, y la otra iteración se utiliza como una muestra para determinar el número de ramas que mejor se adapta a la iteración restante con el fin de evitar el sobreajuste.

      • La profundidad máxima permitida de cualquier nodo en el árbol final: establecer el número de niveles de ramas permitidos desde el nodo raíz hasta el nodo más distante de la raíz para limitar el tamaño total del árbol.

      • El número máximo de contenedores a utilizar para cada variable numérica: ingresa el número de contenedores a utilizar para cada variable. De forma predeterminada, el valor se calcula en función del número mínimo de registros necesarios para permitir una división.

        Solo flujo de metadatos XDF

        Esta opción solo se aplica cuando la entrada en la herramienta es un flujo de metadatos XDF. La función RevoScaleR (rxDTree) que implementa el árbol de decisión escalable maneja variables numéricas a través de un proceso de agrupación de intervalos iguales para reducir la complejidad de procesamiento.

      • Definir parámetro de complejidad: un valor que controla el tamaño del árbol de decisión. Un valor más pequeño da como resultado más ramas en el árbol, y un valor más grande da como resultado menos ramas. Si no se selecciona un parámetro de complejidad, el parámetro se determina en función de la validación cruzada.

  • C5.0: un algoritmo basado en el trabajo de Quinlan; usa C5.0 si los datos están ordenados en una de las pocas clases mutuamente excluyentes. Se proporcionan propiedades que pueden ser relevantes para la asignación de clase, aunque algunos datos pueden tener valores desconocidos o no aplicables.

    • Opciones estructurales: controles para la estructura del modelo. Por defecto, el modelo está estructurado como un árbol de decisión.

      • Descomponerel árbol en un modelo basado en reglas: cambia la estructura del algoritmo de salida de un árbol de decisión a una colección de reglas si-entonces simples y desordenadas. Selecciona Número límite de bandas para agrupar reglas para Seleccionar un número de bandas para agrupar reglas donde el número establecido es el umbral de banda.

    • Opciones detalladas: controles para las divisiones y características del modelo.

      • El modelo debería evaluar grupos de predictores discretos para las divisiones: agrupa variables predictoras categóricas juntas. Selecciona esto para reducir el sobreajuste cuando haya atributos discretos importantes que tengan más de cuatro o cinco valores.

      • Utilizar la limpieza de predictores (es decir, selección de características): selecciona esto para simplificar el modelo intentando excluir los predictores no útiles.

      • Depurar árbol: selecciona para simplificar el árbol a fin de reducir el sobreajuste eliminando divisiones de los árboles.

      • Evaluar divisiones avanzadas en los datos: selecciona esto para realizar evaluaciones con variables secundarias a fin de confirmar qué rama es la predicción más precisa.

      • Utilizar el método de detención para el refuerzo: selecciona esto para evaluar si las iteraciones de refuerzo se están volviendo ineficaces y, en caso afirmativo, dejar de reforzar.

    • Hiperparámetros numéricos: controles para la distribución previa del modelo que se basan en un valor numérico.

      • Seleccionar el número de iteraciones de refuerzo: seleccione un 1 para usar un solo modelo.

      • Seleccionar factor de confianza: este es el análogo del parámetro de complejidad de rpart.

      • Seleccionar el número de muestras que debe estar en al menos 2 divisiones: un número mayor da un árbol más pequeño y simplificado.

      • Porcentaje de datos retenidos del entrenamiento para la evaluación del modelo: selecciona la porción de los datos utilizados para entrenar el modelo. Utiliza el valor predeterminado 0 a fin de usar todos los datos para entrenar el modelo. Selecciona un valor mayor para evitar que ese porcentaje de datos se use para el entrenamiento y la evaluación de la precisión del modelo

      • Seleccionar una semilla aleatoria para el algoritmo: selecciona el valor de la semilla. El valor debe ser un entero positivo.

Pestaña de validación cruzada

Controles para personalizar un método de validación con uso eficiente de la información disponible.

Selecciona Utilizar la validación cruzada para determinar las estimaciones de la calidad del modelo para realizar la validación cruzada a fin de obtener varias métricas y gráficos de calidad del modelo. Algunas métricas y gráficos se muestran en la salida R, y otros se muestran en la salida I.

  • Cantidad de iteraciones de validación cruzada: el número de submuestras en los que se dividen los datos para validación o entrenamiento. Una mayor cantidad de iteraciones genera estimaciones más robustas de la calidad del modelo, pero menos iteraciones hacen que la herramienta funcione más rápido.

  • Número de pruebas de validación cruzada: el número de veces que se repite el procedimiento de validación cruzada. Las iteraciones se seleccionan de manera diferente en cada prueba, y los resultados se promedian en todas las pruebas.. Una mayor cantidad de iteraciones genera estimaciones más robustas de la calidad del modelo, pero menos iteraciones hacen que la herramienta funcione más rápido.

  • Definir semilla para la validación cruzada externa: un valor que determina la secuencia de selección para el muestreo aleatorio. Esto causa que se elijan los mismos registros dentro de los datos, aunque el método de selección es aleatorio y no depende de los datos. Utiliza Seleccionar el valor de la semilla aleatoria para la validación cruzada a fin de seleccionar el valor de la semilla. El valor debe ser un entero positivo.

Pestaña de gráficos

Selecciona y configura qué gráficos aparecen en el informe de salida.

  • Mostrar informe estático: selecciona esto para mostrar un informe de resumen del modelo desde el ancla de salida R. Seleccionado de forma predeterminada.

  • Gráfico de árbol: un gráfico de variables y ramas del árbol de decisión. Utiliza la opción Mostrar gráfico de árbol para incluir un gráfico de variables y ramas de árbol de decisión en la salida del informe del modelo.

    • Distancias uniformes entre ramas: selecciona esto para mostrar las ramas del árbol con una longitud uniforme o proporcional a la importancia relativa de una división en la predicción del objetivo.

    • Resumen de hojas: determina lo que se muestra en los nodos de hoja finales en el gráfico de árbol. Selecciona Conteos si se muestra el número de registros. Selecciona Proporciones si se muestra el porcentaje del total de registros.

    • Tamaño del gráfico: selecciona si el gráfico se muestra en pulgadas o centímetros.

    • Ancho: establece el ancho del gráfico con la unidad seleccionada en Tamaño de gráfico.

    • Altura: establece la altura del gráfico con la unidad seleccionada en Tamaño de gráfico.

    • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).

      • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

      • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

  • Tamaño de fuente base (puntos): selecciona el tamaño de la fuente del gráfico.

    Gráfico de depuración: un gráfico simplificado del árbol de decisión.

  • Utiliza un gráfico de depuración en el informe

    • Mostrar gráfico de depuración: haz clic para incluir un gráfico simplificado del árbol de decisión en la salida del informe del modelo.

    • Tamaño del gráfico: selecciona si el gráfico se muestra en pulgadas o centímetros.

    • Ancho: establece el ancho del gráfico con la unidad seleccionada en Tamaño de gráfico.

    • Altura: establece la altura del gráfico con la unidad seleccionada en Tamaño de gráfico.

    • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

    • Tamaño de fuente base (puntos): configura el tamaño de la fuente del gráfico.

Configurar la herramienta para el procesamiento en base de datos

La herramienta Árbol de decisión admite el procesamiento en base de datos de Microsoft SQL Server 2016 y Teradata. Visita Información general sobre el procesamiento en base de datos para obtener más información sobre la compatibilidad y las herramientas de la categoría En base de datos.

Cuando se coloca una herramienta Árbol de decisión en el lienzo con otra herramienta de la categoría en Base de datos, la herramienta cambia automáticamente a la versión en Base de datos. Para cambiar la versión de la herramienta, haz clic con el botón derecho del mouse en la herramienta, selecciona "Elegir la versión de la herramienta" y haz clic en una versión. Visita Analítica predictiva para obtener más información sobre la compatibilidad con analítica predictiva en base de datos.

Pestaña "Parámetros obligatorios"

  • Nombre del modelo: cada modelo debe tener un nombre para su posterior identificación.

    • Un nombre específico del modelo: ingresa el nombre del modelo que deseas utilizar para el modelo. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

    • Generar un nombre de modelo automáticamente: Designer genera automáticamente un nombre de modelo que cumple con los parámetros requeridos.

  • Selecciona la variable objetivo: selecciona el campo del flujo de datos que deseas predecir.

  • Selecciona los campos predictores: selecciona los campos del flujo de datos que crees que “causan” los cambios en el valor de la variable objetivo. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • ¿Utilizar ponderaciones de muestreo en la estimación del modelo? (opcional): selecciona esto a fin de elegir un campo del flujo de datos de entrada para la ponderación del muestreo.

  • Selecciona el campo de ponderación de muestreo: selecciona un campo de ponderación del flujo de datos para estimar un modelo que utilice la ponderación de muestreo. Un campo se utiliza como predictor y como variable de ponderación. La variable de ponderación aparece en la llamada al modelo en la salida con la cadena “Right_” antepuesta.

Pestaña "Personalización del modelo"

  • Tipo de modelo: selecciona qué tipo de modelo se va a utilizar.

    • Clasificación: un modelo para predecir un objetivo categórico. Si se utiliza un modelo de clasificación, selecciona también los criterios de división.

      • Coeficiente de Gini

      • Índice de información basado en entropía

    • Regresión: un modelo para predecir un objetivo numérico continuo.

  • El número mínimo de registros necesarios para permitir una división: si a lo largo de un conjunto de ramas de un árbol hay menos registros que el número mínimo seleccionado, no se permiten más divisiones.

  • Parámetro de complejidad: este parámetro controla cómo se llevan a cabo las divisiones (en otras palabras, el número de ramas en el árbol). El valor debe ser menor que 1, y cuanto más pequeño sea el valor, más ramas habrá en el árbol final. La presencia de un valor de "Automático" u omitir un valor hará que se seleccione el "mejor" parámetro de complejidad en función de la validación cruzada.

  • El número mínimo permitido de registros en un nodo terminal: el número más pequeño de registros que deben contenerse en un nodo terminal. Disminuir este número aumenta el número potencial de nodos terminales finales.

  • Uso de sustitutos: este grupo de opciones controla cómo se abordan los registros con datos faltantes en las variables predictoras en una división particular. La primera opción es omitir (quitar) un registro con un valor faltante de la variable utilizada en la división. El segundo es usar divisiones “sustitutas”, en las que la dirección en la que se enviará un registro se basa en divisiones alternativas con una o más variables con casi los mismos resultados. La tercera opción es enviar la observación en la dirección mayoritaria durante la división.

    • Omitir una observación cuando falte un valor para la regla de división primaria

    • Utiliza elementos suplentes para dividir los registros a los que les falte la variable candidata

    • Si faltan todos los elementos sustitutos, enviar la observación en la dirección mayoritaria

    • La cantidad total de clasificaciones correctas correspondientes a una variable candidata potencial

    • El porcentaje correcto calculado en relación a los valores no ausentes de una variable candidato

  • El número de iteraciones a utilizar en la validación cruzada para depurar el árbol: cuando el árbol se depura mediante el uso de un parámetro de complejidad, la validación cruzada se utiliza para determinar cuántas divisiones y, por lo tanto, ramas hay en el árbol. Esto se hace mediante la validación cruzada, donde N - 1 de las iteraciones se utilizan para crear un modelo, y la otra iteración se utiliza como una muestra para determinar el número de ramas que mejor se adapta a la iteración restante con el fin de evitar el sobreajuste. Una cosa que puede ser alterada por el usuario es el número de grupos (N) en los que los datos deben dividirse. El valor predeterminado es 10, pero otros valores comunes son 5 y 20.

  • La profundidad máxima permitida de cualquier nodo en el árbol final: esta opción limita el tamaño total del árbol indicando cuántos niveles se permiten desde el nodo raíz hasta el nodo más distante de la raíz.

  • El número máximo de contenedores a utilizar para cada variable numérica: la función Revo ScaleR (rxDTree) que implementa el árbol de decisión escalable maneja variables numéricas a través de un proceso de agrupación de intervalos iguales para reducir la complejidad de procesamiento. Las opciones para esto son “Predeterminado”, que utiliza una fórmula basada en el número mínimo de registros necesarios para permitir una división, pero el usuario puede configurarla manualmente. Esta opción solo se aplica en casos en los que la entrada en la herramienta es un flujo de metadatos XDF.

Pestaña "Opciones de gráficos"

  • Gráfico de árbol: este conjunto de opciones controla una serie de opciones asociadas con el trazado de un árbol de decisión.

    • Resumen de hojas: la primera opción en esta opción es la naturaleza del resumen de hojas. Esta opción controla si los conteos o las proporciones se imprimen en los nodos de hoja finales en el gráfico de árbol.

      • Conteos

      • Proporciones

    • Distancias uniformes entre ramas: la segunda opción es si deben utilizarse distancias uniformes en las ramas. Esta opción controla si la longitud de las ramas de árbol seleccionadas refleja la importancia relativa de una división en la predicción del objetivo o si son de longitud uniforme en el gráfico de árbol.

  • Tamaño del gráfico: establece las dimensiones del gráfico árbol de salida.

    • Pulgadas: establecer el ancho y el alto del gráfico.

    • Centímetros: establecer el ancho y la altura de del gráfico.

    • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).

      • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

      • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

    • Tamaño de fuente base (puntos): tamaño de fuente en puntos.

  • Gráfico de depuración: selecciona esto para incluir un gráfico simplificado del árbol de decisión en la salida del informe del modelo.

    • Tamaño del gráfico: selecciona si el gráfico se muestra en pulgadas o centímetros.

      • Ancho: establece el ancho del gráfico con la unidad seleccionada en Tamaño de gráfico.

      • Altura: establece la altura del gráfico con la unidad seleccionada en Tamaño de gráfico.

    • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).

      • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

      • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

    • Tamaño de fuente base (puntos): configura el tamaño de la fuente del gráfico.

Ver la salida

Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.

  • O (salida): muestra el nombre del modelo y el tamaño del objeto en la ventana de Resultados.

  • R (informe): muestra un informe resumido del modelo, el cual incluye un resumen y los gráficos.

  • I (interactivo): muestra un panel de control interactivo de elementos visuales de respaldo que te permite hacer zoom, pasar el cursor y hacer clic.

Comportamiento esperado: precisión del gráfico

Cuando se utiliza la herramienta Árbol de decisión para el procesamiento estándar, la salida interactiva muestra una mayor precisión con valores numéricos que la salida del informe.