Herramienta árbol de decisión
La herramienta árbol de decisiones crea un conjunto de reglas de división if y then para optimizar los criterios de creación de modelos basados en métodos de aprendizaje de árbol de decisión . La formación de reglas se basa en el tipo de campo de destino:
- Si el campo de destino es miembro de un conjunto de categorías, se construirá un árbol de clasificación.
- Si el campo de destino es una variable continua, se construye un árbol de regresión.
Utilice la herramienta árbol de decisiones cuando se prediga el campo destino utilizando uno o más campos variables, como una clasificación o un problema de regresión de destino continuo.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.
La herramienta de tee de decisión requiere una entrada con:
- Un campo objetivo de interés
- Uno o más campos predictores
Los paquetes utilizados en la estimación del modelo varían en función de la secuencia de datos de entrada.
- Una secuencia de datos Alteryx utiliza la función Open Source R RPART .
- Una secuencia de metadatos XDF, procedente de una Herramienta Datos de entrada XDF o Herramienta Datos de salida XDF, utiliza la función RevoScaleR rxDTree.
- Los datos de una secuencia de datos de SQL Server en base de datos utilizan la función rxBTrees.
- La instalación de Microsoft Machine Learning Server aprovecha la función RevoScaleR rxBTrees para tus datos en las bases de datos de SQL Server o Teradata. Esto requiere que el equipo y el servidor locales se configuren con Microsoft Machine Learning Server, que permite el procesamiento en el servidor de base de datos y da como resultado una mejora significativa del rendimiento.
Capacidades de RevoScaleR
En comparación con las funciones de código abierto R, la función basada en RevoScaleR puede analizar conjuntos de datos mucho más grandes. Sin embargo, la función basada en RevoScaleR debe crear un archivo XDF, que aumenta el costo general, utiliza un algoritmo que realiza más pases sobre los datos, aumenta el tiempo de ejecución y no puede crear algunas salidas de diagnóstico del modelo.
Estas opciones son necesarias para generar una decisión.
- Tipo nombredel modelo: nombre del modelo al que se puede hacer referencia con otras herramientas. El nombre o el prefijo del modelo debe comenzar con una letra y puede contener letras, números y caracteres especiales como el punto (".") y el guión bajo ("_"). R distingue entre mayúsculas y minúsculas.
- Seleccione la variablede destino: el campo de datos que se desea predecir, también conocido como una respuesta o variable dependiente.
- Seleccione variables predictoras: los campos de datos utilizados para influir en el valor de la variable de destino, también conocida como una característica o variable independiente. Un campo predictor se requiere como mínimo, pero no hay límite superior en el número de campos predictores seleccionados. La variable destino en sí no debe utilizarse en el cálculo del valor objetivo, por lo que el campo destino no debe incluirse en los campos predictivos.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Haga clic en personalizar para ajustar la configuración adicional.
Modelo: las opciones que cambian el modo en que el modelo evalúa los datos y se construyen.
Elija algoritmo: seleccione la función RPART o la función c 5.0.
RPART: un algoritmo basado en el trabajo de Breiman, Friedman, Olshen y Stone; considerado el estándar. Utilice RPART si está creando un modelo de regresión o si necesita una parcela de poda.
Tipo de modelo y pesos de muestreo: controles para el tipo de modelo basado en la variable de destino y el manejo de pesos de muestreo.
- Tipode modelo: el tipo de modelo utilizado para predecir la variable de destino.
- Auto: el tipo de modelo se selecciona automáticamente basándose en el tipo de variable de destino.
- Clasificación: el modelo predice un valor de texto discreto de una categoría o grupo.
- Regresión: el modelo predice valores numéricos continuos.
- Utilice pesos de muestreo en la estimación del modelo: una opción que le permite seleccionar un campo que juzgue la importancia colocada en cada registro y pondera el registro en consecuencia al crear una estimación de modelo.
Si se utiliza un campo como un predictor y un peso de muestra, el campo variable de peso de salida se antepone con "Right_".
Criterios de división y sustitutos: controla el modo en que el modelo determina una división y cómo se utilizan los sustitutos para evaluar los patrones de datos.
- Los criterios de división que se usarán: Seleccione la forma en que el modelo se evalúa cuando se debe dividir un árbol.
- Coeficiente de Gini
- Índice de información
- Use sustitutos para: seleccione el método para usar sustitutos en el proceso de división. Los sustitutos son variables relacionadas con la variable primaria que se utilizan para determinar el resultado de división de un registro con información que falta.
- Omita las observaciones con el valor que falta para la regla dividida primaria: el registro que falta la variable candidata no se considera en la determinación de la división.
- Dividir registros que faltan la variable Candidate: todos los registros que faltan la variable candidata se distribuyen uniformemente en la división.
- Enviar observación en la dirección de la mayoría si faltan todos los sustitutos: todos los registros que faltan la variable candidata se empujan al lado de la división que contiene más registros.
- Seleccione la mejor división sustituta usando: seleccione los criterios para elegir la mejor variable a partir de un conjunto de posibles variables.
- Número de clasificaciones correctas para una variable candidata: elige la variable a dividir basándose en el número total de registros que se clasifican correctamente.
- El porcentaje de las clasificaciones correctas para una variable candidata elige la variable a dividir basándose en el porcentaje de registros que se clasifican correctamente.
Los criterios de división cuando se utiliza un modelo de regresión son siempre mínimos cuadrados.
Se utiliza la impureza de Gini.
Parameters: controles para la distribución anterior del modelo.
- El número mínimo de registros necesarios para permitir una división: defina el número de registros que deben existir antes de que ocurra una división. Si hay menos registros que el número mínimo, entonces no se permiten más divisiones.
- El número mínimo de registros permitidos en un nodo de terminal: Defina el número de registros que pueden estar en un nodo de terminal. Un número más bajo aumenta el número potencial de nodos terminales finales en el extremo del árbol.
- El número de pliegues que se usarán en la validación cruzada para podar el árbol: establecer el número de grupos (N) en los que se deben dividir los datos al probar el modelo. El número por defecto es 10, pero otros valores comunes son 5 y 20. Un mayor número de pliegues da más precisión al árbol, pero puede tardar más tiempo en procesarse. Cuando el árbol se poda utilizando un parámetro de complejidad, la validación cruzada determina el número de divisiones o bifurcaciones que se encuentran en el árbol. En la validación cruzada, el N-1 de los pliegues se utiliza para crear un modelo, y el otro doblez se utiliza como muestra para determinar el número de ramas que mejor se adapte al doblez retención para evitar el sobreajuste.
- La profundidad máxima permitida de cualquier nodo en el árbol final: defina el número de niveles de ramas permitidos desde el nodo raíz al nodo más distante de la raíz para limitar el tamaño total del árbol.
- El número máximo de bins que se utilizarán para cada variable numérica: Introduzca el número de bins que se usarán para cada variable. De forma predeterminada, el valor se calcula basándose en el número mínimo de registros necesarios para permitir una división.
- Definir parámetrode complejidad: valor que controla el tamaño del árbol de decisión. Un valor más pequeño da como resultado más ramas en el árbol, y un valor más grande da como resultado menos ramas. Si no se selecciona un parámetro de complejidad, el parámetro se determina basándose en la validación cruzada.
Sólo secuencias de metadatos XDF
Esta opción sólo se aplica cuando la entrada en la herramienta es una secuencia de metadatos XDF. La función Revo Scaler (rxDTree) que implementa el árbol de decisión escalable maneja las variables numéricas a través de un proceso binning de igual intervalo para reducir la complejidad del cómputo.
C 5.0: un algoritmo basado en el trabajo de Quinlan; utilice c 5.0 si sus datos se clasifican en uno de un pequeño número de clases mutuamente exclusivas. Se proporcionan propiedades que pueden ser relevantes para la asignación de clase, aunque algunos datos pueden tener valores desconocidos o no aplicables.
Opciones estructurales: controles para la estructura del modelo. De forma predeterminada, el modelo se estructura como un árbol de decisión.
- Descomponga el árbol en un modelo basado en reglas: cambie la estructura del algoritmo de salida de un árbol de decisiones a una colección de reglas de si-entonces sencillas y desordenadas.
- Umbral número de bandas para agrupar reglas en: Seleccione esta opción para seleccionar una serie de bandas para agrupar las reglas en donde el número establecido es el umbral de la banda.
Opciones detalladas: controles para las divisiones y características del modelo.
- El modelo debe evaluar grupos de predictores discretos para splits: Grupo de variables predictoras categóricas juntas. Seleccione esta opción para reducir el sobreajuste cuando hay atributos discretos importantes que tienen más de cuatro o cinco valores.
- Utilice predictor aventamiento (es decir, selección de funciones): Seleccione esta opción para simplificar el modelo intentando excluir los predictores no útiles.
- Árbol dela ciruela: Seleccione para simplificar el árbol para reducir el sobreajuste quitando las divisiones de árbol.
- Evaluar divisiones avanzadas en los datos: Seleccione esta opción para realizar evaluaciones con variables secundarias para confirmar qué rama es la predicción más precisa.
- Utilice el método de detención para aumentar: Seleccione esta opción para evaluar si las iteraciones se están volviendo ineficaces y, si es así, deje de aumentar.
Hiperparámetros numéricos: controles para la distribución previa del modelo que se basan en un valor numérico.
- Seleccione número de iteraciones de impulso: Seleccione un 1 para utilizar un solo modelo.
- Seleccionar factor de confianza: Este es el análogo del parámetro de complejidad de RPART.
- Seleccione el número de muestras que deben estar en al menos 2 divisiones: un número más grande proporciona un árbol más pequeño, más simplificado.
- Porcentaje de los datos que se mantienen desde la capacitación para la evaluación del modelo: seleccione la parte de los datos utilizados para entrenar el modelo. Utilice el valor predeterminado 0 para utilizar todos los datos para entrenar el modelo. Seleccione un valor mayor para mantener ese porcentaje de datos de la capacitación y la evaluación de la precisión del modelo
- Seleccione semilla aleatoria para el algoritmo: seleccione el valor de la semilla. El valor debe ser un entero positivo.
Validación cruzada: controles para personalizar un método de validación con un uso eficiente de la información disponible.
- Utilice la validación cruzada para determinar las estimaciones de la calidad del modelo: Seleccione esta opción para realizar la validación cruzada para obtener varias métricas y gráficos de calidad del modelo. Algunas métricas y gráficos se muestran en la salida R, y otros se muestran en la salida i.
- Número de pliegues de validación cruzada: el número de submuestras en los que se dividen los datos para su validación o formación. Un mayor número de pliegues da como resultado estimaciones más robustas de la calidad del modelo, pero menos pliegues hacen que la herramienta funcione más rápido.
- Número de ensayos de validación cruzada: número de veces que se repite el procedimiento de validación cruzada. Los pliegues se seleccionan de forma diferente en cada ensayo, y los resultados se promedian en todos los ensayos. Un mayor número de pliegues da como resultado estimaciones más robustas de la calidad del modelo, pero menos pliegues hacen que la herramienta funcione más rápido.
- Establecer semilla para validación cruzada externa: valor que determina la secuencia de sorteos para el muestreo aleatorio. Esto deriva en la selección de los mismos registros dentro de los datos, aunque el método de selección es aleatorio y no depende de los datos.
- Seleccione el valor de la semilla aleatoria para validación cruzada: seleccione el valor de la semilla. El valor debe ser un entero positivo.
Gráficas: seleccione y configure qué gráficos aparecen en el informe de salida.
Mostrar Informe estático: Seleccione esta opción para mostrar un informe resumido del modelo desde el anclaje de salida R. Seleccionado de forma predeterminada.
Parcelade árbol: un gráfico de variables de árbol de decisión y ramas.
Mostrar diagramade árbol: haga clic para incluir un gráfico de variables y ramas de árbol de decisión en la salida del informe del modelo.
- Distancias de rama uniforme: Seleccione para mostrar las ramas de árbol con longitud uniforme o proporcional a la importancia relativa de una división en la predicción del objetivo.
- Resumen de hojas: determine lo que se muestra en los nodos de hoja finales en la trama de árbol. Seleccione cuenta si se muestra el número de registros. Seleccione proporciones si se muestra el porcentaje de registros totales.
- Tamañode la parcela: Seleccione si el gráfico se muestra en pulgadas o centímetros.
- Ancho: defina el ancho del gráfico utilizando la unidad seleccionada en tamaño de parcela.
- Altura: ajuste la altura del gráfico utilizando la unidad seleccionada en tamaño de parcela.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
- Tamaño de fuente base (puntos): seleccione el tamaño de la fuente en el gráfico.
Parcela de ciruelas: un gráfico simplificado del árbol de decisión.
Mostrar diagrama de ciruelas: haga clic para incluir un gráfico simplificado del árbol de decisión en la salida del informe del modelo.
- Tamañode la parcela: Seleccione si el gráfico se muestra en pulgadas o centímetros.
- Ancho: defina el ancho del gráfico utilizando la unidad seleccionada en tamaño de parcela.
- Altura: ajuste la altura del gráfico utilizando la unidad seleccionada en tamaño de parcela.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
- Tamaño de fuente base (puntos): defina el tamaño de la fuente en el gráfico.
La herramienta de árbol de decisiones admite Microsoft SQL Server 2016 y Teradata en el procesamiento de bases de datos. Consulta Introducción a En base de datos. para obtener más información sobre las herramientas y el soporte en base de datos.
Cuando se coloca una herramienta de árbol de decisiones en el lienzo con otra herramienta in-dB, la herramienta cambia automáticamente a la versión in-dB. Para cambiar la versión de la herramienta, haga clic con el botón derecho en la herramienta, seleccione la versión de la herramienta y haga clic en una versión diferente de la herramienta. Consulta Analítica Predictiva para obtener más información sobre el soporte predictivo en base de datos.
- Nombre del modelo: cada modelo debe recibir un nombre para poder identificarlo posteriormente.
- Un nombre de modelo específico: introduzca el nombre del modelo que desea utilizar para el modelo. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
- Generar automáticamente un nombre de modelo: el diseñador genera automáticamente un nombre de modelo que cumple los parámetros requeridos.
- Seleccione la variablede destino: seleccione el campo de la secuencia de datos que desea predecir.
- Seleccione las variables predictoras: elija los campos de la secuencia de datos que cree que "causan" cambios en el valor de la variable de destino.
- Utilice pesos de muestreo en la estimación del modelo (opcional): Seleccione para elegir un campo de la secuencia de datos de entrada para utilizar el peso de muestreo FO.
- Seleccione el campo pesode muestreo: Seleccione un campo de peso de la secuencia de datos para estimar un modelo que utilice el peso de muestreo. Un campo se utiliza como un predictor y la variable de peso.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
La variable de peso aparece en la llamada de modelo en la salida con la cadena "Right_" antepone.
- Tipode modelo: seleccione qué tipo de modelo se va a utilizar.
- Clasificación: un modelo para predecir un objetivo categórico. Si utiliza un modelo de clasificación, seleccione también los criterios de división.
- Coeficiente de Gini
- Índice de información basado en la entropía
- Regresión: un modelo para predecir un objetivo numérico continuo.
- El número mínimo de registros necesarios para permitir una división: Si a lo largo de un conjunto de ramas de un árbol hay menos registros que el número mínimo seleccionado que no se permiten más divisiones.
- Parámetrode complejidad: este parámetro controla cómo se realizan las divisiones (es decir, el número de ramas en el árbol). El valor debe ser menor que 1, y cuanto más pequeño sea el valor, más ramas habrá en el árbol final. La presencia de un valor de "Automático" u omitir un valor hará que se seleccione el "mejor" parámetro de complejidad en función de la validación cruzada.
- El número mínimo de registros permitidos en un nodo de terminal: el número más pequeño de registros que se deben contener en un nodo de terminal. La disminución de este número aumenta el número potencial de nodos terminales finales.
- Uso sustituto: este grupo de opciones controla cómo se tratan los registros con datos que faltan en las variables predictoras en una división determinada. La primera opción es omitir (quitar) un registro con un valor que falta de la variable utilizada en la división. El segundo es utilizar splits "sustitutos", en los que la dirección que se enviará un registro se basa en divisiones alternativas en una o más variables con casi los mismos resultados. La tercera opción es enviar la observación en la dirección de la mayoría en la fractura.
- Omitir una observación cuando falte un valor para la regla de división primaria
- utiliza elementos suplentes para dividir los registros a los que les falte la variable candidata
- Si faltan todos los elementos subrogados, enviar la observación en la dirección mayoritaria
- La cantidad total de clasificaciones correctas correspondientes a una variable candidata potencial
- El porcentaje correcto calculado en relación a los valores no faltantes de una variable candidato
- El número de pliegues que se usarán en la validación cruzada para podar el árbol: cuando el árbol es podado mediante el uso de un parámetro de complejidad, la validación cruzada se utiliza para determinar cuántas divisiones, por tanto ramificaciones, se encuentran en el árbol. Esto se hace vía el uso de la validación cruzada por el que N-1 de los dobleces se utilice para crear un modelo, y el enésimo doblez se utiliza como muestra para determinar el número de ramas que mejor cabe el doblez retención para evitar el sobreajuste. Una cosa que puede ser alterada por el usuario es el número de grupos (N) en los que los datos deben ser divididos. El valor predeterminado es 10, pero otros valores comunes son 5 y 20.
- La profundidad máxima permitida de cualquier nodo en el árbol final: esta opción limita el tamaño total del árbol indicando cuántos niveles se permiten desde el nodo raíz al nodo más distante de la raíz.
- El número máximo de bins a utilizar para cada variable numérica: la función Revo Scaler (rxDTree) que implementa el árbol de decisión escalable maneja las variables numéricas a través de un proceso de igual intervalo binning para reducir la complejidad del cómputo. Las opciones para estos son "default", que utiliza una fórmula basada en el número mínimo de registros necesarios para permitir una división, pero puede ser configurado manualmente por el usuario. Esta opción sólo se aplica en los casos en que la entrada en la herramienta es una secuencia de metadatos XDF.
- Tramade árbol: este conjunto de opciones controla una serie de opciones asociadas con el trazado de un árbol de decisión.
- Resumende hojas: la primera opción bajo esta opción es la naturaleza del Resumen de hojas. Esta opción controla si las cuentas o proporciones se imprimen en los nodos de hoja finales de la parcela de árbol.
- Cuenta:
- Proporciones:
- Distancias de rama uniforme: la segunda opción es si se deben usar distancias uniformes de rama. Esta opción controla si la longitud de las ramas de los árboles dibujados refleja la importancia relativa de una división en la predicción del destino o es de longitud uniforme en la trama del árbol.
- Parcelade poda: esta opción le permite establecer el tamaño, la resolución y la fuente base de la parcela de poda de forma análoga a la parcela de árbol.
- Tamaño de la parcela: defina las dimensiones de la trama del árbol de salida.
- Pulgadas: establece el ancho y el alto de la trama.
- Centímetros: Fije el ancho y la altura de la trama.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
- Tamaño de fuente base (puntos): tamaño de fuente en puntos.
Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.
- O (Output): muestra el nombre del modelo y el tamaño del objeto en la ventana de resultados.
- R (informe): muestra un informe resumido del modelo que incluye un resumen y parcelas.
- I (interactivo): muestra un panel interactivo de visuals de soporte que le permite hacer zoom, suspender y hacer clic.
Comportamiento esperado: precisión de trazado
Cuando se utiliza la herramienta árbol de decisión para el procesamiento estándar, la salida interactiva muestra una mayor precisión con valores numéricos que la salida del informe.