Herramienta modelo forestal
La herramienta modelo de bosque crea un modelo que construye un conjunto de modelos de árbol de decisión para predecir una variable de destino basada en una o más variables predictoras. Los diferentes modelos se construyen utilizando muestras aleatorias de los datos originales, un procedimiento conocido como bootstrapping. Además, sólo un número limitado de variables se considera en cada división de árbol, con el número determinado fijado automáticamente por R o fijado por el usuario. Ver bosque al azar.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.
Conecte un flujo de datos Alteryx o una secuencia de metadatos XDF que incluya un campo de interés de destino junto con uno o varios campos predictores posibles.
Si los datos de entrada proceden de una secuencia de datos Alteryx, la función de código abierto R randomForest (del paquete randomForest) se utiliza para la estimación del modelo.
Si los datos de entrada provienen ya sea de un Herramienta Datos de salida XDF o Herramienta Datos de entrada XDF, entonces la función RevoScaleR rxDForest se utiliza para la estimación del modelo. La ventaja de usar la función basada en RevoScaleR es que permite analizar los datasets mucho más grandes (fuera de la memoria), pero al costo de sobrecarga adicional para crear un archivo XDF, y utiliza un algoritmo que necesita hacer más pasadas sobre los datos para crear cada árbol en el conjunto (por lo tanto es mucho más lento) que la función de código abierto randomForest. Como resultado, se recomienda encarecidamente reducir el número de árboles del conjunto a partir de los 500 árboles predeterminados.
- Nombredel modelo: escriba un nombre para el modelo para identificar el modelo cuando se hace referencia en otras herramientas. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (.) y subrayado (_). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
- Seleccione la variablede destino: seleccione los datos que desea predecir. Una variable de destino también se conoce como una respuesta o variable dependiente.
- Seleccione las variables predictoras: seleccione los datos que se usarán para influir en el valor de la variable de destino. Una variable predictora también se conoce como una característica o una variable independiente. Se puede seleccionar cualquier número de variables predictoras, pero la variable de destino no debe ser también una variable predictora. Cada variable predictora categórica puede tener un máximo de 32 clases.
- Número de árboles que se usarán: seleccione el número de modelos de árbol que se incluirán en el bosque. El valor por defecto es 500 basado en el hallazgo de Breiman. Disminuya el valor con una secuencia de metadatos XDF si la longitud del tiempo de ejecución del modelo es preocupante.
- Seleccione un número específico de variables para seleccionar entre cada división: seleccione el número de variables que se deben considerar en cada división.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Haga clic en la personalización del modelo para modificar la configuración del modelo.
- Limitar directamente el tamaño total de cada árbol del modelo
- El total de nodos permitidos en un árbol: Seleccione para los modelos que utilizan el modelo de código abierto randomForest.
- La profundidad máxima de un árbol modelo: Seleccione para los modelos que utilizan la función RevoScaleR rxDForest se utiliza
- El número mínimo de registros permitidos en un nodo de árbol: Seleccione un valor para controlar el tamaño del nodo de terminal permitido más pequeño en cada árbol de conjunto. El aumento de este número reducirá el número total de nodos en cada árbol.
- Seleccione los registros para la creación de cada modelo con el reemplazo: Seleccione para controlar si las réplicas de bootstrap se extraen de la muestra de estimación completa con o sin reemplazo.
- Porcentaje de los registros de datos que se van a muestrear para crear cada árbol: Seleccione esta opción para controlar si se usará toda o parte de la muestra de estimación completa para formar cada repetición de bootstrap.
- Tamaño de la parcela: seleccione pulgadas o centímetros para el tamaño del gráfico.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
- Tamaño de fuente base (puntos): seleccione el tamaño de la fuente en el gráfico.
Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.
- O Anchor: muestra el nombre del modelo y el tamaño del objeto en la ventana de resultados.
- R Anchor: muestra un informe resumido del modelo que incluye un resumen y parcelas.
La herramienta modelo de bosque soporta el procesamiento en base de datos de Microsoft SQL Server 2016. Consulta Introducción a En base de datos. para obtener más información sobre las herramientas y el soporte en base de datos.
Cuando se coloca una herramienta de modelo forestal en el lienzo con otra herramienta in-dB, la herramienta cambia automáticamente a la versión in-dB. Para cambiar la versión de la herramienta, haga clic con el botón derecho en la herramienta, seleccione la versión de la herramienta y haga clic en una versión diferente de la herramienta. Consulta Analítica Predictiva para obtener más información sobre el soporte predictivo en base de datos.
Conecte una secuencia de datos que incluya un campo de interés de destino junto con uno o varios campos predictores posibles.
Si la entrada es de un flujo de datos de base de información de SQL Server o Teradata, entonces la función rxDForest del servidor de aprendizaje de máquina (del paquete RevoScaleR) se utiliza para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de base de datos, siempre y cuando tanto el equipo local como el servidor se hayan configurado con Microsoft machine learning Server y puedan resultar en una mejora significativa del rendimiento.
- Nombre del modelo: cada modelo debe recibir un nombre para poder identificarlo posteriormente. La opción es proporcionar un nombre o tener un nombre generado automáticamente. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
- Seleccione la variablede destino: seleccione el campo de la secuencia de datos que desea predecir.
- Seleccione las variables predictoras: elija los campos de la secuencia de datos que cree que "causan" cambios en el valor de la variable de destino.
- Número de árboles que se usarán: seleccione el número de modelos de árbol que se incluirán en el bosque. El valor por defecto es 500 basado en el hallazgo de Breiman. Disminuya el valor con una secuencia de metadatos XDF si la longitud del tiempo de ejecución del modelo es preocupante.
- Seleccione un número específico de variables para seleccionar entre cada división: seleccione el número de variables que se deben considerar en cada división.
- Utilice pesos de muestreo parala estimación del modelo: haga clic en la casilla de verificación y, a continuación, seleccione un campo de peso de la secuencia de datos para estimar un modelo que utilice el peso de muestreo. Un campo se utiliza como un predictor y la variable de peso, entonces la variable de peso aparecerá en la llamada de modelo en la salida con la cadena "Right_" antepone.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
- Limitar directamente el tamaño total de cada árbol del modelo
- Los nodos permitidos totales en un árbol: Seleccione para los modelos que utilizan el modelo de código abierto R randomForest.
- La profundidad máxima de un árbol modelo: Seleccione para los modelos que utilizan la función RevoScaleR rxDForest.
- El número mínimo de registros permitidos en un nodo de árbol: Seleccione un valor para controlar el tamaño del nodo de terminal permitido más pequeño en cada árbol de conjunto. El aumento de este número reducirá el número total de nodos en cada árbol.
- Seleccione los registros para la creación de cada modelo con el reemplazo: Seleccione para controlar si las réplicas de bootstrap se extraen de la muestra de estimación completa con o sin reemplazo.
- Porcentaje de los registros de datos que se van a muestrear para crear cada árbol: Seleccione esta opción para controlar si se usará toda o parte de la muestra de estimación completa para formar cada repetición de bootstrap.
- Tamaño de la parcela: seleccione pulgadas o centímetros para el tamaño del gráfico.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
- Tamaño de fuente base (puntos): seleccione el tamaño de la fuente en el gráfico.
Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.
- O Anchor: muestra el nombre del modelo y el tamaño del objeto en la ventana de resultados.
- R Anchor: muestra un informe resumido del modelo que incluye un resumen y parcelas.