Herramienta Regresión
Utiliza la herramienta Regresión como parte de un pipeline de aprendizaje automático para identificar una tendencia. La herramienta proporciona varios algoritmos que puedes utilizar para entrenar un modelo. La herramienta también te permite ajustar un modelo utilizando varios parámetros.
Se requiere Alteryx Intelligence Suite
Esta herramienta forma parte de Alteryx Intelligence Suite . Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita .
Configurar la herramienta
Esta sección contiene información sobre cómo configurar la herramienta Regresión.
Seleccionar un algoritmo
Selecciona el algoritmo que quieres utilizar. Puedes elegir Regresión lineal , Árbol de decisión o Bosque aleatorio .
Configurar los parámetros
Configura los parámetros. Cada algoritmo tiene parámetros específicos. Cada algoritmo también tiene parámetros generales y avanzados. Los parámetros generales son fundamentales para crear un modelo preciso. Los parámetros avanzados pueden mejorar la precisión, pero requieren una comprensión profunda de sus funciones.
Consulta a la tabla para cada algoritmo para ver qué hacen los parámetros:
Nombre | Descripción | Opciones | Predeterminado |
fit_intercept | Decide si quieres que el algoritmo calcule el intercepto para tu modelo de regresión lineal. También conocido como la "constante", el intercepto es el valor medio esperado de y donde x es igual a 0. |
| Activado |
normalize | Decide si quieres que el algoritmo normalice tus objetivos. La normalización ajusta los objetivos de forma que pueda compararlos en una escala común con otros datos, ayudándote a identificar asociaciones en los datos. |
| Activado |
Nombre | Descripción | Opciones | Predeterminado |
criterion | Utiliza el parámetro criterion para seleccionar un método para medir qué tan bien divide el algoritmo de árbol de decisiones los datos en nodos diferentes. |
| mse |
max_depth | max_depth es el camino más largo desde una raíz hasta una hoja de un árbol. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos. |
| Sin límite |
max_features | max_features establece el número máximo de características que el árbol de decisión tiene en cuenta al buscar una mejor primera división. |
| Automático |
max_leaf_nodes | max_leaf_nodes es el límite ascendente en el número total de nodos de hoja que el algoritmo puede generar. Crece nodos hasta la cantidad máxima de manera mejor primero. El algoritmo determina qué nodos son los mejores según sus capacidades de reducción de impurezas. Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas. | Cualquier número entero o none . | Ninguno |
min_impurity_decrease | min_impurity_decrease establece el umbral mínimo de reducción de impureza necesario para que el árbol de decisión se divida en un nuevo nodo. Por lo tanto, se produce una división en la que disminuiría la impureza en una cantidad igual o mayor que min_impurity_decrease . Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas. | Cualquier float. | 0.0 |
min_samples_split | min_samples_split establece el umbral mínimo de muestras necesario para que el árbol de decisión se divida en un nuevo nodo. El algoritmo puede considerar solo una muestra o todas las muestras. | Cualquier número entero o fracción. | int : 2 |
min_weight_fraction_leaf | min_weight_fraction_leaf es el umbral mínimo de ponderación necesario para que el árbol de decisión se divida en un nuevo nodo. Ese umbral es igual a la fracción mínima de los pesos totales de todas las muestras. El algoritmo del árbol de decisión asume ponderaciones iguales de manera predeterminada. | Cualquier float. | 0.0 |
presort | Utiliza este parámetro para preordenar los datos, lo que podría ayudar al algoritmo a encontrar las mejores divisiones más rápido. |
| Desactivado |
Semilla aleatoria | random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial. |
| int : 10 |
splitter | splitter es la estrategia utilizada para dividir en un nodo. Incluye opciones para la división mejor primero y para la mejor división aleatoria. El algoritmo determina qué nodos son los mejores según sus capacidades de reducción de impurezas. |
| best |
Nombre | Descripción | Opciones | Predeterminado |
bootstrap | Bootstrapping, la base de bagging, es un método utilizado para muestrear el conjunto de datos para el entrenamiento. Este método involucra crear submuestras de tu conjunto de datos de manera iterativa para simular datos nuevos, no vistos, que puedes usar para mejorar la generalizabilidad de tu modelo. |
| Activado |
criterion | Utiliza el parámetro criterion para seleccionar un método para medir qué tan bien divide el algoritmo de bosque aleatorio los datos en nodos diferentes, que constan de los muchos árboles diferentes del bosque aleatorio. |
| mse |
max_depth | max_depth es el camino más largo de una raíz a una hoja para cada árbol en el bosque. Los árboles más profundos tienen más divisiones y capturan más información sobre los datos. |
| Sin límite |
max_features | max_features establece el número máximo de características que cada árbol de decisión del bosque tiene en cuenta al buscar una mejor primera división. |
| Automático |
min_impurity_decrease | min_impurity_decrease establece el umbral mínimo de reducción de impureza necesario para que el árbol de decisión se divida en un nuevo nodo. Por lo tanto, se produce una división en la que disminuiría la impureza en una cantidad igual o mayor que min_impurity_decrease . Utiliza el parámetro criterion para especificar cómo quieres medir la reducción de impurezas. | Cualquier float. | 0.0 |
min_samples_split | min_samples_split establece el umbral mínimo de muestras necesarias para que el árbol de decisión (en un bosque aleatorio) se divida en un nuevo nodo. El algoritmo puede considerar solo una muestra o todas las muestras. | Cualquier número entero o fracción. | int : 2 |
min_weight_fraction_leaf | min_weight_fraction_leaf es el umbral mínimo de peso necesario para que el árbol de decisión se divida en un nuevo nodo. Ese umbral es igual a la fracción mínima de los pesos totales de todas las muestras. El algoritmo de árbol aleatorio asume ponderaciones iguales de manera predeterminada. | Cualquier float. | 0.0 |
n_estimators | n_estimators es el número de árboles que quieres crear como parte del bosque. | Cualquier número entero. | 100 |
Semilla aleatoria | random_state especifica el número inicial para generar una secuencia pseudoaleatoria. Si seleccionas none , un generador de números aleatorios elige un número inicial. |
| int : 10 |