Skip to main content

Glosario de Aprendizaje automático

Real

Los valores reales son valores en tu conjunto de datos que indican a qué categoría pertenece una fila. Por ejemplo, si tienes un conjunto de datos relacionado con la tasa de cancelación de clientes, este puede contener una columna de variables Sí y No que indican si un cliente cancelo o no. Estos son los valores reales observados que ayudan a entrenar tu modelo de aprendizaje automático.

Real vs. Predicho

El gráfico traza valores comparativos reales de tus datos de entrenamiento en relación con los valores predichos que el modelo genera para tu objetivo. Los modelos con puntajes de error más bajas contienen puntos de datos en los que los valores reales están más cerca a los valores predichos.

R² ajustado

R² ajustado es una medida de ajuste normalizada que indica cuánto tus características explican la variación en tu objetivo. Usa esta medida para comparar qué tan bien los diferentes algoritmos de regresión modelan datos similares. Los puntajes varían entre 0 y 1, donde 1 indica un ajuste perfecto.

Algoritmo

Un algoritmo es un procedimiento que usa una computadora para solucionar un problema. Siguiendo un conjunto de reglas, un algoritmo crea un modelo usando datos de entrenamiento que contienen un conjunto de características. Cuando el modelo ve datos nuevos es capaz de predecir un resultado tomando como base el entrenamiento inicial. Algunos ejemplos de algoritmos son el bosque aleatorio, el árbol de decisión y la regresión logística.

Bool

Los datos booleanos representan valores que solo pueden ser uno de dos, como verdadero o falso.

Categórico

Las características categóricas contienen una cantidad limitada de valores que representan diferentes categorías, como el estado de un préstamo con los valores aprobado, rechazado y ninguno.

Colinealidad

La colinealidad ocurre cuando dos o más características miden lo mismo. En estos casos, puede que tengas múltiples características a las que tu modelo le asigna demasiada ponderación. La colinealidad puede sesgar la medida de la Importancia de permutación.

Consideraciones para la importancia de permutación

La importancia de permutación es una forma efectiva de medir qué tan importante es cada característica para tu modelo. Sin embargo, tiene limitaciones. Es susceptible a problemas de colinealidad, efectos de interacción y valores imposibles. Revisa tus datos atentamente para asegurarte de que ninguno de esos problemas afecte a tu modelo.

Constante

Si seleccionas esta opción, el Modelado asistido lee los campos vacíos como valores ausentes. Selecciona esta opción si crees que el algoritmo de modelado puede encontrar significado en los valores ausentes, porque a veces puede encontrar patrones en la ausencia de datos. También puedes seleccionar esta opción si crees que otros métodos de manejo de datos ausentes podrían sesgar tu modelo.

Descartar característica

Si seleccionas esta opción, el Modelado asistido no usará esta característica como parte del modelo. Selecciona esta opción cuando tu conjunto de datos contenga muchos valores ausentes.

Característica

Las características son conjuntos de valores mensurables que puedes utilizar para predecir el objetivo. Un modelo generalmente tiene varias características de distinta importancia. Para un problema de regresión, como tratar de predecir el precio de una acción, el conjunto de características puede ser el precio inicial diario, el precio final y el número de transacciones. Para un problema de clasificación, como tratar de predecir a qué especie de flor pertenece un iris, las características pueden ser la longitud y el ancho de los sépalos y pétalos.

Importancia de las características

El Modelado asistido utiliza el método de importancia de permutación para medir la importancia de cada característica de tu modelo al evaluar las características en relación con el conjunto de datos de prueba. Utiliza esta medida para determinar qué características son más importantes para tu modelo. También puedes utilizar esta medida para identificar las características que podrían introducir errores de generalización en el modelo asociándolo de manera muy débil o muy fuerte con el objetivo.

Gini

La impureza de Gini (Gini) es una medida de la contribución de la característica, donde a cada característica se le asigna un porcentaje de cuánto contribuye a todo el modelo predictivo. El Modelado asistido utiliza esta medida como parte de un árbol de decisión para seleccionar características que son buenos predictores según sus contribuciones. Utiliza Gini para identificar las características que podrían introducir errores de generalización en el modelo al contribuir demasiado o muy poco.

Id.

El Modelado asistido descarta las columnas con datos de identificación al definir los tipos de datos porque no se pueden utilizar para predecir un objetivo. Los datos de identificación tienen una distribución uniforme, representan valores que no tienen gran variabilidad y no aportan información Ejemplos de estas pueden ser los identificadores de clientes o números de transacción.

Valor imposible

Se puede crear un valor imposible cuando usas un método, como la importancia de permutación, que mezcla los valores de tu conjunto de datos. En estos casos, podrías tener filas de datos que no tienen sentido, como un ejemplo de una casa con menos puertas que habitaciones. Los valores imposibles pueden sesgar la medida de la Importancia de permutación.

Efecto de la interacción

Un efecto de la interacción se produce cuando dos o más características afectan a un objetivo mucho más (o mucho menos) de lo que lo afectarían independientemente. En estos casos, podrías tener características con efectos sobrestimados o subestimados en el objetivo. Los efectos de la interacción pueden sesgar la medida de la importancia de permutación.

MAE

El error absoluto medio (MAE) es una medida de qué tan bien tu modelo de regresión se ajusta a tus datos. MAE es similar a la raíz del error cuadrático medio, pero suele estar menos afectado por los puntos marginales. Los puntajes más altos indican más error y peor ajuste; mientras que los puntajes de 0 indican que no hay error y que el ajuste es perfecto.

Error máximo

El error máximo es la medida de la mayor diferencia entre los valores predichos y los valores reales. Usa esta medida para inferir el peor de los caso para tu modelo de regresión. Los puntajes más altos indican más error, mientras que los puntajes de 0 indican que no hay error y que el ajuste es perfecto.

Media

Si seleccionas esta opción, el Modelado asistido reemplaza los valores ausentes con la suma de todas las filas de una característica dividida por el número total de filas. Solo utiliza este método para datos numéricos. Recomendamos esta opción si tus datos tienen una distribución normal y no hay valores atípicos.

Mediana

Si seleccionas esta opción, el Modelado asistido reemplaza los valores ausentes con el número que representa el punto medio en la distribución de tu característica. Recomendamos esta opción si tus datos están sesgados o contienen valores atípicos.

Modo

Si seleccionas esta opción, el Modelado asistido reemplaza los valores ausentes con el número que aparece con más frecuencia. Recomendamos esta opción si una característica contiene valores categóricos y no quieres descartarla. También puedes usar el modo para completar los valores numéricos ausentes.

Característica insignificante

Esta es una característica que tu modelo no utiliza cuando predice tu objetivo. Considera descartar esta característica para reducir la complejidad de tu modelo.

Numérico

Las características numéricas contienen números reales como 1; 3,14 y 100.

OLS

El método de mínimos cuadrados ordinarios (OLS) es una medida de ajuste, útil para determinar la varianza de una característica. El Modelado asistido utiliza esta medida para evaluar que tan bien se asocia una característica con el objetivo. Utiliza OLS para identificar las características que podrían introducir errores de generalización en el modelo asociándolo de manera muy débil o muy fuerte con el objetivo.

Predicho

Los valores predichos son valores que un algoritmo asigna a las filas basados en las tendencias que encuentra en las características que proporcionas. Por ejemplo, si tienes un conjunto de datos relacionado con la tasa de cancelación de clientes, el algoritmo puede predecir Sí (un cliente cancelará) o No (un cliente no cancelará).

Residuo

Un residuo es la diferencia entre un valor observado y un valor predicho para tu objetivo. Los residuos pueden ser positivos o negativos. Usa los residuos para evaluar qué tan bien un modelo se ajusta a tus datos de entrenamiento y de qué manera difiere.

Comparación de residuos

Este gráfico compara los residuos que producen los algoritmos de regresión. En él, los residuos son absolutos, experimentan transformación logarítmica y se ordenan, de modo que 0 indica que no hay error y los valores más altos indican un error mayor. Usa el gráfico de comparación de residuos para evaluar qué tan bien los diferentes modelos se ajustan a tus datos de entrenamiento.

RMSE

La raíz del error cuadrático medio (RMSE) es una medida de qué tan bien tu modelo de regresión se ajusta a tus datos. Usa la RMSE para comparar qué tan bien los diferentes algoritmos de regresión modelan datos similares. Los puntajes más altos indican más error y peor ajuste; mientras que los puntajes de 0 indican que no hay error y que el ajuste es perfecto.