Analítica Predictiva
Las herramientas cubren la exploración de datos, elementos especializados de preparación de datos para el análisis predictivo, modelado predictivo, herramientas para comparar y evaluar la eficacia de diferentes modelos, herramientas para agrupar registros y campos de formas sistemáticas, y herramientas para ayudar en implementación de soluciones de análisis predictivo.
Hay seis herramientas predictivas que tienen soporte de base de datos.
Cuando se coloca una herramienta predictiva con soporte en base de datos en el lienzo con otra herramienta in-dB, la herramienta predictiva cambia automáticamente a la versión in-dB. Para cambiar la versión de la herramienta, haga clic con el botón derecho en la herramienta, seleccione la versión de la herramienta y haga clic en una versión diferente de la herramienta. Consulta Introducción a En base de datos. para obtener más información sobre las herramientas y el soporte en base de datos.
Microsoft SQL Server 2016 | Oracle | Teradata | |
---|---|---|---|
Herramienta Modelo aumentado | Sí | ||
Herramienta árbol de decisión | Sí | ||
Herramienta modelo forestal | Sí | ||
Herramienta de regresión lineal | Sí | Sí | Sí |
Herramienta de regresión logística | Sí | Sí | Sí |
Herramienta Puntuación | Sí | Sí | Sí |
Herramientas de análisis predictivo
Esta categoría de herramienta contiene herramientas para comprender mejor los datos que se utilizarán en un proyecto de análisis predictivo y herramientas para realizar tareas de muestreo de datos especializados para el análisis predictivo. Las herramientas para comprender mejor los datos que se utilizan en un proyecto de análisis predictivo incluyen herramientas de visualización y herramientas que proporcionan tablas de estadísticas descriptivas.
Las herramientas que ayudan al usuario a comprender mejor los datos que se analizan mediante métodos visuales son:
- Resumen de campos
- Gráfico de Calor
- Histograma
- Gráfico de medias
- Diagrama de dispersión
- Gráfico de violín
Las herramientas que proporcionan estadísticas resumidas útiles para ayudar al usuario a comprender mejor los datos que se analizan son:
Esta categoría incluye herramientas para el modelado predictivo general para modelos de clasificación (campo de destino categórico) y regresión (campo de destino numérico), así como herramientas para la comparación de modelos y para pruebas de hipótesis que son relevantes para Modelado. El conjunto de herramientas para el modelado predictivo general se puede desglosar en modelos estadísticos tradicionales y métodos de aprendizaje estadístico más modernos. Una única herramienta de puntuación proporciona un mecanismo para obtener predicciones de modelos de ambos tipos de herramientas de modelado predictivo general.
Una importante distinción entre los modelos estadísticos tradicionales y los métodos de aprendizaje estadístico más modernos es el nivel de intervención directa del usuario en el proceso de modelado. Los modelos estadísticos tradicionales requieren un nivel mucho mayor de intervención y experiencia de los usuarios para desarrollar un modelo con un nivel adecuado de eficacia predictiva. Específicamente, el usuario debe seleccionar previamente los campos predictores importantes y, probablemente, tendrá que aplicar transformaciones apropiadas a los campos numéricos para capturar efectos no lineales entre el campo de destino y los predictores continuos. La selección de los predictores importantes (ignorar posibles problemas debidos a relaciones no lineales) puede ser asistida mediante el uso de regresión gradual para los modelos tradicionales. En contraste, los métodos modernos de aprendizaje estadístico hacen uso de algoritmos que abordan internamente tanto la selección predictora como las posibles relaciones no lineales entre el objetivo y los predictores numéricos.
Los modelos estáticos tradicionales difieren unos de otros basándose en la naturaleza del campo objetivo que se está pronosticando. Todos ellos se basan en la estimación de modelos lineales (generalizados). Si bien todos los algoritmos de aprendizaje estadístico tienen la misma propiedad de manejar internamente la selección de predictores y los efectos no lineales, se diferencian en sus enfoques. Como resultado, ningún método único supera a todos los demás a través del conjunto de problemas que un usuario podría encontrar.
Las herramientas de prueba AB ayudan al usuario a realizar pruebas a/B (también conocidas como pruebas y aprendizaje), tales como examinar el efecto de una nueva campaña de comunicaciones de Marketing sobre las ventas, o el efecto de cambiar los niveles de personal de la tienda. Las herramientas pueden ayudar a determinar las áreas de mercado para una prueba (usualmente para una que involucre publicidad en los medios masivos donde todos los que residen en esa área puedan ser potencialmente expuestos a la publicidad), emparejando una o más unidades de control a cada unidad de tratamiento, desarrollando las medidas de tendencia y de estacionalidad sobre las que se basa a menudo el emparejamiento de los controles a los tratamientos y el análisis real de los resultados experimentales. Las herramientas asociadas a esta subcategoría son:
Esta categoría contiene una serie de herramientas regulares (en términos de intervalo de tiempo de datos, como mensual), series de tiempos univariantes de trazado y previsión. Entre ellas se encuentran las herramientas para la creación de modelos ARIMA y de alisado exponencial extendido que se pueden utilizar para crear artículos como un modelo de pronóstico de ventas semanal. Ambos métodos desarrollan pronósticos basados en elementos sistemáticos relacionados con el tiempo en los valores de la variable de destino. En concreto, recogen elementos de tendencia (a largo plazo, movimiento ascendente o descendente bastante consistente en la variable objetivo) y estacionalidad (patrones cíclicos que se repiten con el tiempo).
Para proporcionar un ejemplo concreto de estos elementos, un modelo de series temporales de ventas de computadoras tablet probablemente revelaría una tendencia positiva en las ventas junto con un patrón estacional fuerte de ventas más altas cerca de la Navidad y antes del comienzo del año escolar. Si no hay tendencia o estacionalidad en la variable de destino, es probable que los valores de previsión de la variable de destino caigan en una línea recta basándose en el valor medio ponderado del destino para los valores más recientes del destino. Esto es probable que sea un hallazgo insatisfactorio para un usuario, pero indica que no hay una estructura real en los datos con respecto a sólo los elementos relacionados con el tiempo (tendencia y estacionalidad). En estos casos, los métodos de modelado predictivo más generales pueden ser más útiles en el desarrollo de pronósticos que en las herramientas de series temporales.
Además de las herramientas para la creación de pronósticos, existen herramientas para ayudar al usuario a comparar la eficacia relativa de los modelos de pronóstico de series de diferentes épocas. El sistema completo de las herramientas de la serie de tiempo incluye:
Esta categoría contiene herramientas para agrupar registros o campos en un número menor de grupos. Las aplicaciones comunes para agrupar registros juntos consisten en crear segmentos de clientes basados en patrones de compra o crear un conjunto de grupos de tiendas. El objetivo final de agrupar en estas dos áreas es crear un número menor de grupos que permitan la personalización de programas y actividades de una manera que sea factible desde una perspectiva empresarial.
Por ejemplo, un minorista que tiene 500 puntos de venta en su red probablemente le resultaría abrumador desarrollar un programa de merchandising y precios específico para cada uno de los 500 puntos de venta. Sin embargo, si las salidas se colocan en un conjunto más pequeño de grupos de tiendas (digamos 10) basándose en la similitud de los puntos de venta con respecto a sus patrones de ventas, la creación de 10 diferentes programas de merchandising y precios es algo que el minorista puede implementar con éxito. Del mismo modo, muchas organizaciones tienen tablas de base de datos que desean analizar que son muy amplias, con muchos de los campos altamente correlacionados entre sí. En estos casos, el tratamiento de un gran número de medidas altamente correlacionadas complica en gran medida cualquier análisis realizado con estos datos. Como resultado, puede tener sentido reducir el conjunto original de campos en un conjunto más pequeño de campos compuestos que se prestan más fácilmente al análisis. En ambos casos, es necesario reducir la dimensionalidad de los datos para hacerla procesable.
El método más común utilizado para agrupar registros es el análisis de clústeres. En realidad, existen muchos tipos diferentes de análisis de clústeres, pero, de lejos, los métodos de agrupamiento más comúnmente utilizados en aplicaciones empresariales se basan en algoritmos K-centroides. Alteryx proporciona herramientas para ayudar a determinar el número apropiado de clusters (grupos) que se deben formar, creando el conjunto final de clústeres, y anexar el clúster al que pertenece un registro determinado (independientemente de si el registro se usó para determinar el conjunto de clústeres) a los datos. Una herramienta relacionada (buscar vecinos más cercanos) permite que el usuario forme grupos ad hoc de un tamaño determinado en torno a uno o más registros específicos. Por ejemplo, las herramientas proporcionan al usuario la capacidad de encontrar a los cinco clientes más parecidos al cliente "X" basándose en el comportamiento de la compra pasada. El método disponible para agrupar campos es componentes principales.
Las herramientas de análisis de canastas de mercado ayudan a determinar qué elementos se combinan en los datos de puntos de venta, o la combinación de problemas tiende a coexistir en los sistemas de informes de defectos y de orden de trabajo. Las herramientas de la categoría determinan el conjunto de "reglas" de los datos (como el "defecto del producto a es más probable que esté presente cuando se observan también los defectos del producto B y C"), y proporcionan herramientas de filtrado para ayudar a reducir la lista de posibles reglas basadas en un conjunto de criterios que están asociadas con reglas que tienen más probabilidades de hacerlos prácticamente más importantes.
Las herramientas de esta categoría incluyen:
Esta categoría incluye herramientas que pueden ayudar a determinar el mejor curso de acción o resultado para una situación particular o conjunto de escenarios. Puede ayudar a aumentar la salida de modelos predictivos prescribiendo una acción óptima.