Herramienta de análisis de distribución
La herramienta de análisis de distribución le permite ajustar una o más distribuciones a los datos de entrada y compararlas basándose en una serie de estadísticas de bondad de ajuste *. El usuario puede determinar qué distribución representa mejor los datos usando la importancia estadística (valor p) de los resultados de estas pruebas.
La herramienta de análisis de distribución puede ser útil al tratar de entender la naturaleza general de sus datos, así como tomar decisiones sobre cómo analizarla. Por ejemplo, es probable que los datos que se ajusten a una distribución normal estén bien adaptados a una regresión lineal, mientras que los datos que se distribuyen en gamma pueden ser mejor adaptados al análisis mediante la herramienta de regresión gamma.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.
Configurar la herramienta
Utilice la ficha Configuración para establecer los controles obligatorios para un análisis de distribución.
- Seleccione un campo para análisis: Seleccione un campo de los datos entrantes para su análisis.
- Seleccione distribuciones para la comparación: Seleccione una o más distribuciones para comparar. Las opciones de distribución son las siguientes:
- Normal: una distribución de probabilidad continua que se suele utilizar en las ciencias naturales y sociales para representar variables aleatorias de valor real (es decir, variables aleatorias continuas que pueden tomar valores positivos y negativos).
- Lognormal: una distribución de probabilidad continua de una variable aleatoria cuyo logaritmo se distribuye normalmente. Esta distribución es bien adaptada a la descripción de fenómenos naturales como la tasa de crecimiento y las distribuciones de tamaño. Además, se utiliza a menudo para describir la distribución de la renta en una población suficientemente grande.
- Weibull: una distribución relativamente flexible que está estrechamente relacionada con la distribución exponencial. Se encuentra con frecuencia en datos que describen tasas de "fracaso" de algún tipo, por ejemplo, fallas mecánicas aleatorias, mortalidad, churn, tasas de desgaste mecánico, etc.
- Gamma: una distribución de probabilidad continua caracterizada por una concentración significativa de casos en valores inferiores no enteros, no negativos, mientras que también permite la posibilidad razonable de valores mucho más altos. La distribución de gamma tiene una amplia gama de usos, y se encuentra comúnmente en los datos que describen cantidades agregadas (o medias) por caso, e.g. el tamaño medio de una demanda del seguro, medida por individuo.
Las distribuciones lognormal, Weibull y gamma sólo funcionan para datos no negativos.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Utilice la ficha opciones gráficas para definir los controles de la salida gráfica.
- Tamaño de la parcela: seleccione pulgadas o centímetros para el tamaño del gráfico.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
Ver la salida
Conjunto de fragmentos de informe que incluye un histograma, estadísticas resumidas básicas de los resultados de la prueba, bondad de las estadísticas de ajuste, cuantiles de datos por distribución y los parámetros de distribución.
* D'Agostino, R., Stephens, M.A. (1986) bondad de las técnicas de ajuste.