Herramienta regresión de conteo

La herramienta regresión de conteo crea un modelo de regresión que relaciona un valor entero no negativo (0, 1, 2, 3, etc.) campo de interés (una variable de destino) a uno o más campos que se espera que influyan en la variable de destino, y a menudo se denominan predictor Variables. Ejemplos de casos de uso común son el número de visitas que los clientes hacen a un restaurante en particular en un mes determinado, o el número de números de teléfono asociados con una cuenta de teléfono móvil en particular. En estos casos de uso, el uso de un modelo lineal da como resultado Estimaciones sesgadas. Los dos modelos de regresión de conteo más conocidos son los modelos de Poisson * y binomial negativa * *. Dado un conjunto de variables predictoras, un modelo de regresión de datos de conteo permite a un usuario obtener estimaciones del número esperado de eventos (por ejemplo, visitas a tiendas) para una unidad de observación (por ejemplo, un cliente) dado un conjunto de campos predictores.

El modelo de regresión de Poisson hace una fuerte suposición acerca de la relación entre la media y la varianza del campo objetivo (específicamente que son iguales entre sí). Para explicar esto, se ha desarrollado el modelo cuasi-Poisson. El modelo cuasi-Poisson permite una varianza diferente de la media, pero a expensas de no tener medidas de criterios de información definidas (como AIC), por lo que un modelo cuasi-Poisson no puede ser utilizado como el inicio para la selección de variables escalonadas. El modelo de regresión binomial negativa tiene criterios de información bien definidos y permite una diferencia en la media y varianza para la distribución subyacente, por lo que típicamente se preferirá. Debe tenerse en cuenta que un modelo de regresión de Poisson estimó que el uso de datos donde la media y la varianza difieren entre sí proporciona estimaciones imparciales de la media y los coeficientes de modelo correspondientes, pero las pruebas de significancia estadística son sesgadas.

Con esta herramienta, si los datos de entrada proceden de una secuencia de datos Alteryx regular, la función GLM de código abierto se utiliza para la estimación del modelo. Si la entrada proviene ya sea de un  Herramienta Datos de entrada XDF o Herramienta Datos de salida XDF, entonces la función de rxGlm del escalador de Revo se utiliza para la estimación modelo. La ventaja de usar la función basada en Revo Scaler es que permite analizar los datasets mucho más grandes (fuera de la memoria), pero al costo de sobrecarga adicional para crear un archivo XDF, la incapacidad de crear parte del modelo de salida de diagnóstico que está disponible con el funciones de código abierto R, y sólo puede producir un modelo de regresión de Poisson.

Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.

Conectar una entrada

Un flujo de datos Alteryx o XDF de metadatos que incluye un campo de interés de destino junto con uno o varios campos predictores posibles.

Configurar la herramienta

  • Nombre del modelo: cada modelo debe recibir un nombre para poder identificarlo posteriormente. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
  • Seleccione la variablede destino: seleccione el campo de la secuencia de datos que desea predecir.
  • Seleccione las variables predictoras: elija los campos de la secuencia de datos que cree que "causan" cambios en el valor de la variable de destino.
  • Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • Tipo de modelo: seleccionar Poisson, cuasi-Poissono binomial negativa. Si se selecciona el binomio negativo, el usuario puede especificar el valor de Theta (que está estrechamente vinculado a la varianza del modelo). El mejor valor de Theta se puede estimar a partir de los datos si se utiliza la opción "auto" predeterminada.
  • ¿usar pesos de muestreo en estimación de modelos? oPcional : Haga clic en la casilla de verificación y, a continuación, seleccione un campo de peso de la secuencia de datos para estimar un modelo que utilice el peso de muestreo. Esta opción no está disponible si el tipo de modelo seleccionado es binomial negativa y el valor de Theta se determina usando la opción "auto", pero funcionará para un valor específico de Theta se proporciona (que se puede basar en una ejecución inicial del modelo que no hizo uso de samp pesos Ling.)

Opciones de gráficos

Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.

Ver la salida

  • O Anchor: consiste en una tabla del modelo serializado con su nombre de modelo.
  • R Anchor: consiste en los fragmentos de informe generados por la herramienta de regresión de conteo: un resumen estadístico, un análisis de desviación tipo II (ANOD) y diagramas de diagnóstico básicos. El análisis de tipo II de la tabla de desviación y las parcelas de diagnóstico básicas no se producen cuando la entrada del modelo proviene de una herramienta de entrada XDF OUTPUT o XDF.

*en.wikipedia.org/wiki/Poisson_regression **en.wikipedia.org/wiki/Negative_binomial_distribution