Ferramenta contar regressão

A ferramenta contar regressão cria um modelo de regressão que relaciona um valor inteiro não negativo (0, 1, 2, 3, etc) campo de interesse (uma variável-alvo) para um ou mais campos que são esperados para ter uma influência sobre a variável de destino, e são muitas vezes chamado de preditor Variáveis. Exemplos de casos de uso comum são o número de visitas que os clientes fazem a um determinado restaurante em um determinado mês, ou o número de números de telefone associados a uma determinada conta de telefone móvel. Nestes casos de uso, o uso de um modelo linear resulta em estimativas tendenciosas. Os dois modelos de regressão de contagem mais conhecidos são Poisson * e modelos binomials negativos * *. Dado um conjunto de variáveis do preditor, um modelo de regressão de dados de contagem permite que um usuário obtenha estimativas do número esperado de eventos (por exemplo, visitas de loja) para uma unidade de observação (por exemplo, um cliente), dado um conjunto de campos de previsão.

O modelo de regressão de Poisson faz uma forte suposição sobre a relação entre a média e a variância do campo de destino (especificamente que eles se igualam um ao outro). Para explicar isso, o modelo quasi-Poisson foi desenvolvido. O modelo quasi-Poisson permite uma variação diferente da média, mas à custa de não ter definido medidas de critérios de informação (como a AIC), portanto, um modelo quase-Poisson não pode ser usado como o início para a seleção de variáveis gradual. O modelo de regressão binomial negativa tem critérios de informação bem definidos e permite uma diferença na média e variância para a distribuição subjacente, portanto, normalmente será preferencial. Note-se que um modelo de regressão de Poisson estimado usando dados em que a média e variância diferem um do outro fornece estimativas imparciais da média e dos coeficientes de modelo correspondentes, mas os testes de significância estatística são tendenciosos.

Com esta ferramenta, se os dados de entrada são de um fluxo de dados Alteryx regular, então a função Open Source R GLM é usada para a estimativa do modelo. Se a entrada vier de um  Ferramenta Entrada XDF ou Ferramenta Saída XDF, em seguida, o Revo scaler rxGlm função é usada para a estimativa do modelo. A vantagem de usar a função baseada em scaler Revo é que ele permite que conjuntos de DataSets muito maiores (fora da memória) sejam analisados, mas ao custo de sobrecarga adicional para criar um arquivo Xdf do, a incapacidade de criar alguns dos modelos de saída de diagnóstico que está disponível com o funções Open Source R e só pode produzir um modelo de regressão de Poisson.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Conecte uma entrada

Um fluxo de dados Alteryx ou Xdf do de metadados que inclui um campo de destino de interesse junto com um ou mais possíveis campos de previsão.

Configure a ferramenta

  • Nomedo modelo: cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
  • Selecione a variávelde destino: selecione o campo do fluxo de dados que deseja prever.
  • Selecione as variáveis do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.
  • As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Tipo de modelo: selecione Poisson, quasi-Poisson ou binomial negativo. Se o binomial negativo for selecionado, o usuário poderá especificar o valor de Theta (que está intimamente vinculado à variação do modelo). O melhor valor de Theta pode ser estimado a partir dos dados se a opção "auto" padrão for usada.
  • Usar pesos de amostragem na estimativa do modelo? oPcional : Clique na caixa de seleção e selecione um campo de peso do fluxo de dados para estimar um modelo que usa peso de amostragem. Esta opção não está disponível se o tipo de modelo selecionado é binomial negativo eo valor de Theta é determinado usando a opção "auto", mas vai trabalhar para um valor específico de Theta é fornecido (que pode ser baseado em uma execução inicial do modelo que não fazer uso de SAMP pesos Ling.)

Opções de gráficos

Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

Visualizar a saída

  • O Anchor: consiste em uma tabela do modelo serializado com seu nome de modelo.
  • R Anchor: consiste nos trechos de relatório gerados pela ferramenta de regressão de contagem: um resumo estatístico, uma análise de tipo II de desvio (ANOD) e parcelas diagnósticas básicas. A análise do tipo II da tabela de desvio e as parcelas diagnósticas básicas não são produzidas quando a entrada do modelo provém de uma ferramenta de entrada de saída Xdf do ou Xdf do.

*en.wikipedia.org/wiki/Poisson_regression **en.wikipedia.org/wiki/Negative_binomial_distribution