Ferramenta de regressão de gama

A ferramenta de regressão de gama relaciona uma gama distribuída, variável estritamente positiva de interesse (variável de destino) a uma ou mais variáveis (variáveis do preditor) que se espera que tenham influência na variável de destino.

Em um número de aplicações, os valores da variável de destino são sempre estritamente positivos (isto é, nunca são zero ou negativos), mas tendem a se aglomerar em direção ao intervalo mais baixo dos valores observados, mas em uma pequena minoria de casos assumir grandes valores. Variáveis-alvo dessa natureza representam um processo de geração de dados que não é consistente com as suposições de normalidade subjacentes ao modelo de regressão linear tradicional. No entanto, os valores são sempre positivos e nem sempre serão números inteiros, portanto não seguem uma distribuição de Poisson ou um processo baseado em distribuição binomial negativa. Eles são consistentes com um processo baseado em uma distribuição gama, e pode ser estimado usando métodos semelhantes a regressão linear, através da estrutura de modelo linear generalizada.

Com esta ferramenta, se os dados de entrada são de um fluxo de dados Alteryx regular, então a função Open Source R GLM é usada para a estimativa do modelo. Se a entrada vier de um Ferramenta Entrada XDF ou Ferramenta Saída XDF, em seguida, o Revo scaler rxGlm função é usada para a estimativa do modelo. A vantagem de usar a função baseada em scaler Revo é que ele permite que conjuntos de DataSets muito maiores (fora da memória) sejam analisados, mas ao custo de sobrecarga adicional para criar um arquivo Xdf do e com a incapacidade de criar alguns dos modelos de saída de diagnóstico que está disponível com as funções Open Source R.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Conecte uma entrada

Um fluxo de dados Alteryx ou Xdf do de metadados que inclui um campo de destino de interesse junto com um ou mais possíveis campos de previsão.

Configure a ferramenta

Use a guia configuração para definir os controles para sua regressão gama.

  • Nomedo modelo: cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
  • Selecione a variávelde destino: selecione o campo do fluxo de dados que deseja prever.
  • Selecione as variáveis do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.
  • As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Tipode modelo: uma caixa suspensa com as opções de log, inverso e identidade. Essa opção determina a função de vínculo a ser usada com a família Gamma para estimar o modelo linear generalizado.
  • Usar pesos de amostragem na estimativa do modelo? (opcional)... : Clique na caixa de seleção e selecione um campo de peso do fluxo de dados para estimar um modelo que usa peso de amostragem.

Use a guia opções de gráficos para definir os controles da saída gráfica.

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

Visualizar a saída

  • O Anchor: consiste em uma tabela do modelo serializado com seu nome de modelo.
  • R Anchor: consiste nos trechos de relatório gerados pela ferramenta de regressão de gama: um resumo estatístico, uma análise de tipo II de desvio (ANOD) e parcelas diagnósticas básicas. A análise do tipo II da tabela de desvio e as parcelas diagnósticas básicas não são produzidas quando a entrada do modelo provém de uma ferramenta de entrada de saída Xdf do ou Xdf do.