Ferramenta gradual

A ferramenta gradual determina as melhores variáveis do preditor para incluir em um modelo de um conjunto maior de variáveis de preditores potenciais para modelos de regressão linear, logístico e outros tradicionais.

Há duas abordagens básicas usadas na implementação de regressão gradual. A primeira (conhecida como seleção inversa) envolve o uso de um modelo que inclui todas as variáveis que são pensadas para influenciar potencialmente a variável de destino e, em seguida, remove seqüencialmente a variável menos importante do modelo original com base em uma bondade de ajuste a medida que ajusta para o número de variáveis incluídas no modelo. Esse processo continua, com outras variáveis sendo removidas em etapas anteriores posteriores, até que não haja mais melhorias na medida ajustada. A segunda abordagem básica (conhecida como seleção de variáveis diretas) começa com um modelo que inclui apenas uma constante e, em seguida, adiciona a esse modelo uma variável fora do conjunto de variáveis potenciais que fornece a maior melhoria na medida de ajuste ajustada. Esse processo é repetido para adicionar variáveis adicionais usando um conjunto de etapas adicionais para a frente, que termina quando não há nenhuma melhoria na medida de ajuste ajustada. Na base de seleção de variáveis atrasadas, uma variável que é removida nunca re-insere em etapas subseqüentes, enquanto na seleção ENC uma variável nunca é removida em etapas posteriores, uma vez que ele foi adicionado. Uma abordagem híbrida pode ser usada que começa com um grande modelo inicial ("maximal") e um primeiro passo para trás, mas, em seguida, ambos os movimentos para frente e para trás são avaliados em cada etapa subseqüente.

A ferramenta de regressão passo a passo do Alteryx baseada no R seleciona variáveis usando tanto a seleção backward quanto uma combinação entre as seleções backward e forward. Para usar a ferramenta, primeiro crie um modelo de regressão "maximal" que inclua todas as variáveis que você acredita que possam importar e, em seguida, use a ferramenta de regressão gradual para determinar qual dessas variáveis deve ser removida com base em uma medida de ajuste ajustada. A escolha de duas diferentes medidas de ajuste ajustados são fornecidas ao usuário, o critério de informação Akaike * * (ou AIC) e o critério de informação Bayesiana * * * (ou BIC). Essas duas medidas são semelhantes umas às outras, mas a BIC coloca uma penalidade maior no número de variáveis incluídas no modelo, normalmente resultando em um modelo final com menos variáveis do que o caso quando o AIC é usado.

Com esta ferramenta, se os dados de entrada são de um fluxo de dados Alteryx regular, então a função Open Source aplicável R é usada para a estimativa do modelo. Se a entrada vier de um  Ferramenta Saída XDF ou Ferramenta Entrada XDF ferramenta, em seguida, a função de escalador Revo apropriado é usado para a estimativa do modelo. A vantagem de usar a função baseada em scaler Revo é que ele permite que conjuntos de DataSets muito maiores (fora da memória) sejam analisados, mas com a incapacidade de criar alguns dos modelos de saída de diagnóstico que estão disponíveis com as funções Open Source R.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Conecte entradas

  • O fluxo de saída de uma regressão de contagem, regressão linear ou ferramenta de regressão logística usada para criar o modelo "maximal". O fluxo pode ser inserido em ambos os lados da ferramenta.
  • O mesmo fluxo de dados Alteryx ou Xdf do metadados Streamque foi usado para criar o modelo "maximal". O fluxo pode ser inserido em ambos os lados da ferramenta.

Configure a ferramenta

Use a guia configuração para definir os controles para o modelo gradual.

  • O nome do novo modelo: este é o melhor modelo encontrado usando a seleção de variável gradual com base na direção de pesquisa e critérios de seleção escolhidos. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Não há outros caracteres especiais (como espaços) são permitidos, e R é diferencia maiúsculas de minúsculas.
  • Direção de pesquisa: se a direção da pesquisa envolve as etapas para trás e para frente (o método começa com uma etapa recuar), ou apenas as etapas para trás são usadas.
  • Medida ajustada do ajuste: os critérios usados para comparar modelos diferentes e seleção o melhor modelo. As opções fornecidas são o critério de informação Akaike (AIC) ou os critérios de informação Bayesiana (BIC).

Use a guia opções de gráficos para definir os controles da saída gráfica.

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O Anchor: consiste em uma tabela do modelo serializado com o nome do modelo e o tamanho do objeto.
  • R Anchor: consiste nos trechos de relatório gerados pela ferramenta gradual: um resumo estatístico, análise de tipo II de desvios ou testes ANOVA, e parcelas diagnósticas básicas. A análise tipo II de desvio ou de tabela ANOVA e as parcelas de diagnóstico básica não são produzidas quando a entrada de dados vem de uma saída Xdf do ou ferramenta de entrada Xdf do.

*https://en.wikipedia.org/wiki/Stepwise_regression * *https://en.wikipedia.org/wiki/Akaike_information_criterion* * *https://en.wikipedia.org/wiki/Bayesian_information_criterion