Stepwise Tool Icon

Ferramenta Gradual

Versão:
2022.3
Last modified: September 25, 2020

A ferramenta gradual determina as melhores variáveis do preditor para incluir em um modelo de um conjunto maior de variáveis de preditores potenciais para modelos de regressão linear, logístico e outros tradicionais.

Há duas abordagens básicas usadas na implementação de regressão gradual. A primeira (conhecida como seleção inversa) envolve o uso de um modelo que inclui todas as variáveis que são pensadas para influenciar potencialmente a variável de destino e, em seguida, remove seqüencialmente a variável menos importante do modelo original com base em uma bondade de ajuste a medida que ajusta para o número de variáveis incluídas no modelo. Esse processo continua, com outras variáveis sendo removidas em etapas anteriores posteriores, até que não haja mais melhorias na medida ajustada. A segunda abordagem básica (conhecida como seleção de variáveis diretas) começa com um modelo que inclui apenas uma constante e, em seguida, adiciona a esse modelo uma variável fora do conjunto de variáveis potenciais que fornece a maior melhoria na medida de ajuste ajustada. Esse processo é repetido para adicionar variáveis adicionais usando um conjunto de etapas adicionais para a frente, que termina quando não há nenhuma melhoria na medida de ajuste ajustada. Na base de seleção de variáveis atrasadas, uma variável que é removida nunca re-insere em etapas subseqüentes, enquanto na seleção ENC uma variável nunca é removida em etapas posteriores, uma vez que ele foi adicionado. Uma abordagem híbrida pode ser usada que começa com um grande modelo inicial ("maximal") e um primeiro passo para trás, mas, em seguida, ambos os movimentos para frente e para trás são avaliados em cada etapa subseqüente.

A ferramenta de regressão passo a passo do Alteryx baseada no R seleciona variáveis usando tanto a seleção backward quanto uma combinação entre as seleções backward e forward. Para usar a ferramenta, primeiro crie um modelo de regressão "maximal" que inclua todas as variáveis que você acredita que possam importar e, em seguida, use a ferramenta de regressão gradual para determinar qual dessas variáveis deve ser removida com base em uma medida de ajuste ajustada. A escolha de duas diferentes medidas de ajuste ajustados são fornecidas ao usuário, o critério de informação Akaike * * (ou AIC) e o critério de informação Bayesiana * * * (ou BIC). Essas duas medidas são semelhantes umas às outras, mas a BIC coloca uma penalidade maior no número de variáveis incluídas no modelo, normalmente resultando em um modelo final com menos variáveis do que o caso quando o AIC é usado.

Com esta ferramenta, se os dados de entrada são de um fluxo de dados Alteryx regular, então a função Open Source aplicável R é usada para a estimativa do modelo. Se a entrada vier de uma ferramenta de saída XDF ou da ferramenta de entrada XDF, a função Revo ScaleR apropriada será usada para a estimativa do modelo. A vantagem de usar a função baseada em scaler Revo é que ele permite que conjuntos de DataSets muito maiores (fora da memória) sejam analisados, mas com a incapacidade de criar alguns dos modelos de saída de diagnóstico que estão disponíveis com as funções Open Source R.

Esta ferramenta utiliza a ferramenta R. Vá para Opções > Baixe ferramentas preditivas e faça login no portal Alteryx Downloads and Licenses para instalar R e os pacotes utilizados pela Ferramenta R. Consulte Baixar e Usar Ferramentas Preditivas.

Conectar entradas

  • O fluxo de saída de uma regressão de contagem, regressão linear ou ferramenta de regressão logística usada para criar o modelo "maximal". O fluxo pode ser inserido em ambos os lados da ferramenta.
  • O mesmo fluxo de dados Alteryx ou Xdf do metadados Streamque foi usado para criar o modelo "maximal". O fluxo pode ser inserido em ambos os lados da ferramenta.

Configuração da ferramenta

Use a guia Configuração para definir os controles para o modelo stepwise.

  • O nome do novo modelo: Este é o melhor modelo encontrado usando a seleção de variável stepwise com base na direção de pesquisa e critérios de seleção Escolhido. Os nomes dos modelos devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhar ("_"). Não há outros caracteres especiais (como espaços) são permitidos, e R é diferencia maiúsculas de minúsculas.
  • Direção de pesquisa: Se a direção da busca envolve passos para trás e para frente (o método começa com um passo para trás) ou apenas passos para trás são usados.
  • Medida de ajuste ajustada: Os critérios utilizados para comparar diferentes modelos e Seleção o melhor modelo. As opções fornecidas são o critério de informação Akaike (AIC) ou os critérios de informação Bayesiana (BIC).

Use a guia Opções gráficas para definir os controles para a saída gráfica.

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada — 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O âncora: Consiste em uma tabela do modelo serializado com nome do modelo e o tamanho do objeto.
  • R âncora: Consiste nos trechos do relatório gerados pela ferramenta Stepwise: um resumo estatístico, Análise tipo II de Testes de Desvio ou ANOVA e parcelas de diagnóstico básico. A análise tipo II de desvio ou de tabela ANOVA e as parcelas de diagnóstico básica não são produzidas quando a entrada de dados vem de uma saída Xdf do ou ferramenta de entrada Xdf do.

https://en.wikipedia.org/wiki/Stepwise_regression
https://en.wikipedia.org/wiki/Akaike_information_criterion
https://en.wikipedia.org/wiki/Bayesian_information_criterion

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.