Skip to main content

Stepwise Tool Icon Ferramenta Passo a Passo

Fluxo de trabalho de exemplo

A ferramenta Passo a Passo tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.

A ferramenta Passo a Passo determina as melhores variáveis preditoras para incluir em um modelo entre um conjunto maior de variáveis preditoras potenciais para modelos de regressão linear, logística e outros modelos tradicionais.

Existem duas abordagens básicas para implementar a regressão stepwise (passo a passo).

A primeira, conhecida como seleção regressiva, envolve o uso de um modelo que inclui todas as variáveis que potencialmente influenciam a variável-alvo e, em seguida, remove sequencialmente a variável menos importante do modelo original com base em uma medida de adequação de ajuste para o número de variáveis incluídas no modelo. Esse processo continua, com outras variáveis sendo removidas em etapas regressivas subsequentes, até que não haja mais melhorias na medida de ajuste adaptada.

A segunda abordagem básica, conhecida como seleção progressiva de variáveis, começa com um modelo que inclui apenas uma constante e, em seguida, adiciona ao modelo uma variável do conjunto de variáveis potenciais que proporciona a maior melhoria na medida de ajuste. Esse processo é repetido para adicionar outras variáveis usando um conjunto de etapas progressivas adicionais, que termina quando não há mais melhorias na medida de ajuste adaptada. Na base da seleção regressiva, uma variável que é removida nunca é reinserida em etapas subsequentes, enquanto na seleção progressiva uma variável nunca é removida em etapas posteriores depois de ter sido adicionada. Uma abordagem híbrida pode ser usada, começando com um modelo inicial grande ("máximo") e uma primeira etapa regressiva, mas depois avaliando movimentos tanto progressivos quanto regressivos em cada etapa subsequente.

A ferramenta de regressão passo a passo do Alteryx baseada no R seleciona variáveis usando tanto a seleção regressiva quanto uma combinação entre as seleções regressiva e progressiva. Para usar a ferramenta, primeiro crie um modelo de regressão "máximo" que inclua todas as variáveis que você acredita que possam ser relevantes e, em seguida, use a ferramenta de regressão passo a passo para determinar quais dessas variáveis devem ser removidas com base em uma medida de ajuste adaptada. São oferecidas ao usuário duas medidas de ajuste diferentes: o critério de informação de Akaike** (ou AIC) e o critério de informação Bayesiano*** (ou BIC). Essas duas medidas são semelhantes, mas o BIC impõe uma penalidade maior sobre o número de variáveis incluídas no modelo, geralmente resultando em um modelo final com menos variáveis do que no caso em que o AIC é usado.

Com essa ferramenta, se os dados de entrada vierem de um fluxo de dados regular do Alteryx, será usada a função open-source do R aplicável para a estimativa do modelo. Se a entrada vier de uma ferramenta Saída XDF ou Entrada XDF, será usada a função Revo ScaleR apropriada para a estimativa do modelo. A vantagem de usar a função baseada em Revo ScaleR é que ela permite analisar conjuntos de dados muito maiores (fora da memória), mas não cria algumas das saídas de diagnóstico do modelo que estão disponíveis com as funções open-source do R.

Essa ferramenta utiliza a ferramenta R. Vá para "Opções" > "Baixar ferramentas preditivas" e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.

Conectar Entradas

  • O fluxo de saída de uma ferramenta Regressão de Contagem, Regressão Linear ou Regressão Logística usado para criar o modelo "máximo". Esse fluxo pode ser inserido em qualquer entrada da ferramenta.

  • O mesmo fluxo de dados do Alteryx ou fluxo de metadados XDF que foi usado para criar o modelo "máximo". Esse fluxo pode ser inserido em qualquer entrada da ferramenta.

Configurar a Ferramenta

Use a guia Configuração para definir os controles do modelo stepwise (passo a passo).

  • O nome do novo modelo: este é o melhor modelo encontrado usando a seleção de variáveis stepwise (passo a passo) com base na direção de busca e nos critérios de seleção escolhidos. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial (como espaços) é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

  • Direção de busca: se a direção da busca envolve etapas regressivas e progressivas (o método começa com uma etapa regressiva) ou apenas etapas regressivas são usadas.

  • Medida de ajuste: os critérios usados para comparar diferentes modelos e selecionar o melhor modelo. As opções fornecidas são o critério de informação de Akaike (AIC) ou o critério de informação Bayesiano (BIC).

Use a guia Opções de gráfico para definir os controles para o gráfico de saída.

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada — 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

    • Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.

    • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

Visualizar a Saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • Âncora O: consiste em uma tabela do modelo serializado com o nome do modelo e o tamanho do objeto.

  • Âncora R: consiste em fragmentos de relatório gerados pela ferramenta Passo a Passo: um resumo estatístico, uma análise de desvio do tipo II ou testes ANOVA e gráficos de diagnóstico básicos. A tabela de análise de desvio do tipo II, ou ANOVA, e os gráficos de diagnóstico básicos não são gerados quando a entrada do modelo vem de uma ferramenta Saída XDF ou Entrada XDF.

*https://pt.wikipedia.org/wiki/Regressão_por_stepwise **https://pt.wikipedia.org/wiki/Critério_de_informação_de_Akaike ***https://en.wikipedia.org/wiki/Bayesian_information_criterion