Ferramenta De Regressão

Last modified: May 09, 2022

Use a ferramenta Regressão como parte de um gasoduto de aprendizagem de máquina para identificar uma tendência. A ferramenta fornece vários algoritmos que você pode usar para treinar um modelo. A ferramenta também permite que você ajuste um modelo usando muitos parâmetros.

Configurar a ferramenta

Esta seção contém informações sobre como configurar a ferramenta Regressão.

Algoritmo seleciona

Selecione qual algoritmo você deseja usar. Você pode escolher regressão linear,árvore de decisãoou Floresta Aleatória.

Configurar parâmetros

Configure os parâmetros. Cada algoritmo tem parâmetros específicos. Cada algoritmo também tem parâmetros gerais e avançados. Parâmetros gerais são fundamentais para criar um modelo preciso, mesmo para iniciantes. Parâmetros avançados podem melhorar a precisão, mas requerem uma compreensão aprofundada do que fazem.

Faça referência à tabela para cada algoritmo ver quais parâmetros fazem:

Regressão linear
Nome Descrição Opções Padrão
fit_intercept Decida se você deseja que o algoritmo calcule o intercepto para seu modelo de regressão linear. Também conhecida como "constante", a interceptação é o valor médio esperado de y onde x igual a 0.
  • Ativado
  • Desligado
Ativado
Normalizar Decida se você deseja que o algoritmo normalize os destinos. A normalização ajusta os destinos de forma que você possa compará-los com outros dados em uma escala comum. Isso pode ajudar a identificar associações nos dados.
  • Ativado
  • Desligado
Ativado

 

Árvore de decisão
Nome Descrição Opções Padrão
Bootstrap Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos e não vistos, que podem ser usadas para melhorar a generalização do seu modelo.
  • Ativado
  • Desligado
Ativado
Critério Use o parâmetro Critério para selecionar um método para medir o quão bem o algoritmo da árvore de decisão divide seus dados em diferentes nódulos.
  • Erro quadrático médio (MSE)
  • Erro absoluto médio (MAE)
Erro quadrático médio (MSE)
max_depth Max Depth é o caminho mais longo de uma raiz para uma folha de uma árvore. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.
  • Ilimitado: Os nós se expandem até que todos os nós da folha sejam puros (ou seja, consistem completamente em dados que pertencem a uma única classe) ou até que todos os nós da folha contenham menos do que o que você especifica no parâmetro Min Samples Split.
  • Limitado: Limita a expansão por divisões.
Limited: 100
max_features Max Features define o número máximo de recursos que sua árvore de decisão considera ao procurar uma melhor primeira divisão.
  • Auto: Avalie uma série de recursos iguais ao número total de recursos no conjunto de dados.
  • Nenhum: Avalie uma série de recursos iguais ao número total de recursos no conjunto de dados.
  • Raiz Quadrada: Avalie uma série de características iguais à raiz quadrada do número total de recursos no conjunto de dados.
  • Log2: Avalie uma série de características iguais ao logaritmo binário do número total de recursos.
  • Inteiro selecionadopelo usuário : Avalie uma série de recursos a cada divisão igual ao número selecionado.
  • Fração Selecionada pelo usuário: Avalie uma série de recursos iguais a uma fração selecionada pelo usuário do número total de recursos.
Automático
max_leaf_nodes Max Leaf Nodes é o limite ascendente no número total de nódulos de folha que seu algoritmo pode gerar. Ele aumenta os nós até o número máximo de uma maneira best-first. O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. Use o parâmetro Critério para especificar como você deseja medir a redução da impureza. Qualquer inteiro ou nenhum. Nenhum
min_impurity_decrease A diminuição da impureza estabelece o limite mínimo de redução da impureza necessário para que a árvore de decisão se divida em um novo nó. Assim, ocorre uma divisão onde diminuiria a impureza em uma quantidade igual ou maior do que a Diminuição da Impureza min, ocorre uma divisão. Use o parâmetro Critério para especificar como você deseja medir a redução da impureza. Qualquer flutuação. 0.0
min_samples_split Min Samples Split estabelece o limiar mínimo de amostras necessárias para que a árvore de decisão se divida em um novo nó. O algoritmo pode considerar desde apenas uma amostra até todas as amostras. Qualquer inteiro ou fração. Integer: 2
min_weight_fraction_leaf Min Weight Fraction Leaf é o limite mínimo de peso necessário para a árvore de decisão se dividir em um novo nó. Esse limite é igual à fração mínima do peso total para todas as amostras. Por padrão, o algoritmo de árvore de decisão assume pesos iguais. Qualquer flutuação. 0.0
Pré-ordenação Use esse parâmetro para pré-ordenar os dados, o que pode ajudar o algoritmo a encontrar as melhores divisões mais rapidamente.
  • Ativado
  • Desligado
Desligado
Semente aleatória Random Seed especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar None,um gerador de números aleatórios escolhe um número inicial.
  • Semente
  • Nenhum
Nenhum
Splitter Splitter é a estratégia usada para dividir em um nó. Inclui opções para a melhor primeira divisão e a melhor divisão aleatória. O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas.
  • Melhor:Esta opção requer mais poder computacional e pode correr o risco de superajuste.
  • Aleatório: Esta opção pode encontrar caminhos através da árvore se certas associações tiverem sinais fracos.
Melhor

 

Floresta aleatória
Nome Descrição Opções Padrão
Bootrap Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos e não vistos, que podem ser usadas para melhorar a generalização do seu modelo.
  • Ativado
  • Desligado
Ativado
Critério Use o parâmetro Critério para selecionar um método para medir o quão bem o algoritmo da floresta aleatória divide seus dados em diferentes nós, que compreendem as muitas árvores diferentes em sua floresta aleatória.
  • Erro quadrático médio (MSE)
  • Erro quadrático médio de Friedman (FMSE)
  • Erro absoluto médio (MAE)
Erro quadrático médio (MSE)
max_depth Max Depth é o caminho mais longo de uma raiz para uma folha para cada árvore na floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.
  • Ilimitado: Os nós se expandem até que todos os nós da folha sejam puros (ou seja, consistem completamente em dados que pertencem a uma única classe) ou até que todos os nós da folha contenham menos do que o que você especifica no parâmetro Min Samples Split.
  • Limitado: Limita a expansão por divisões.
Ilimitado
max_features Max Features define o número máximo de características que cada árvore de decisão na floresta considera ao procurar uma melhor primeira divisão.
  • Auto: Avalie uma série de recursos iguais ao número total de recursos no conjunto de dados.
  • Nenhum: Avalie uma série de recursos iguais ao número total de recursos no conjunto de dados.
  • Raiz Quadrada: Avalie uma série de características iguais à raiz quadrada do número total de recursos no conjunto de dados.
  • Log2: Avalie uma série de características iguais ao logaritmo binário do número total de recursos.
  • Inteiro selecionadopelo usuário : Avalie uma série de recursos a cada divisão igual ao número selecionado.
  • Fração Selecionada pelo usuário: Avalie uma série de recursos iguais a uma fração selecionada pelo usuário do número total de recursos.
Automático
min_impurity_decrease A diminuição da impureza estabelece o limite mínimo de redução da impureza necessário para que uma árvore de decisão se divida em um novo nó. Assim, ocorre uma divisão onde diminuiria a impureza em uma quantidade igual ou maior do que a diminuição da impureza. Use o parâmetro Critério para especificar como você deseja medir a redução da impureza. Qualquer flutuação. 0.0
min_samples_split Min Samples Split estabelece o limiar mínimo de amostras necessárias para que a árvore de decisão (em uma floresta aleatória) se divida em um novo nó. O algoritmo pode considerar desde apenas uma amostra até todas as amostras. Qualquer inteiro ou fração. Integer: 2
min_weight_fraction_leaf Min Weight Fraction Leaf é o limite mínimo de peso necessário para uma árvore de decisão se dividir em um novo nó. Esse limite é igual à fração mínima do peso total para todas as amostras. O algoritmo da floresta aleatória assume pesos iguais por padrão. Qualquer flutuação. 0.0
Número de estimadores Número de estimadores é o número de árvores que você quer criar como parte da floresta. Qualquer inteiro. 100
Semente aleatória Random Seed especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar None,um gerador de números aleatórios escolhe um número inicial.
  • Semente: Selecione um inteiro para o gerador de números aleatórios.
  • Nenhuma: Sem repetibilidade.
Nenhum

 

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.