Regression tool icon

Ferramenta Regressão

Versão:
2023.1
Last modified: January 27, 2023

Use a ferramenta Regressão como parte de um pipeline de machine learning para identificar uma tendência. A ferramenta fornece vários algoritmos que você pode usar para treinar um modelo. Ela também permite que você ajuste um modelo usando uma série de parâmetros.

Configurar a ferramenta

Esta seção contém informações sobre como configurar a ferramenta Regressão.

Selecionar algoritmo

Selecione qual algoritmo você deseja usar. Você pode escolher Regressão linear, Árvore de decisão ou Floresta aleatória.

Configurar parâmetros

Configure os parâmetros. Cada algoritmo tem seus parâmetros específicos. Todos os algoritmos têm parâmetros gerais e avançados. Os parâmetros gerais são fundamentais para criar um modelo acurado, mesmo para iniciantes. Os parâmetros avançados podem melhorar a acurácia, mas requerem um entendimento mais aprofundado acerca do que cada um faz.

Faça referência à tabela de cada algoritmo para ver o que os parâmetros fazem:

Regressão Linear

 

Nome Descrição Opções Padrão
fit_intercept Decida se você deseja que o algoritmo calcule o intercepto para o seu modelo de regressão linear. Também conhecido como “constante”, o intercepto é o valor médio esperado de y onde x é igual a 0.
  • true
  • false
true
normalize Decida se você deseja que o algoritmo normalize os alvos. A normalização ajusta as variáveis alvo de forma que você possa compará-las com outros dados em uma escala comum. Isso pode ajudar a identificar associações nos dados.
  • true
  • false
true
Árvore de Decisão

 

Nome Descrição Opções Padrão
bootstrap Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos ou ainda não vistos. Essas subamostras podem ser usadas para melhorar a generalização do modelo.
  • true
  • false
true
criterion Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de árvore de decisão divide os dados em diferentes nós.
  • Erro quadrático médio (mse)
  • Erro absoluto médio (mae)
Erro quadrático médio (mse)
max_depth O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha em uma árvore. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.
  • none: os nós se expandem até que todos os nós folha fiquem puros (ou seja, até que consistam completamente de dados que pertencem a uma única classe) ou até que todos os nós folha contenham menos do que o especificado no parâmetro min_samples_split.
  • int: limita a expansão por meio de divisões.
int: 100
max_features O parâmetro max_features define o número máximo de recursos que a árvore de decisão considera ao procurar a melhor primeira divisão.
  • auto: avalia um número de recursos igual ao número total de recursos no conjunto de dados.
  • none: avalia um número de recursos igual ao número total de recursos no conjunto de dados.
  • sqrt: avalia um número de recursos igual à raiz quadrada do número total de recursos no conjunto de dados.
  • log2: avalia um número de recursos igual ao logaritmo binário do número total de recursos.
  • int: avalia um número de recursos a cada divisão igual ao número que você selecionou.
  • float: avalia um número de recursos igual à fração selecionada do número total de recursos.
Automático
max_leaf_nodes O parâmetro max_leaf_nodes é o limite superior do número total de nós folha que seu algoritmo pode gerar. Nós são gerados até o número máximo de uma maneira best-first. O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. Qualquer número inteiro (int) ou nenhum (none). Nenhum
min_impurity_decrease O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para que a árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. Qualquer float. 0,0
min_samples_split O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que a árvore de decisão se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras. Qualquer número inteiro (int) ou fração (float). int: 2
min_weight_fraction_leaf O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que a árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de árvore de decisão assume pesos iguais por padrão. Qualquer float. 0,0
presort Use esse parâmetro para pré-ordenar os dados, o que pode ajudar o algoritmo a encontrar as melhores divisões mais rapidamente.
  • true
  • false
false
random_state O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none, um gerador de números aleatórios escolhe um número inicial.
  • int
  • Nenhum
Semente: 10
splitter O parâmetro splitter é a estratégia usada para fazer a divisão em um nó. Ele inclui opções para a melhor primeira divisão (best) e a melhor divisão aleatória (random). O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas.
  • best: essa opção requer mais poder computacional e traz o risco de sobreajuste.
  • random: o modo aleatório pode encontrar caminhos pela árvore se certas associações tiverem sinais fracos.
best
Floresta aleatória

 

Nome Descrição Opções Padrão
bootstrap Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos ou ainda não vistos. Essas subamostras podem ser usadas para melhorar a generalização do modelo.
  • true
  • false
true
criterion Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de floresta aleatória divide os dados nos diferentes nós, o que engloba as muitas árvores da floresta aleatória.
  • Erro quadrático médio (mse)
  • Friedman Mean Squared Error (friedman_mse)
  • Erro absoluto médio (mae)
Erro quadrático médio (mse)
max_depth O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.
  • none: os nós se expandem até que todos os nós folha fiquem puros (ou seja, até que consistam completamente de dados que pertencem a uma única classe) ou até que todos os nós folha contenham menos do que o especificado no parâmetro min_samples_split.
  • int: limita a expansão por meio de divisões.
Limitado: 10
max_features O parâmetro max_features define o número máximo de recursos que cada árvore de decisão na floresta considera ao procurar a melhor primeira divisão.
  • auto: avalia um número de recursos igual ao número total de recursos no conjunto de dados.
  • none: avalia um número de recursos igual ao número total de recursos no conjunto de dados.
  • sqrt: avalia um número de recursos igual à raiz quadrada do número total de recursos no conjunto de dados.
  • log2: avalia um número de recursos igual ao logaritmo binário do número total de recursos.
  • int: avalia um número de recursos a cada divisão igual ao número que você selecionou.
  • float: avalia um número de recursos igual à fração selecionada do número total de recursos.
Automático
min_impurity_decrease O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para a árvore de decisão se dividir em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. Qualquer float. 0,0
min_samples_split O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que uma árvore de decisão (em uma floresta aleatória) se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras. Qualquer número inteiro (int) ou fração (float). int: 2
min_weight_fraction_leaf O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que uma árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de floresta aleatória assume pesos iguais por padrão. Qualquer float. 0,0
n_estimators O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta. Qualquer número inteiro. 100
random_state O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none, um gerador de números aleatórios escolhe um número inicial.
  • int: selecione um número inteiro para o gerador de números aleatórios.
  • none: nenhuma repetibilidade.
Semente: 10
Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.