Skip to main content

Regression tool icon Ferramenta Regressão

Use a ferramenta Regressão como parte de um pipeline de machine learning para identificar uma tendência. A ferramenta fornece vários algoritmos que você pode usar para treinar um modelo. Ela também permite que você ajuste um modelo usando uma série de parâmetros.

Requer o Alteryx Intelligence Suite

Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .

Configurar a ferramenta

Esta seção contém informações sobre como configurar a ferramenta Regressão.

Selecionar algoritmo

Selecione qual algoritmo você deseja usar. Você pode escolher Regressão linear , Árvore de decisão ou Floresta aleatória .

Configurar parâmetros

Configure os parâmetros. Cada algoritmo tem seus parâmetros específicos. Todos os algoritmos têm parâmetros gerais e avançados. Os parâmetros gerais são fundamentais para criar um modelo acurado, mesmo para iniciantes. Os parâmetros avançados podem melhorar a acurácia, mas requerem um entendimento mais aprofundado acerca do que cada um faz.

Faça referência à tabela de cada algoritmo para ver o que os parâmetros fazem:

Nome

Descrição

Opções

Padrão

fit_intercept

Decida se você deseja que o algoritmo calcule o intercepto para o seu modelo de regressão linear. Também conhecido como “constante”, o intercepto é o valor médio esperado de y onde x é igual a 0.

  • true

  • false

true

normalize

Decida se você deseja que o algoritmo normalize as variáveis-alvo. A normalização ajusta as variáveis alvo de forma que você possa compará-las com outros dados em uma escala comum. Isso pode ajudar a identificar associações nos dados.

  • true

  • false

true

Nome

Descrição

Opções

Padrão

criterion

Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de árvore de decisão divide os dados em diferentes nós.

  • mse

  • friedman_mse

  • mae

mse

max_depth

O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha em uma árvore. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.

  • none : os nós se expandem até que todos os nós folha fiquem puros (ou seja, até que consistam completamente de dados que pertencem a uma única classe) ou até que todos os nós folha contenham menos do que o especificado no parâmetro min_samples_split.

  • int : limita a expansão por meio de divisões.

none

max_features

O parâmetro max_features define o número máximo de recursos que a árvore de decisão considera ao procurar a melhor primeira divisão.

  • auto : avalia um número de recursos igual ao número total de recursos no conjunto de dados.

  • none : avalia um número de recursos igual ao número total de recursos no conjunto de dados.

  • sqrt : avalia um número de recursos igual à raiz quadrada do número total de recursos no conjunto de dados.

  • log2 : avalia um número de recursos igual ao logaritmo binário do número total de recursos.

  • int : avalia um número de recursos a cada divisão igual ao número que você selecionou.

  • float : avalia um número de recursos igual à fração selecionada do número total de recursos.

auto

max_leaf_nodes

O parâmetro max_leaf_nodes é o limite superior do número total de nós folha que seu algoritmo pode gerar. Nós são gerados até o número máximo de uma maneira best-first. O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza.

Qualquer número inteiro (int) ou nenhum ( none ).

none

min_impurity_decrease

O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para que a árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease . Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza.

Qualquer float.

0.0

min_samples_split

O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que a árvore de decisão se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras.

Qualquer número inteiro (int) ou fração (float).

int : 2

min_weight_fraction_leaf

O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que a árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de árvore de decisão assume pesos iguais por padrão.

Qualquer float.

0.0

presort

Use esse parâmetro para pré-ordenar os dados, o que pode ajudar o algoritmo a encontrar as melhores divisões mais rapidamente.

  • true

  • false

false

random_state

O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial.

  • int

  • none

int : 10

splitter

O parâmetro splitter é a estratégia usada para fazer a divisão em um nó. Ele inclui opções para a melhor primeira divisão (best) e a melhor divisão aleatória (random). O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas.

  • best : essa opção requer mais poder computacional e traz o risco de sobreajuste.

  • random : o modo aleatório pode encontrar caminhos pela árvore se certas associações tiverem sinais fracos.

best

Nome

Descrição

Opções

Padrão

bootstrap

Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos ou ainda não vistos. Essas subamostras podem ser usadas para melhorar a generalização do modelo.

  • true

  • false

true

criterion

Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de floresta aleatória divide os dados nos diferentes nós, o que engloba as muitas árvores da floresta aleatória.

  • mse

  • friedman_mse

  • mae

mse

max_depth

O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.

  • none : os nós se expandem até que todos os nós folha fiquem puros (ou seja, até que consistam completamente de dados que pertencem a uma única classe) ou até que todos os nós folha contenham menos do que o especificado no parâmetro min_samples_split.

  • int : limita a expansão por meio de divisões.

none

max_features

O parâmetro max_features define o número máximo de recursos que cada árvore de decisão na floresta considera ao procurar a melhor primeira divisão.

  • auto : avalia um número de recursos igual ao número total de recursos no conjunto de dados.

  • none : avalia um número de recursos igual ao número total de recursos no conjunto de dados.

  • sqrt : avalia um número de recursos igual à raiz quadrada do número total de recursos no conjunto de dados.

  • log2 : avalia um número de recursos igual ao logaritmo binário do número total de recursos.

  • int : avalia um número de recursos a cada divisão igual ao número que você selecionou.

  • float : avalia um número de recursos igual à fração selecionada do número total de recursos.

auto

min_impurity_decrease

O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para a árvore de decisão se dividir em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease . Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza.

Qualquer float.

0.0

min_samples_split

O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que uma árvore de decisão (em uma floresta aleatória) se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras.

Qualquer número inteiro (int) ou fração (float).

int : 2

min_weight_fraction_leaf

O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que uma árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de floresta aleatória assume pesos iguais por padrão.

Qualquer float.

0.0

n_estimators

O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta.

Qualquer número inteiro.

100

random_state

O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial.

  • int : selecione um número inteiro para o gerador de números aleatórios.

  • none : nenhuma repetibilidade.

int : 10