
Ferramenta Regressão
Use a ferramenta Regressão como parte de um pipeline de machine learning para identificar uma tendência. A ferramenta fornece vários algoritmos que você pode usar para treinar um modelo. Ela também permite que você ajuste um modelo usando uma série de parâmetros.
Configurar a ferramenta
Esta seção contém informações sobre como configurar a ferramenta Regressão.
Selecionar algoritmo
Selecione qual algoritmo você deseja usar. Você pode escolher Regressão linear, Árvore de decisão ou Floresta aleatória.
Configurar parâmetros
Configure os parâmetros. Cada algoritmo tem seus parâmetros específicos. Todos os algoritmos têm parâmetros gerais e avançados. Os parâmetros gerais são fundamentais para criar um modelo acurado, mesmo para iniciantes. Os parâmetros avançados podem melhorar a acurácia, mas requerem um entendimento mais aprofundado acerca do que cada um faz.
Faça referência à tabela de cada algoritmo para ver o que os parâmetros fazem:
Nome | Descrição | Opções | Padrão |
fit_intercept | Decida se você deseja que o algoritmo calcule o intercepto para o seu modelo de regressão linear. Também conhecido como “constante”, o intercepto é o valor médio esperado de y onde x é igual a 0. |
|
true |
normalize | Decida se você deseja que o algoritmo normalize os alvos. A normalização ajusta as variáveis alvo de forma que você possa compará-las com outros dados em uma escala comum. Isso pode ajudar a identificar associações nos dados. |
|
true |
Nome | Descrição | Opções | Padrão |
bootstrap | Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos ou ainda não vistos. Essas subamostras podem ser usadas para melhorar a generalização do modelo. |
|
true |
criterion | Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de árvore de decisão divide os dados em diferentes nós. |
|
Erro quadrático médio (mse) |
max_depth | O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha em uma árvore. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados. |
|
int: 100 |
max_features | O parâmetro max_features define o número máximo de recursos que a árvore de decisão considera ao procurar a melhor primeira divisão. |
|
Automático |
max_leaf_nodes | O parâmetro max_leaf_nodes é o limite superior do número total de nós folha que seu algoritmo pode gerar. Nós são gerados até o número máximo de uma maneira best-first. O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. | Qualquer número inteiro (int) ou nenhum (none). | Nenhum |
min_impurity_decrease | O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para que a árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. | Qualquer float. | 0,0 |
min_samples_split | O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que a árvore de decisão se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras. | Qualquer número inteiro (int) ou fração (float). | int: 2 |
min_weight_fraction_leaf | O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que a árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de árvore de decisão assume pesos iguais por padrão. | Qualquer float. | 0,0 |
presort | Use esse parâmetro para pré-ordenar os dados, o que pode ajudar o algoritmo a encontrar as melhores divisões mais rapidamente. |
|
false |
random_state | O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none, um gerador de números aleatórios escolhe um número inicial. |
|
Semente: 10 |
splitter | O parâmetro splitter é a estratégia usada para fazer a divisão em um nó. Ele inclui opções para a melhor primeira divisão (best) e a melhor divisão aleatória (random). O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. |
|
best |
Nome | Descrição | Opções | Padrão |
bootstrap | Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos ou ainda não vistos. Essas subamostras podem ser usadas para melhorar a generalização do modelo. |
|
true |
criterion | Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de floresta aleatória divide os dados nos diferentes nós, o que engloba as muitas árvores da floresta aleatória. |
|
Erro quadrático médio (mse) |
max_depth | O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados. |
|
Limitado: 10 |
max_features | O parâmetro max_features define o número máximo de recursos que cada árvore de decisão na floresta considera ao procurar a melhor primeira divisão. |
|
Automático |
min_impurity_decrease | O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para a árvore de decisão se dividir em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. | Qualquer float. | 0,0 |
min_samples_split | O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que uma árvore de decisão (em uma floresta aleatória) se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras. | Qualquer número inteiro (int) ou fração (float). | int: 2 |
min_weight_fraction_leaf | O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que uma árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de floresta aleatória assume pesos iguais por padrão. | Qualquer float. | 0,0 |
n_estimators | O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta. | Qualquer número inteiro. | 100 |
random_state | O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none, um gerador de números aleatórios escolhe um número inicial. |
|
Semente: 10 |