Ferramenta Regressão
Use a ferramenta Regressão como parte de um pipeline de machine learning para identificar uma tendência. A ferramenta fornece vários algoritmos que você pode usar para treinar um modelo. Ela também permite que você ajuste um modelo usando uma série de parâmetros.
Requer o Alteryx Intelligence Suite
Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .
Configurar a ferramenta
Esta seção contém informações sobre como configurar a ferramenta Regressão.
Selecionar algoritmo
Selecione qual algoritmo você deseja usar. Você pode escolher Regressão linear , Árvore de decisão ou Floresta aleatória .
Configurar parâmetros
Configure os parâmetros. Cada algoritmo tem seus parâmetros específicos. Todos os algoritmos têm parâmetros gerais e avançados. Os parâmetros gerais são fundamentais para criar um modelo acurado, mesmo para iniciantes. Os parâmetros avançados podem melhorar a acurácia, mas requerem um entendimento mais aprofundado acerca do que cada um faz.
Faça referência à tabela de cada algoritmo para ver o que os parâmetros fazem:
Nome | Descrição | Opções | Padrão |
fit_intercept | Decida se você deseja que o algoritmo calcule o intercepto para o seu modelo de regressão linear. Também conhecido como “constante”, o intercepto é o valor médio esperado de y onde x é igual a 0. |
| true |
normalize | Decida se você deseja que o algoritmo normalize as variáveis-alvo. A normalização ajusta as variáveis alvo de forma que você possa compará-las com outros dados em uma escala comum. Isso pode ajudar a identificar associações nos dados. |
| true |
Nome | Descrição | Opções | Padrão |
criterion | Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de árvore de decisão divide os dados em diferentes nós. |
| mse |
max_depth | O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha em uma árvore. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados. |
| none |
max_features | O parâmetro max_features define o número máximo de recursos que a árvore de decisão considera ao procurar a melhor primeira divisão. |
| auto |
max_leaf_nodes | O parâmetro max_leaf_nodes é o limite superior do número total de nós folha que seu algoritmo pode gerar. Nós são gerados até o número máximo de uma maneira best-first. O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. | Qualquer número inteiro (int) ou nenhum ( none ). | none |
min_impurity_decrease | O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para que a árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease . Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. | Qualquer float. | 0.0 |
min_samples_split | O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que a árvore de decisão se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras. | Qualquer número inteiro (int) ou fração (float). | int : 2 |
min_weight_fraction_leaf | O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que a árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de árvore de decisão assume pesos iguais por padrão. | Qualquer float. | 0.0 |
presort | Use esse parâmetro para pré-ordenar os dados, o que pode ajudar o algoritmo a encontrar as melhores divisões mais rapidamente. |
| false |
random_state | O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial. |
| int : 10 |
splitter | O parâmetro splitter é a estratégia usada para fazer a divisão em um nó. Ele inclui opções para a melhor primeira divisão (best) e a melhor divisão aleatória (random). O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. |
| best |
Nome | Descrição | Opções | Padrão |
bootstrap | Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos ou ainda não vistos. Essas subamostras podem ser usadas para melhorar a generalização do modelo. |
| true |
criterion | Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de floresta aleatória divide os dados nos diferentes nós, o que engloba as muitas árvores da floresta aleatória. |
| mse |
max_depth | O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados. |
| none |
max_features | O parâmetro max_features define o número máximo de recursos que cada árvore de decisão na floresta considera ao procurar a melhor primeira divisão. |
| auto |
min_impurity_decrease | O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para a árvore de decisão se dividir em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease . Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. | Qualquer float. | 0.0 |
min_samples_split | O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que uma árvore de decisão (em uma floresta aleatória) se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras. | Qualquer número inteiro (int) ou fração (float). | int : 2 |
min_weight_fraction_leaf | O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que uma árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de floresta aleatória assume pesos iguais por padrão. | Qualquer float. | 0.0 |
n_estimators | O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta. | Qualquer número inteiro. | 100 |
random_state | O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial. |
| int : 10 |