Ferramenta Regressão

Use a ferramenta Regressão como parte de um pipeline de machine learning para identificar uma tendência. A ferramenta fornece vários algoritmos que você pode usar para treinar um modelo. Ela também permite que você ajuste um modelo usando uma série de parâmetros.

Requer o Alteryx Intelligence Suite

Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .

Configurar a ferramenta

Esta seção contém informações sobre como configurar a ferramenta Regressão.

Selecionar algoritmo

Selecione qual algoritmo você deseja usar. Você pode escolher Regressão linear , Árvore de decisão ou Floresta aleatória .

Configurar parâmetros

Configure os parâmetros. Cada algoritmo tem seus parâmetros específicos. Todos os algoritmos têm parâmetros gerais e avançados. Os parâmetros gerais são fundamentais para criar um modelo acurado, mesmo para iniciantes. Os parâmetros avançados podem melhorar a acurácia, mas requerem um entendimento mais aprofundado acerca do que cada um faz.

Faça referência à tabela de cada algoritmo para ver o que os parâmetros fazem:

Regressão Linear

Nome	Descrição	Opções	Padrão
fit_intercept	Decida se você deseja que o algoritmo calcule o intercepto para o seu modelo de regressão linear. Também conhecido como “constante”, o intercepto é o valor médio esperado de y onde x é igual a 0.	true false	true
normalize	Decida se você deseja que o algoritmo normalize as variáveis-alvo. A normalização ajusta as variáveis alvo de forma que você possa compará-las com outros dados em uma escala comum. Isso pode ajudar a identificar associações nos dados.	true false	true

Árvore de Decisão

Nome	Descrição	Opções	Padrão
criterion	Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de árvore de decisão divide os dados em diferentes nós.	mse friedman_mse mae	mse
max_depth	O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha em uma árvore. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.	none : os nós se expandem até que todos os nós folha fiquem puros (ou seja, até que consistam completamente de dados que pertencem a uma única classe) ou até que todos os nós folha contenham menos do que o especificado no parâmetro min_samples_split. int : limita a expansão por meio de divisões.	none
max_features	O parâmetro max_features define o número máximo de recursos que a árvore de decisão considera ao procurar a melhor primeira divisão.	auto : avalia um número de recursos igual ao número total de recursos no conjunto de dados. none : avalia um número de recursos igual ao número total de recursos no conjunto de dados. sqrt : avalia um número de recursos igual à raiz quadrada do número total de recursos no conjunto de dados. log2 : avalia um número de recursos igual ao logaritmo binário do número total de recursos. int : avalia um número de recursos a cada divisão igual ao número que você selecionou. float : avalia um número de recursos igual à fração selecionada do número total de recursos.	auto
max_leaf_nodes	O parâmetro max_leaf_nodes é o limite superior do número total de nós folha que seu algoritmo pode gerar. Nós são gerados até o número máximo de uma maneira best-first. O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza.	Qualquer número inteiro (int) ou nenhum ( none ).	none
min_impurity_decrease	O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para que a árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease . Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza.	Qualquer float.	0.0
min_samples_split	O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que a árvore de decisão se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras.	Qualquer número inteiro (int) ou fração (float).	int : 2
min_weight_fraction_leaf	O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que a árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de árvore de decisão assume pesos iguais por padrão.	Qualquer float.	0.0
presort	Use esse parâmetro para pré-ordenar os dados, o que pode ajudar o algoritmo a encontrar as melhores divisões mais rapidamente.	true false	false
random_state	O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial.	int none	int : 10
splitter	O parâmetro splitter é a estratégia usada para fazer a divisão em um nó. Ele inclui opções para a melhor primeira divisão (best) e a melhor divisão aleatória (random). O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas.	best : essa opção requer mais poder computacional e traz o risco de sobreajuste. random : o modo aleatório pode encontrar caminhos pela árvore se certas associações tiverem sinais fracos.	best

Floresta Aleatória

Nome	Descrição	Opções	Padrão
bootstrap	Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos ou ainda não vistos. Essas subamostras podem ser usadas para melhorar a generalização do modelo.	true false	true
criterion	Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de floresta aleatória divide os dados nos diferentes nós, o que engloba as muitas árvores da floresta aleatória.	mse friedman_mse mae	mse
max_depth	O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.	none : os nós se expandem até que todos os nós folha fiquem puros (ou seja, até que consistam completamente de dados que pertencem a uma única classe) ou até que todos os nós folha contenham menos do que o especificado no parâmetro min_samples_split. int : limita a expansão por meio de divisões.	none
max_features	O parâmetro max_features define o número máximo de recursos que cada árvore de decisão na floresta considera ao procurar a melhor primeira divisão.	auto : avalia um número de recursos igual ao número total de recursos no conjunto de dados. none : avalia um número de recursos igual ao número total de recursos no conjunto de dados. sqrt : avalia um número de recursos igual à raiz quadrada do número total de recursos no conjunto de dados. log2 : avalia um número de recursos igual ao logaritmo binário do número total de recursos. int : avalia um número de recursos a cada divisão igual ao número que você selecionou. float : avalia um número de recursos igual à fração selecionada do número total de recursos.	auto
min_impurity_decrease	O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para a árvore de decisão se dividir em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease . Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza.	Qualquer float.	0.0
min_samples_split	O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que uma árvore de decisão (em uma floresta aleatória) se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras.	Qualquer número inteiro (int) ou fração (float).	int : 2
min_weight_fraction_leaf	O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que uma árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de floresta aleatória assume pesos iguais por padrão.	Qualquer float.	0.0
n_estimators	O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta.	Qualquer número inteiro.	100
random_state	O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none , um gerador de números aleatórios escolhe um número inicial.	int : selecione um número inteiro para o gerador de números aleatórios. none : nenhuma repetibilidade.	int : 10