Classification tool icon

Ferramenta Classificação

Versão:
2023.1
Last modified: January 27, 2023

Use a ferramenta Classificação como parte de um pipeline de machine learning para identificar a que categoria uma variável alvo pertence. A ferramenta fornece vários algoritmos que você pode usar para treinar um modelo. Ela também permite que você ajuste um modelo usando uma série de parâmetros.

Esta ferramenta faz parte do Alteryx Intelligence Suite. O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita.

Configurar a ferramenta

Esta seção contém informações sobre como configurar a ferramenta Classificação.

Selecionar algoritmo

Selecione qual algoritmo você deseja usar. Você pode escolher Regressão logística, Árvore de decisão, Floresta aleatória ou XGBoost.

Configurar parâmetros

Configure os parâmetros. Cada algoritmo tem parâmetros diferentes. Todos os algoritmos têm parâmetros gerais e avançados. Os parâmetros gerais são fundamentais para criar um modelo acurado, mesmo para iniciantes. Os parâmetros avançados podem melhorar a acurácia, mas requerem um entendimento mais aprofundado acerca do que cada um faz.

Faça referência à tabela de cada algoritmo para ver o que os parâmetros fazem:

Regressão Logística

 

Nome Descrição Opções Padrão
class_weight O parâmetro class_weight atribui pesos às diferentes classes do conjunto de dados. Alguns algoritmos supervalorizam as classes predominantes, resultando em desequilíbrios. Esse parâmetro ajuda a equilibrar as classes no conjunto de dados atribuindo peso adicional às classes minoritárias.
  • none
  • balanced
none
fit_intercept Decida se você deseja que o algoritmo calcule o intercepto para o seu modelo de regressão linear. Também conhecido como “constante”, o intercepto é o valor médio esperado de y onde x é igual a 0.
  • none
  • intercept_scaling
intercept_scaling: 1.0
max_iter O parâmetro max_iter especifica o número máximo de iterações necessárias para os solvers convergirem. Modelos com mais iterações capturam mais informações sobre os dados. Qualquer número inteiro. 100
multi_class

O parâmetro multi_class especifica se o algoritmo precisa lidar com mais de duas classes.

  • A opção auto seleciona automaticamente entre multinomial ou ovr.
  • A opção multinomial é capaz de lidar com classificação multiclasse ou binária.
  • A opção ovr é capaz de lidar com classificação binária.
auto
penalty O parâmetro penalty, também conhecido como "regularização", refere-se à prática de modificar a função de perda para penalizar determinados valores que o modelo, de outra forma, supervalorizaria. Os métodos l1 (regressão lasso) e l2 (regressão ridge) são usados para especificar o termo da penalidade.
  • A opção l1 ajuda a encontrar os recursos mais importantes em conjuntos de dados com muitos recursos, definindo alguns pesos como 0.
  • A opção L2 faz com que todos os recursos contribuam para o modelo garantindo que os pesos sejam diferentes de zero.
l2
dual

O parâmetro dual transforma um problema de otimização primal em um problema dual.

  • false
  • true*

*Você só pode usar true (ou seja, problema dual) se você selecionar a opção l2 para penalty e liblinear para solver.

false
random_state O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none, um gerador de números aleatórios escolhe um número inicial.
  • int
  • none
seed:10
solver

O parâmetro solver é o método que a regressão logística usa para otimizar sua curva para melhor ajustar os dados, por meio da determinação de pesos sigmoides.

  • liblinear: use esse método para conjuntos de dados menores, aos quais você deseja aplicar uma penalidade. O método liblinear requer uma penalidade.
  • sag: use esse método para conjuntos de dados maiores, aos quais você deseja aplicar uma penalidade l2 ou nenhuma penalidade.
  • saga: use esse método para conjuntos de dados maiores, aos quais você deseja aplicar uma penalidade l1 ou nenhuma penalidade.
  • lbfgs: use esse método para conjuntos de dados menores, aos quais você deseja aplicar uma penalidade l2 ou nenhuma penalidade.
  • newton-gc: use esse método para conjuntos de dados menores, aos quais você deseja aplicar uma penalidade l2 ou nenhuma penalidade.
liblinear
tol

O parâmetro tol define a tolerância, isto é, os critérios de parada para quando o algoritmo deve detectar que os parâmetros estão próximos o suficiente da convergência (ou seja, permanecem constantes).

Qualquer float positivo. 0,0001
C O parâmetro C (ajuste de regularização) permite ajustar quanta penalidade (ou seja, regularização) você aplica, efetivamente limitando os recursos aos quais o modelo atribui um peso maior. Defina este parâmetro como um float positivo. Qualquer float positivo. 1,0
Árvore de Decisão

 

Nome Descrição Opções Padrão
class_weight

O parâmetro class_weight atribui pesos às diferentes classes do conjunto de dados.

  • none
  • balanced
none
criterion

Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de árvore de decisão divide os dados em diferentes nós.

  • gini
  • entropy
gini
max_depth

O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha em uma árvore. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.

  • none: os nós se expandem até que todos os nós folha fiquem puros (ou seja, até que consistam completamente de dados que pertencem a uma única classe) ou até que todos os nós folha contenham menos do que o especificado no parâmetro min_samples_split.
  • int: limita a expansão por meio de divisões.
none
max_features

O parâmetro max_features define o número máximo de recursos que a árvore de decisão considera ao procurar a melhor primeira divisão.

  • auto: avalia um número de recursos igual ao número total de recursos no conjunto de dados.
  • none: avalia um número de recursos igual ao número total de recursos no conjunto de dados.
  • sqrt: avalia um número de recursos igual à raiz quadrada do número total de recursos no conjunto de dados.
  • log2: avalia um número de recursos igual ao logaritmo binário do número total de recursos.
  • int: avalia um número de recursos a cada divisão igual ao número que você selecionou.
  • float: avalia um número de recursos igual à fração selecionada do número total de recursos.
auto
max_leaf_nodes O parâmetro max_leaf_nodes é o limite superior do número total de nós folha que seu algoritmo pode gerar. Nós são gerados até o número máximo de uma maneira best-first. O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. Qualquer número inteiro (int) ou nenhum (none). none
min_impurity_decrease O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para que a árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. Qualquer float. 0,0
min_samples_split O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que a árvore de decisão se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras. Qualquer número inteiro (int) ou fração (float). int: 2
min_weight_fraction_leaf O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que a árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de árvore de decisão assume pesos iguais por padrão. Qualquer float. 0,0
presort Use esse parâmetro para pré-ordenar os dados, o que pode ajudar o algoritmo a encontrar as melhores divisões mais rapidamente.
  • true
  • false
false
random_state O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none, um gerador de números aleatórios escolhe um número inicial.
  • int: selecione um número inteiro para o gerador de números aleatórios.
  • none: nenhuma repetibilidade.
seed: 10
splitter O parâmetro splitter é a estratégia usada para fazer a divisão em um nó. Ele inclui opções para a melhor primeira divisão (best) e a melhor divisão aleatória (random). O algoritmo determina quais nós são melhores com base na capacidade desses nós para redução de impurezas.
  • best: essa opção requer mais poder computacional e traz o risco de sobreajuste.
  • random: o modo aleatório pode encontrar caminhos pela árvore se certas associações tiverem sinais fracos.
best
Floresta Aleatória

 

Nome Descrição Opções Padrão
bootstrap Bootstrapping, a base do bagging, é o método usado para amostrar o conjunto de dados para fins de treinamento. Esse método envolve a criação iterativa de subamostras do seu conjunto de dados para simular dados novos ou ainda não vistos. Essas subamostras podem ser usadas para melhorar a generalização do modelo.
  • true
  • false
true
class_weight

O parâmetro class_weight atribui pesos às diferentes classes do conjunto de dados. Os algoritmos de floresta aleatória tendem a supervalorizar classes predominantes, resultando em desequilíbrios. O class_weight ajuda a equilibrar as classes do conjunto de dados, atribuindo peso adicional a classes minoritárias. O balanceamento de classes pode melhorar o desempenho do modelo. Por padrão, todas as classes têm peso 1.

  • none: é usado o peso padrão (ou seja, 1) para todas as classes.
  • balanced: selecione essa opção para que o algoritmo de floresta aleatória ajuste automaticamente os pesos das classes com base no número de amostras em cada classe.
none
criterion Use o parâmetro criterion para selecionar um método para mensurar o quão bem o algoritmo de floresta aleatória divide os dados em diferentes nós.
  • gini
  • entropy
gini
max_depth O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados.
  • none: os nós se expandem até que todos os nós folha fiquem puros (ou seja, até que consistam completamente de dados que pertencem a uma única classe) ou até que todos os nós folha contenham menos do que o especificado no parâmetro min_samples_split.
  • int: limita a expansão por meio de divisões.
int: 10
max_features O parâmetro max_features define o número máximo de recursos que cada árvore de decisão na floresta considera ao procurar a melhor primeira divisão.
  • auto: avalia um número de recursos igual ao número total de recursos no conjunto de dados.
  • none: avalia um número de recursos igual ao número total de recursos no conjunto de dados.
  • sqrt: avalia um número de recursos igual à raiz quadrada do número total de recursos no conjunto de dados.
  • log2: avalia um número de recursos igual ao logaritmo binário do número total de recursos.
  • int: avalia um número de recursos a cada divisão igual ao número que você selecionou.
  • float: avalia um número de recursos igual à fração selecionada do número total de recursos.
auto
min_impurity_decrease O parâmetro min_impurity_decrease define o limite mínimo de redução de impureza necessário para a árvore de decisão se dividir em um novo nó. Portanto, uma divisão ocorre onde isso diminuiria a impureza em uma quantidade igual ou superior a min_impurity_decrease. Use o parâmetro criterion para especificar a forma como você deseja medir a redução de impureza. Qualquer float. 0,0
min_samples_split O parâmetro min_samples_split define o limite mínimo de amostras necessárias para que uma árvore de decisão (em uma floresta aleatória) se divida em um novo nó. O algoritmo pode considerar desde somente uma amostra até todas as amostras. Qualquer número inteiro (int) ou fração (float). int: 2
min_weight_fraction_leaf O parâmetro min_weight_fraction_leaf é o limite mínimo de peso necessário para que uma árvore de decisão se divida em um novo nó. Esse limite é igual à fração mínima dos pesos totais para todas as amostras. O algoritmo de floresta aleatória assume pesos iguais por padrão. Qualquer float. 0,0
n_estimators O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta. Qualquer número inteiro. 100
random_state O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Se você selecionar none, um gerador de números aleatórios escolhe um número inicial.
  • int: selecione um número inteiro para o gerador de números aleatórios.
  • none: nenhuma repetibilidade.
seed: 10
XGBoost

 

Nome Descrição Opções Padrão
colsample_bylevel O parâmetro colsample_bylevel é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente para cada nível de profundidade em uma árvore. Qualquer float de 0 a 1. 1
colsample_bynode O parâmetro colsample_bynode é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente para cada nó em uma árvore. Qualquer float de 0 a 1. 1
colsample_bytree O parâmetro colsample_bytree é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente para cada árvore. Qualquer float de 0 a 1. 1
gamma O parâmetro gamma define a redução de perda necessária para que uma árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso reduziria a perda em uma quantidade igual ou superior a gamma. Qualquer número inteiro positivo ou 0. 0
learning_rate O parâmetro learning_rate é a taxa na qual o algoritmo permite que novas informações substituam informações antigas. Em geral, o learning_rate é definido em incrementos logarítmicos (por exemplo, 0,003, 0,03, 0,3). Qualquer float de 0 a 1. 0,05
max_depth O parâmetro max_depth é a profundidade máxima, ou seja, o caminho mais longo de uma raiz até uma folha para cada árvore da floresta. Árvores mais profundas têm mais divisões e capturam mais informações sobre os dados. Qualquer número igual ou superior a 1. 3
min_child_weight O parâmetro min_child_weight é o peso mínimo do filho e define o limite do peso hessiano necessário para que uma árvore de decisão se divida em um novo nó. Portanto, uma divisão ocorre onde isso rediziria o peso hessinano em uma quantidade igual ou superior a min_child_weight. Qualquer número positivo ou 0. 1
n_estimators O parâmetro n_estimators é o número de árvores que você deseja criar como parte da floresta. Qualquer número igual ou superior a 1. 100
random_state O parâmetro random_state é a semente aleatória. Ele especifica o número inicial para gerar uma sequência pseudoaleatória. Qualquer número inteiro. 10
subsample O parâmetro subsample é a porcentagem de dados da qual o algoritmo cria uma subamostra aleatoriamente. Qualquer número de 0 a 1. 1
Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.