Skip to main content

Glossário de machine learning

Real

Valores reais são valores no seu conjunto de dados que indicam a qual categoria uma linha pertence. Por exemplo, se você tiver um conjunto de dados relacionado à rotatividade de clientes, ele pode conter uma coluna de variáveis "Sim" e "Não" que indicam se um cliente voltou ou não. Esses são os valores observados reais que ajudam a treinar seu modelo de machine learning.

Gráfico de valores reais vs. previstos

Um gráfico de valores reais vs. valores previstos traça os valores reais dos seus dados de treinamento em relação aos valores que o modelo prevê para o alvo. Os modelos com pontuações de erro mais baixas contêm pontos de dados em que os valores reais estão mais próximos dos valores previstos.

R² ajustado

O R² ajustado é uma medida normalizada de ajuste que indica o quanto os recursos explicam a variação no alvo. Use essa medida para comparar o quão bem algoritmos de regressão diferentes modelam dados semelhantes. As pontuações variam entre 0 e 1, sendo 1 um ajuste perfeito.

Algoritmo

Um algoritmo é um procedimento que um computador usa para resolver um problema. Seguindo um conjunto de regras, um algoritmo cria um modelo utilizando os dados de treinamento, que contêm um conjunto de recursos. Ao encontrar novos dados, o modelo pode prever um resultado. Floresta aleatória, árvore de decisão e regressão logística são exemplos de algoritmos.

Booleano

Dados booleanos representam valores que podem ser apenas uma de duas coisas, como "Verdadeiro" ou "Falso".

Categórico

Os recursos categóricos contêm um número limitado de valores que representam diferentes categorias, como o status de empréstimo de uma pessoa com os valores "Aprovado", "Negado" e "Nenhum".

Colinearidade

A colinearidade ocorre quando dois ou mais recursos medem a mesma coisa. Nesses casos, você pode ter múltiplos recursos aos quais o modelo atribui peso demais. A colinearidade pode distorcer a medida de importância da permutação.

Considerações sobre a importância da permutação

A importância da permutação é uma maneira eficaz de medir a importância de cada recurso para o modelo. Entretanto, ela tem limitações. É suscetível a problemas de colinearidade, efeitos de interação e valores impossíveis. Examine seus dados com cuidado para garantir que nenhum desses problemas afete seu modelo.

Constante

Se você selecionar essa opção, a Modelagem Assistida lê campos vazios como valores ausentes. Selecione essa opção se você acredita que o algoritmo de modelagem pode encontrar significado nos próprios valores ausentes, já que às vezes é possível encontrar padrões na ausência de dados. Você também pode selecionar essa opção se acredita que outros métodos de tratamento de dados ausentes poderiam causar um viés no seu modelo.

Descartar recurso

Se você selecionar essa opção, a Modelagem Assistida não usará o recurso em questão como parte do modelo. Selecione essa opção quando seu conjunto de dados contiver muitos valores ausentes.

Recurso

Os recursos são as variáveis independentes, ou seja, conjuntos mensuráveis de valores que podem ser utilizados para prever a variável-alvo. Um modelo normalmente tem vários recursos de importância variável. Para um problema de regressão, como tentar prever o preço de uma ação, o conjunto de recursos pode ser o preço inicial diário, o preço final e o número de transações. Para um problema de classificação, como tentar prever a qual espécie de lírio uma flor pertence, os recursos podem ser o comprimento e a largura das sépalas e pétalas.

Importância dos recursos

A Modelagem Assistida usa o método de importância da permutação para medir a importância de cada recurso para o modelo avaliando os recursos em relação a um conjunto de dados de teste. Use essa medida para determinar quais recursos são mais importantes para o seu modelo. Também é possível usar essa medida para identificar recursos que poderiam pôr seu modelo em risco de erro de generalização por meio de uma associação muito fraca ou muito forte com o alvo.

Gini

A impureza de Gini é uma medida de contribuição do recurso, onde é atribuída a cada recurso uma porcentagem que representa o quanto ele contribui para o modelo preditivo como um todo. A Modelagem Assistida usa essa medida como parte de uma árvore de decisão para selecionar recursos que sejam bons preditores com base em suas contribuições. Use a impureza de Gini para identificar recursos que possam pôr seu modelo em risco de erro de generalização por apresentar uma contribuição muito grande ou muito pequena.

ID

A Modelagem Assistida descarta colunas do tipo ID ao definir os tipos de dados porque não é possível usá-las para prever um alvo. Os dados do tipo ID representam valores únicos e discretos. Esses recursos contêm informações como ID do cliente ou número da transação.

Valor impossível

Um valor impossível pode ser criado quando você usa um método, como a importância da permutação, que embaralha os valores no seu conjunto de dados. Nesses casos, você pode ter linhas de dados que não fazem sentido, como uma instância de uma casa com menos portas do que salas. Valores impossíveis podem distorcer a medida de importância da permutação.

Efeito de interação

Um efeito de interação ocorre quando dois ou mais recursos juntos afetam um alvo muito mais (ou muito menos) do que afetariam de maneira independente. Nesses casos, você pode ter recursos com efeitos superestimados ou subestimados sobre o alvo. Os efeitos de interação podem distorcer a medida de importância da permutação.

MAE

O erro absoluto médio (MAE) é uma medida do quão bem o modelo de regressão se ajusta aos dados. O MAE é semelhante à raiz do erro quadrático médio, mas tende a ser menos influenciado por outliers. Pontuações mais altas indicam erro maior e ajuste pior; pontuações de 0 indicam nenhum erro e ajuste perfeito.

Erro máximo

O erro máximo é uma medida da maior diferença entre os valores previstos e reais. Use essa medida para inferir o pior cenário para seu modelo de regressão. Pontuações mais altas indicam erro maior; pontuações de 0 indicam nenhum erro e ajuste perfeito.

Média

Se você selecionar essa opção, a Modelagem Assistida substitui os valores ausentes pela soma de todas as linhas de um recurso dividida pelo número total de linhas. Utilize esse método somente para dados numéricos. Essa opção é recomendada quando seus dados têm distribuição normal e não apresentam outliers.

Mediana

Se você selecionar essa opção, a Modelagem Assistida substitui os valores ausentes pelo número que representa o ponto médio na distribuição do seu recurso. Essa opção é recomendada quando seus dados são assimétricos ou apresentam outliers.

Moda

Se você selecionar essa opção, a Modelagem Assistida substitui os valores ausentes pelo número que ocorre com mais frequência. Essa opção é recomendada quando um recurso contém valores categóricos e você não deseja descartá-lo. Você também pode utilizar a moda para preencher valores numéricos ausentes.

Recurso insignificante

Trata-se de um recurso no qual o modelo não se baseia para prever o alvo. Considere a possibilidade de descartar esse recurso para reduzir a complexidade do modelo.

Numérico

Os recursos numéricos contêm números reais, como 1, 3,14 e 100.

OLS

O método de mínimos quadrados ordinários (OLS) é uma medida de ajuste, útil para determinar a variância de um recurso. A Modelagem Assistida usa essa medida para avaliar a força da associação de um recurso à variável-alvo. Use OLS para identificar recursos que possam pôr seu modelo em risco de erro de generalização por meio de uma associação muito fraca ou muito forte com o alvo.

Previsto

Valores previstos são valores que um algoritmo atribui a linhas com base nas tendências encontradas nos recursos que você forneceu. Por exemplo, se você tiver um conjunto de dados relacionado à rotatividade de clientes, o algoritmo pode prever que "Sim" (um cliente será perdido) ou "Não" (um cliente não será perdido).

Resíduo

Um resíduo é a diferença entre um valor observado e um valor previsto para o alvo. Os resíduos podem ser positivos ou negativos. Use os resíduos para avaliar o quão bem um modelo se ajusta aos dados de treinamento e de que maneira ele difere.

Comparação de resíduos

Esse gráfico compara os resíduos gerados pelos algoritmos de regressão. Nele, os resíduos são absolutos, passam por transformação logarítmica e são ordenados, de modo que 0 indica nenhum erro e valores mais altos indicam um erro maior. Use o gráfico de comparação de resíduos para avaliar o quão bem modelos diferentes se ajustam aos dados de treinamento.

RMSE

A raiz do erro quadrático médio (RMSE) é uma medida do quão bem o modelo de regressão se ajusta aos dados. Use a RMSE para comparar o quão bem algoritmos de regressão diferentes modelam dados semelhantes. Pontuações mais altas indicam erro maior e ajuste pior; pontuações de 0 indicam nenhum erro e ajuste perfeito.