Modelagem Assistida
Use a opção Assistido para obter ajuda enquanto cria os modelos de machine learning. Essa opção é um guia passo a passo de todo o processo, que inclui selecionar o alvo (variável dependente) e o método de machine learning, definir os tipos de dados, limpar valores ausentes, escolher os recursos (variáveis independentes) e selecionar o algoritmo mais adequado. Se você não tem certeza de qual algoritmo é o melhor, a Modelagem Assistida permite que você os compare em um quadro de liderança. Depois, é possível adicionar à tela do Designer um pipeline que contém todas as ferramentas de Machine Learning que você usou para treinar o modelo.
Importante
Antes de usar a Modelagem Assistida, é necessário usar a Ferramenta Dados de Entrada para trazer seus dados para o Designer e conectá-los à ferramenta Modelagem Assistida. Depois de clicar em Executar , você pode selecionar Iniciar Modelagem Assistida na janela de configuração.
1. Selecionar alvo e método de machine learning
Selecione uma variável-alvo e deixe que a Modelagem Assistida escolha o método de machine learning mais adequado para prever esse alvo.
Na seção Alvos disponíveis , são listados os nomes das variáveis no conjunto de dados. Selecione a variável que você deseja definir como o alvo.
A ferramenta Modelagem Assistida detecta automaticamente se o alvo contém dados categóricos ou numéricos e seleciona o método de machine learning apropriado.
Clique em Próximo para ir para a Etapa 2: Selecionar nível de automação .
Importante
A Modelagem Assistida certifica-se de que você escolheu a variável-alvo correta antes de passar para a próxima etapa. Depois disso, não é mais possível mudar o alvo sem reiniciar todo o processo. Selecione Continuar se você escolheu o alvo correto.
2. Selecionar nível de automação
Selecione se prefere que a ferramenta Modelagem Assistida construa o pipeline de machine learning para você ou o guie pelo processo passo a passo.
Selecione a opção Passo a passo ou Automático .
Clique em Próximo .
Se você escolher Passo a passo , a Modelagem Assistida segue para a Etapa 3: Definir tipos de dados .
Se você escolher Automático , a ferramenta Modelagem Assistida percorre automaticamente as etapas para construir o pipeline de machine learning: ela define os tipos de dados, limpa valores ausentes e seleciona os recursos e algoritmos. Quando a ferramenta conclui o processo, você pode visualizar os resultados no quadro de liderança.
3. Definir tipos de dados
A Modelagem Assistida define o tipo de dados para cada recurso. O tipo de dados recomendado é exibido na coluna Tipo de dados . A opção recomendada fica assinalada (por exemplo, Numérico (recomendado) ).
Selecione um recurso para visualizar informações sobre ele na seção Detalhes da coluna . Lá, você pode ver as Probabilidades para os tipos de dados , que exibe o nível de confiança da Modelagem Assistida de que um recurso é de um determinado tipo de dados. Você também tem acesso a uma Pré-visualização que contém uma amostra dos dados. Use essa informação para certificar-se de que os tipos de dados estejam sendo definidos corretamente.
Se um recurso estiver classificado com o tipo de dado errado, use o menu suspenso na coluna Tipo de dados para selecionar o tipo correto.
Clique em Próximo para ir para a Etapa 4: Limpar valores ausentes .
Dica
Se você não tem certeza do que um termo significa, verifique a seção Glossário da Modelagem Assistida. Essa seção contém informações úteis sobre muitos termos comuns usados em ciência de dados.
4. Limpar valores ausentes
A Modelagem Assistida limpa os valores ausentes nos dados. Para cada recurso que contenha valores ausentes, ela exibe um método recomendado para a limpeza na coluna Método . A opção recomendada fica assinalada (por exemplo, Substituir pela mediana (recomendado) ).
Selecione um recurso para visualizar informações sobre ele na seção Detalhes da coluna . Lá, você pode ver o Método de Limpeza e uma explicação do porquê a Modelagem Assistida escolheu aquele método para limpar os dados ausentes. Você também tem acesso a uma Pré-visualização que contém uma amostra dos dados. Use essa informação para certificar-se de que está escolhendo o método correto para lidar com os valores ausentes.
Se você quiser aplicar um método de limpeza diferente, use o menu suspenso na coluna Método para selecionar a opção mais adequada.
Clique em Próximo para ir para a Etapa 5: Selecionar recursos .
5. Selecionar recursos
A Modelagem Assistida seleciona quais recursos resultam no melhor modelo. Ela avalia se cada recurso é uma boa variável preditora na coluna Informações do recurso .
Selecione um recurso para visualizar informações sobre ele na seção Detalhes da coluna . Lá, você pode ver a subseção Detalhes do preditor , que fornece duas medidas de desempenho do recurso: Gini e GKT. A Modelagem Assistida usa essas duas medidas para determinar se um recurso apresenta uma associação forte ou fraca com o alvo. Você também tem acesso a uma Pré-visualização que contém uma amostra dos dados. Use essa informação para certificar-se de que os recursos são boas variáveis preditoras.
Se você não quiser usar um recurso, desmarque a caixa de seleção ao lado do nome desse recurso.
Clique em Próximo para ir para a Etapa 6: Selecionar algoritmos .
6. Selecionar algoritmos
A Modelagem Assistida oferece uma variedade de algoritmos para você escolher. Ela recomenda diferentes algoritmos dependendo do tipo de problema que você quer resolver. Nessa etapa, você seleciona quais algoritmos deseja avaliar no quadro de liderança.
Um cartão para cada algoritmo exibe os prós e contras, uma descrição e alguns casos de uso. Use essas informações para certificar-se de que você deseja avaliar aquele algoritmo.
Para variáveis categóricas, a ferramenta tem quatro algoritmos disponíveis:
Regressão Logística
Árvore de Decisão
Floresta Aleatória
XGBoost
Para variáveis contínuas (numéricas), a ferramenta tem três algoritmos disponíveis:
Regressão Linear
Árvore de Decisão
Floresta Aleatória
Para avaliar um algoritmo, marque a caixa de seleção ao lado do nome dele. Se você não quiser avaliar um algoritmo, desmarque a caixa.
Clique em Executar algoritmos selecionados .
Quadro de liderança
A modelagem assistida gera um quadro de liderança, que você pode usar para comparar o desempenho dos algoritmos selecionados.
O quadro de liderança muda dependendo do tipo de problema que você está resolvendo, mas aqui estão os fundamentos de como navegar a interface:
Para ver informações específicas sobre um algoritmo, selecione seu cartão na seção Quadro de liderança .
Para ver uma comparação de desempenho entre os algoritmos, selecione a guia Comparação .
Para ver informações sobre o desempenho individual de um algoritmo, selecione a guia Visão Geral .
Para ver quais são os recursos mais valorizados por cada algoritmo, selecione a guia Interpretação .
Para lembrar-se das escolhas que você fez ao longo do processo de Modelagem Assistida, selecione a guia Configuração .
Para recomeçar a Modelagem Assistida, mas manter as informações que estão no quadro de liderança, selecione Criar novo modelo .
Para mostrar ou ocultar o quadro de liderança, selecione Ocultar quadro de liderança ou Exibir quadro de liderança .
Depois de determinar quais algoritmos têm melhor desempenho, você pode selecionar quais deles você deseja adicionar à tela do Designer como parte do pipeline de machine learning que treina o modelo:
Marque a caixa de seleção ao lado do nome do algoritmo que você deseja adicionar à tela. Você verá uma contagem de quantos algoritmos foram selecionados.
Clique em Adicionar modelos e seguir para o fluxo de trabalho .
Você pode exportar um relatório com os resultados do modelo.
Selecione o menu de 3 pontos.
No menu suspenso, selecione Exportar relatório HTML .
Selecione onde deseja salvar o relatório usando o explorador de arquivos.
Você também pode exportar o código do pipeline de machine learning para um Jupyter Notebook em uma Python Tool.
Selecione o menu de três pontos.
No menu suspenso, selecione Exportar modelo para o Python .
Quando você sai da janela Modelagem Assistida, uma ferramenta Python aparece no fluxo de trabalho. Ela contém um Jupyter Notebook com anotações e todo o código para o pipeline de machine learning.