Skip to main content

Support Vector Machine Tool Icon Ferramenta Máquina de Vetores de Suporte

Fluxo de trabalho de exemplo

A ferramenta Máquina de Vetores de Suporte tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.

As máquinas de vetores de suporte (SVMs), ou redes de vetores de suporte (SVNs), são um conjunto popular de algoritmos de aprendizado supervisionado originalmente desenvolvido para problemas de classificação (variável-alvo categórica) e mais tarde estendidos para problemas de regressão (variável-alvo numérica). As SVMs são populares porque são eficientes em termos de memória, conseguem lidar com um grande número de variáveis preditoras (embora possam fornecer ajustes inadequados caso o número de preditores exceda o número de registros de treinamento) e são versáteis, uma vez que suportam um grande número de funções diferentes de "kernel".

A ideia básica por trás do método é encontrar a melhor equação de uma linha (um preditor), um plano (dois preditores) ou um hiperplano (três ou mais preditores), que separe ao máximo os grupos de registros em diferentes categorias com base em uma medida de distância, o que depende da variável-alvo. Uma função de kernel fornece a medida de distância que faz com que os registros sejam colocados no mesmo grupo ou em grupos diferentes; isso envolve usar uma função das variáveis preditoras para definir a métrica de distância.

A short video that illustrates how this works can be found

and a very approachable discussion of the topic can be found here. Chamamos de margem máxima a separação condicional dos grupos com base na função de kernel utilizada. A separação dos grupos pode não ser perfeita, mas um parâmetro de custo (que é o custo associado a colocar um registro de treinamento no grupo "errado") pode ser especificado.

Essa ferramenta utiliza o pacote R e1071.

Essa ferramenta utiliza a ferramenta R. Vá para OpçõesBaixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.

Conectar uma entrada

Conecte um fluxo de dados do Alteryx que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.

Configurar a ferramenta

Parâmetros obrigatórios

  • Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Os nomes de modelo devem iniciar com uma letra e podem conter letras, números e os caracteres especiais ponto (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

  • Selecione o campo-alvo: selecione o campo do fluxo de dados que você deseja prever.

  • Selecione os campos preditores: escolha os campos do fluxo de dados que você pressupõe causem alterações no valor da variável-alvo. As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Escolha o método de classificação ou regressão com base na variável-alvo que você deseja prever. Normalmente, quando a variável-alvo escolhida é uma cadeia de caracteres ou um valor booleano, este é um problema de classificação. Se a variável for um valor numérico, há mais chances de ser um problema de regressão.

    • Classificação:

      • Um resumo básico do modelo: a chamada de função no R, a variável-alvo, os preditores e parâmetros relacionados.

      • Desempenho do modelo:

        • Uma matriz de confusão

        • Os diagramas de classificação da SVM

        • O relatório que explica como interpretar cada medida de avaliação do desempenho.

    • Opções de classificação:

      • Classificação C: otimiza o plano de decisão e permite certo nível de erro.

      • Classificação nu: é semelhante à classificação C, mas possibilita limitar o erro selecionando O valor de nu.

    • Regressão:

      • Um resumo básico do modelo: a chamada de função no R, a variável-alvo, os preditores e parâmetros relacionados.

      • Desempenho do modelo:

        • Raiz do erro quadrático médio

        • R-quadrado

        • Erro absoluto médio

        • Erro absoluto mediano

        • Gráfico de resíduos

        • Distribuição de resíduos

        • O relatório que explica como interpretar cada medida de avaliação do desempenho.

    • Opções de regressão:

      • Regressão épsilon

      • Regressão nu: é semelhante à regressão épsilon, mas possibilita limitar o erro selecionando O valor de nu.

Personalização do modelo (opcional)

A guia "Personalização do modelo" é onde você escolhe o tipo de kernel e os parâmetros relacionados a cada kernel. Selecione Especificar parâmetros de modelo para personalizar o modelo.

O usuário fornece os parâmetros: selecione essa opção para definir diretamente os parâmetros necessários.

Tipo de kernel: determina a métrica usada para medir a separação entre os grupos.

  • Linear: é útil quando a relação entre as classes e os preditores é uma linha simples, um plano ou um hiperplano.

    • cost: o custo associado ao agrupamento incorreto de um registro. Um valor mais baixo de custo permite certo nível de erro na formação dos grupos de registros para evitar sobreajuste.

  • Polinomial: a distância é medida usando uma função polinomial das variáveis preditoras.

    • cost: o custo associado ao agrupamento incorreto de um registro. Um valor mais baixo de custo permite certo nível de erro na formação dos grupos de registros para evitar sobreajuste.

    • degree: o grau do kernel polinomial. Você pode aumentar o grau para ter uma margem mais flexível entre grupos e, consequentemente, reduzir o erro na amostra de treinamento. No entanto, há o risco de sobreajuste do modelo à amostra.

    • gamma: coeficiente do produto interno no kernel polinomial.

    • coef0: a constante na fórmula polinomial.

  • Radial (padrão): bom para dados que podem ser separados de forma não linear.

    • cost: permite um certo nível de erro na classificação para evitar sobreajuste.

    • gamma: coeficiente de potência no kernel da função de base radial. Quanto maior o valor de gamma, mais rico será o espaço do recurso, portanto, menos erro no conjunto de treinamento; no entanto, isso também pode levar a um grave caso de sobreajuste.

  • Sigmoide: usado principalmente como proxy para redes neurais.

    • gamma: define a influência sobre o exemplo de treinamento.

    • coef0: a constante no kernel sigmoide.

A máquina ajusta os parâmetros: selecione essa opção para fornecer um intervalo de parâmetros e encontrar os melhores valores por meio de computação, pesquisando uma grade de valores possíveis. Esse processo tem um custo computacional maior e leva mais tempo porque realiza uma validação cruzada de 10 partições (folds) para testar o modelo com múltiplos valores de parâmetros. No entanto, ele provavelmente fornecerá um modelo que se ajusta melhor aos dados.

Neste caso, os parâmetros a serem selecionados são análogos aos da seção "O usuário fornece os parâmetros", mas com as seguintes diferenças:

  • Número de candidatos: quantos valores de parâmetros o usuário deseja testar (o padrão é 5).

  • Tipo de kernel (busca em grade): consulte a seção "O usuário fornece os parâmetros". O usuário especifica os valores mínimo e máximo para certos parâmetros. O modelo gera a quantidade de candidatos definida em "Número de candidatos" e encontra o melhor usando uma validação cruzada de 10 partições.

Opções de gráfico

  • Tamanho do gráfico: defina as dimensões de largura e altura do gráfico resultante, usando polegadas ou centímetros.

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

    • Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.

    • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

  • Tamanho da fonte base: o número de pontos da fonte base utilizada nos gráficos gerados pela macro.

Visualizar a saída

  • Âncora O: a saída O consiste em uma tabela do modelo serializado com o nome correspondente. Depois de obter a saída da ferramenta Máquina de Vetores de Suporte, é possível usar uma ferramenta Pontuação com um conjunto de dados de teste.

  • Âncora R: a saída R consiste em fragmentos de relatório gerados pela ferramenta Máquina de Vetores de Suporte. Note que os relatórios de classificação e regressão são diferentes, pois os métodos de avaliação de desempenho não são os mesmos.