Ferramenta da máquina do vetor da sustentação

Suporte máquinas vetoriais (SVM), ou suporte a redes vetoriais (SVN), são um conjunto popular de algoritmos de aprendizado supervisionado originalmente desenvolvido para a classificação (alvo categórico) problemas, e tardia estendida para regressão (alvo numérico) problemas. SVMs são populares porque são de memória eficiente, pode abordar um grande número de variáveis do preditor (embora eles podem fornecer ajustes pobres se o número de preditores exceder o número de registros de estimativa), e são versáteis, uma vez que suportam um grande número de diferentes "kernel" funções.

A idéia básica por trás do método é para as variáveis do preditor são para encontrar a melhor equação de uma linha (um preditor), um plano (dois preditores), ou um hiperplano (três ou mais preditores) que separa maximamente os grupos de registros, com base em uma medida de distância , os registros de estimativa em diferentes grupos com base na variável de destino. Uma função do kernel fornece a medida de distância que faz com que os registros sejam colocados nos mesmos ou grupos diferentes, e envolve a tomada de uma função das variáveis do preditor para definir a métrica de distância.

Um pequeno vídeo que ilustra como isso funciona pode ser encontrado aqui, e uma discussão muito acessível do tópico pode ser encontrada aqui. A extensão que os grupos são separados condicionam a função do kernel utilizada é conhecida como a margem máxima. Finalmente, a separação dos grupos pode não ser perfeita, mas um parâmetro de custo (que é o custo de colocar um registro de estimativa no grupo "errado") também pode ser especificado.

Esta ferramenta utiliza o pacote e1071 R.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Conecte uma entrada

Um fluxo de dados Alteryx que inclui um campo de destino de interesse junto com um ou mais possíveis campos de previsão.

Configure a ferramenta

Parâmetros obrigatórios

  • Nomedo modelo: cada modelo precisa de um nome para que possa ser identificado posteriormente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
  • Selecione o campo de destino: Selecione o campo do fluxo de dados que deseja prever.
  • Selecione os campos do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.
  • As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Escolha o método de classificação ou regressão com base na variável de destino que deseja prever. Geralmente, se a variável de destino escolhida for String ou Boolean Type, provavelmente será um problema de classificação. Se é tipo numérico, as possibilidades são ele são um problema da regressão.
    • Classificação

      • C-classificação: otimiza o plano de decisão, permitindo uma certa quantidade de erro
      • nu-classificação: semelhante à classificação C, mas permite ao usuário limitar a quantidade de erro, selecionando o valor de nu.
    • Regressão

      • regressão epsilon
      • nu regressão: semelhante à regressão Epsilon, mas permite ao usuário limitar a quantidade de erro, selecionando o valor de nu.

Personalização de modelo (opcional)

A seção de personalização do modelo é onde o usuário escolhe o tipo de kernel e os parâmetros relacionados de cada kernel. Selecione especificar parâmetros de modelo para personalizar o modelo.

O usuário fornece parâmetros: Selecione para definir diretamente os parâmetros necessários.

Tipode kernel: determina a métrica usada para medir a separação entre grupos

  • Linear: útil quando a relação entre as classes e os preditores é uma linha simples, plano ou hiperplano
    • custo: o custo associado ao mis-agrupamento de um registro. Menor valor de custo permite um certo nível de erro na formação de grupos de registros, a fim de evitar a supermontagem.
  • Polinômio: a distância é medida usando uma função polinomial das variáveis do preditor
    • custo: o custo associado ao mis-agrupamento de um registro. Menor valor de custo permite um certo nível de erro na formação de grupos de registros, a fim de evitar a supermontagem.
    • grau: grau do kernel polinomial. Aumentar o grau do polinômio permite que a margem entre os grupos seja mais flexível, assim menos erro para a amostra de estimativa. No entanto, ao custo de encaixar o modelo para a amostra de estimativa.
    • Gamma: coeficiente do termo do produto interno no kernel polinomial.
    • coef0: o termo constante na formulação polinomial.
  • Radial (padrão): bom para dados não linearmente separáveis.
    • custo: permite que um certo erro de classificação Evite a supermontagem.
    • Gamma: coeficiente do termo da potência no kernel da função da base radial. O Gamma maior é, mais rico o espaço da característica é, assim o menos erro para o jogo do treinamento; no entanto, também pode levar a um mau encaixe.
  • Sigmóide: usado principalmente como um proxy para redes neurais
    • Gamma: define a influência no exemplo de treinamento.
    • coef0: o termo constante no kernel sigmóide.

Parâmetros da máquina Tunes: Selecione para fornecer uma gama de parâmetros e computacionalmente encontrar os melhores parâmetros, pesquisando uma grade de valores possíveis, que é mais caro computacionalmente e, portanto, leva mais tempo, uma vez que realiza uma cruz de 10 vezes validação para testar o modelo em vários valores de parâmetro. No entanto, é provável que resulte em um modelo que melhor se adapte aos dados.

Os parâmetros precisam ser selecionados neste caso são análogos àqueles para o caso de "User fornece parâmetros" seção, mas com as seguintes diferenças:

  • Número de candidatos: quantos valores dos parâmetros que o usuário deseja testar (padrão: 5)
  • Tipo de kernel (pesquisa de grade): consulte a seção "User fornece parâmetros". O usuário especifica os valores min e Max de determinados parâmetros. O modelo irá gerar um certo número de candidatos estabelecidos em "número de candidatos" e encontrar o melhor usando uma validação de 10 vezes Cruz.

Opções de gráficos

  • Tamanho da plotagem: defina as dimensões de largura e altura da parcela resultante, usando polegadas ou centímetros.
  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

  • Tamanho da fonte base: o número de pontos da fonte base usada nas plotagens produzidas pela macro

Visualizar a saída

  • O Anchor: a saída "o" consiste em uma tabela do modelo serializado com seu nome de modelo. Uma ferramenta de Pontuação e um conjunto de dados de teste podem ser usados após obter a saída da ferramenta SVM.
  • R âncora: a saída "r" consiste nos trechos de relatório gerados pela ferramenta de máquina de vetor de suporte. O relatório é diferente para classificação e regressão, uma vez que têm diferentes métodos de avaliação de desempenho.