Ingênua ferramenta de classificador Bayes

A ingênua ferramenta de classificador Bayes cria um modelo de classificação probabilística binomial ou multinomial da relação entre um conjunto de variáveis do preditor e uma variável de destino categórica.  O classificador de Naive Bayes presume que todas as variáveis preditoras são independentes umas das outras e prevê, com base em uma entrada de amostra, uma distribuição probabilística para um conjunto de classes, calculando, assim, a probabilidade de pertencer a cada uma das classes da variável de destino.

Uma das principais vantagens do classificador Bayes ingênuo é que ele executa bem, mesmo com um pequeno conjunto de treinamento.  Essa vantagem deriva do fato de que o classificador Bayes ingênuo é paramaterized pela média e variância de cada variável independente de todas as outras variáveis. Em muitos problemas de classificação de probabilidade máxima, a matriz de covariância é necessária para estimar probabilidades previstas, mas pequenos conjuntos de treinamento podem levar a uma matriz de covariância altamente variável que, por sua vez, pode degradar o desempenho do maxmimum estimador de probabilidade (MLE). Uma vez que o classificador Bayes ingênuo requer apenas o cálculo de variâncias unidimensionais para cada preditor, a matriz de covariância não é necessária e, portanto, o MLE não sofre com os problemas de um pequeno conjunto de treinamento.

O classificador Bayes ingênuo é útil ao tentar categorizar um conjunto de observações de acordo com um alvo "classe" variável, especialmente nos casos em que apenas um pequeno conjunto de treinamento e um pequeno número de preditores são usados.  Usando um conjunto de treinamento inicial, o classificador Bayes ingênuo desenvolve um modelo para prever a probabilidade de que uma determinada observação pertença a cada classe da variável de destino.  

Um exemplo simples seria prever se alguém leasing de um novo veículo vai comprar esse carro no encerramento do contrato de locação com base em ambas as características do veículo ou (por exemplo, pickup/sedan/SUV) e do cliente (por exemplo, sexo, idade, etc.) O classificador Bayes ingênuo permitiria ao usuário "marcar" indivíduos futuros de acordo com o modelo produzido pelo conjunto de treinamento. Este processo de Pontuação resultaria em um conjunto de probabilidades, uma para compra no final do contrato de locação e uma para não compra no final do contrato de locação.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Configure a ferramenta

Parâmetros obrigatórios

  • Nome do modelo: cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
  • Selecione a variável de destino: Selecione o campo do fluxo de dados que deseja prever. Esse destino deve ser um tipo de seqüência de caracteres.
  • Selecione as variáveis do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.
  • As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Suavização de Laplace: escolha um valor positivo como um parâmetro de suavização. O padrão é definido como 0. O recurso de suavização de Laplace permite ao usuário "suavizar" os dados por meio da contabilização de combinações de classe/recurso que podem estar totalmente ausentes do conjunto de treinamento, ou são de outra forma subrepresentadas em freqüência e, portanto, seriam atribuídas uma probabilidade ou seja, zero ou, no mínimo, descaracterizadamente baixo (dependendo das circunstâncias). Isso é útil ao tentar construir um modelo de classificação usando um pequeno conjunto de treinamento que pode não constituir uma amostra suficientemente representativa da população.

Opções de gráficos

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

Visualizar a saída

  • O âncora: objeto. Consiste em uma tabela do modelo serializado com seu nome de modelo.
  • relatório. Consiste nos trechos de relatório gerados pela ferramenta de classificador Bayes ingênuo: um resumo de modelo básico, bem como parcelas de efeito principal para cada classe da variável de destino.

http://en.wikipedia.org/wiki/Naive_Bayes_classifier