Herramienta clasificadora de Bayes ingenua

La herramienta clasificadora de Bayes ingenua crea un modelo de clasificación probabilística binomial o multinomial de la relación entre un conjunto de variables predictoras y una variable de destino categórica.  El Clasificador bayesiano simple asume que todas las variables predictoras son independientes entre sí y predice, sobre la base de una entrada de muestra, una distribución de probabilidades en un conjunto de clases; por lo que calcula la probabilidad de pertenecer a cada clase que tiene la variable de destino.

Una de las principales ventajas del clasificador de Bayes ingenuo es que funciona bien incluso con un pequeño conjunto de entrenamiento.  Esta ventaja deriva del hecho de que el clasificador de Bayes ingenuo es paramated por la media y varianza de cada variable independiente de todas las demás variables. En muchos problemas de clasificación de máxima verosimilitud, la matriz de covarianza es necesaria para estimar las probabilidades predichas, pero los pequeños conjuntos de entrenamiento pueden llevar a una matriz de covarianza altamente variable que, a su vez, puede degradar el rendimiento del maxmimum estimador de verosimilitudes (MLE). Dado que el clasificador de Bayes Ingenuo sólo requiere el cálculo de varianzas unidimensionales para cada predictor, la matriz de covarianza no es necesaria y por lo tanto el MLE no sufre de los problemas de un pequeño conjunto de entrenamiento.

El clasificador de Bayes ingenuo es útil cuando se trata de categorizar un conjunto de observaciones según una variable de "clase" de destino, particularmente en los casos en que sólo se utiliza un pequeño conjunto de entrenamiento y un pequeño número de predictores.  Utilizando un conjunto de entrenamiento inicial, el clasificador de Bayes Ingenuo desarrolla un modelo para predecir la probabilidad de que una determinada observación pertenezca a cada clase de la variable de destino.  

Un ejemplo simple sería predecir si alguien que arrienda un vehículo nuevo comprará ese coche en la terminación del arriendo basado en las características del vehículo o (e.g., recolección/sedán/SUV) y el cliente (e.g., género, edad, etc.). El clasificador de Bayes Ingenuo permitiría al usuario "anotar" futuros individuos según el modelo producido por el sistema de entrenamiento. Este proceso de puntuación resultaría en un conjunto de probabilidades, una para la compra al final del contrato de arrendamiento y otra para no comprar al final del contrato de arrendamiento.

Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.

Configurar la herramienta

Parámetros obligatorios

  • Nombre del modelo: cada modelo debe recibir un nombre para poder identificarlo posteriormente. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
  • Seleccione la variable de destino: Seleccione el campo de la secuencia de datos que desea predecir. Este objetivo debe ser de tipo String.
  • Seleccione las variables predictoras: Elija los campos de la secuencia de datos que cree que "causan" cambios en el valor de la variable de destino.
  • Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • Suavizado de Laplace: Elija un valor positivo como parámetro de suavizado. El valor predeterminado se establece en 0. La función de suavizado de Laplace permite al usuario "suavizar" los datos mediante la contabilidad de combinaciones de clases/características que pueden estar completamente ausentes del conjunto de entrenamiento, o que de otra manera están subrepresentadas en frecuencia y por lo tanto se les asigna una probabilidad eso es cero o, como mínimo, poco característico bajo (dependiendo de las circunstancias). Esto es útil cuando se intenta construir un modelo de clasificación utilizando un pequeño conjunto de formación que puede no constituir una muestra suficientemente representativa de la población.

Opciones de gráficos

  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.

Ver la salida

  • O ancla: Object. Consiste en una tabla del modelo serializado con su nombre de modelo.
  • R ancla: informe. Consta de los fragmentos de informe generados por la herramienta clasificador de Bayes Ingenuo: un resumen de modelo básico, así como las gráficas de efectos principales para cada clase de la variable de destino.

http://en.wikipedia.org/wiki/Naive_Bayes_classifier