Herramienta de máquina del vector de la ayuda

las máquinas del vector de la ayuda (SVM), o las redes del vector de la ayuda (SVN), son un sistema popular de los algoritmos de aprendizaje supervisados desarrollados originalmente para los problemas de la clasificación (blanco categórico), y último extendido a los problemas de la regresión (blanco numérico). MVS son populares porque son eficientes en la memoria, pueden abordar un gran número de variables predictoras (aunque pueden proporcionar ajustes deficientes si el número de predictores excede el número de registros de estimación), y son versátiles ya que apoyan un gran número de diferentes funciones "kernel".

La idea básica detrás del método es que las variables predictoras son encontrar la mejor ecuación de una línea (un predictor), un plano (dos predictores), o un hiperplano (tres o más predictores) que separa al máximo los grupos de registros, basándose en una medida de distancia , los registros de estimación en diferentes grupos basados en la variable de destino. Una función del núcleo proporciona la medida de distancia que hace que los registros se colocan en los mismos o diferentes grupos, e implica tomar una función de las variables predictoras para definir la métrica de distancia.

Un corto vídeo que ilustra cómo se pueden encontrar aquí, y una discusión muy accesible del tema se puede encontrar aquí. La medida en que los grupos se separan condicionalmente en la función del núcleo utilizado se conoce como el margen máximo. Por último, la separación de los grupos puede no ser perfecta, pero también se puede especificar un parámetro de costo (que es el costo de colocar un registro de estimación en el grupo "incorrecto").

Esta herramienta utiliza el paquete e1071 R.

Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.

Conectar una entrada

Un flujo de datos Alteryx que incluye un campo de interés de destino junto con uno o más campos de predictores posibles.

Configurar la herramienta

Parámetros obligatorios

  • Nombre del modelo: cada modelo necesita un nombre para que posteriormente pueda ser identificado. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
  • Seleccione el campo destino: Seleccione el campo de la secuencia de datos que desea predecir.
  • Seleccione los campos predictor: Elija los campos de la secuencia de datos que cree que "causan" cambios en el valor de la variable de destino.
  • Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • Elija el método de clasificación o regresión basado en la variable de destino que desea predecir. Generalmente, si la variable de destino que elija es de tipo String o Boolean, probablemente sea un problema de clasificación. Si es de tipo numérico, lo más probable es que sea un problema de regresión.
    • Clasificación

      • C-clasificación: optimiza el plano de decisión al tiempo que permite una cierta cantidad de error
      • Nu-clasificación: similar a la C-clasificación, pero permite al usuario limitar la cantidad de error seleccionando el valor de nu.
    • Regresión

      • regresión epsilon
      • Nu regresión: similar a la regresión Epsilon, pero permite al usuario limitar la cantidad de error seleccionando el valor de nu.

Arreglo para requisitos particulares del modelo (opcional)

La sección de personalización del modelo es donde el usuario escoge el tipo de kernel y los parámetros relacionados de cada kernel. Seleccione especificar parámetros de modelo para personalizar el modelo.

El usuario proporciona parámetros: Seleccione para establecer directamente los parámetros necesarios.

Tipode kernel: determina la métrica utilizada para medir la separación entre grupos

  • Lineal: útil cuando la relación entre las clases y los predictores es una línea simple, plano o hiperplano
    • costo: el costo asociado con el desagrupamiento de un registro. Un valor más bajo de coste permite un cierto nivel de error en la formación de grupos de registros con el fin de evitar el sobreajuste.
  • Polinomio: la distancia se mide usando una función polinómica de las variables predictoras
    • costo: el costo asociado con el desagrupamiento de un registro. Un valor más bajo de coste permite un cierto nivel de error en la formación de grupos de registros con el fin de evitar el sobreajuste.
    • grado: grado del núcleo polinómico. El aumento del grado del polinomio permite que el margen entre los grupos sea más flexible, así menos error para la muestra de la estimación. Sin embargo, a costa de sobreajustar el modelo a la muestra de estimación.
    • gamma: coeficiente del término de producto interno en el núcleo polinómico.
    • coef0: el término constante en la formulación polinómica.
  • Radial (por defecto): bueno para datos no linealmente separables.
    • costo: permite cierto error de clasificación para evitar sobreajustes.
    • gamma: coeficiente del término de la energía en el núcleo radial de la función de la base. La gamma más grande es, el más rico el espacio de la característica es, así el menos error para el sistema del entrenamiento; sin embargo, también puede llevar a un mal sobreajuste.
  • Sigmoide: utilizado principalmente como proxy para redes neuronales
    • gamma: define la influencia en el ejemplo de entrenamiento.
    • coef0: el término constante en el núcleo sigmoideo.

Parámetros de la máquina Tunes: Seleccione para proporcionar una gama de parámetros y de cómputo encontrar los mejores parámetros buscando una cuadrícula de valores posibles, que es más costoso computacionalmente y por lo tanto toma más tiempo ya que lleva a cabo una cruz de 10 veces validación para probar el modelo en varios valores de parámetros. Sin embargo, es probable que resulte en un modelo que se adapte mejor a los datos.

Los parámetros que se deben seleccionar en este caso son análogos a los del caso de la sección "usuario proporciona parámetros", pero con las siguientes diferencias:

  • Número de candidatos: cuántos valores de los parámetros el usuario desea probar (defecto: 5)
  • Tipo de kernel (búsqueda de cuadrícula): Consulte la sección "parámetros del usuario". El usuario especifica los valores mínimos y máximos de ciertos parámetros. El modelo generará cierto número de candidatos establecidos en "número de candidatos" y encontrará el mejor utilizando una validación cruzada de 10 veces.

Opciones de gráficos

  • Tamaño de la parcela: defina las dimensiones de anchura y altura de la parcela resultante, utilizando pulgadas o centímetros.
  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.

  • Tamaño de fuente base: número de puntos de la fuente base utilizada en las parcelas producidas por la macro

Ver la salida

  • O ancla: la salida "o" consiste en una tabla del modelo serializado con su nombre de modelo. Se puede usar una herramienta de puntuación y un DataSet de prueba después de obtener la salida de la herramienta SVM.
  • R ancla: la salida "r" consiste en los fragmentos de informe generados por la herramienta de máquina de vectores de soporte. El informe es diferente para la clasificación y la regresión, ya que tienen diferentes métodos de evaluación del desempeño.