Herramienta Máquina de soporte vectorial

Ejemplo de cada herramienta

La herramienta Máquina de soporte vectorial tiene un ejemplo de uso. Consulta Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

Las Máquinas de Soporte Vectorial (SVM) o Redes de Soporte Vectorial (SVN) son un conjunto conocido de algoritmos de aprendizaje supervisados que se desarrollaron originalmente para solucionar problemas de clasificación (objetivo categórico) y que luego abarcaron problemas de regresión (objetivo numérico). Las SVN son populares porque usan la memoria eficientemente, pueden lidiar con una gran cantidad de variables predictivas (aunque pueden proporcionar un ajuste deficiente si el número de predictores excede al del registro de estimaciones) y son versátiles, ya que admiten una gran cantidad de distintas funciones “kernel”.

La idea básica tras el método es encontrar la mejor ecuación de una línea (un predictor), un plano (dos predictores) o un hiperplano (tres o más predictores) que separe al máximo los grupos de filas en diferentes categorías, basándose en una medida de distancia que depende de la variable objetivo. Una función kernel proporciona la medida de distancia que causa que los registros se pongan en el mismo grupo o en diferentes grupos, e implica tomar una función de las variables predictivas para definir la métrica de distancia.

Puedes encontrar un breve video que ilustra cómo funciona esto aquí:

Aquí se ofrece un análisis muy comprensible del tema. La medida en que los grupos se separan según la función kernel que se utiliza se conoce como el margen máximo. Finalmente, es posible que la separación de los grupos no sea perfecta, pero también se puede especificar un parámetro de costos "cost" (que corresponde al costo de poner un registro de estimaciones en el grupo incorrecto).

Esta herramienta utiliza el paquete de R e1071.

Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivas e inicia sesión en el portal de descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.

Conectar una entrada

Conecta un flujo de datos de Alteryx que incluya un campo objetivo de interés, junto con uno o más campos predictores posibles.

Configurar la herramienta

Parámetros obligatorios

Nombre de modelo: cada modelo necesita un nombre para que pueda ser identificado. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.
Selecciona el campo objetivo: selecciona el campo del flujo de datos que quieres predecir.
Selecciona los campos predictores: elige el campo del flujo de datos que crees que esté “causando” cambios en el valor de la variable objetivo. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Elige el Método de Clasificación o Regresión según la variable objetivo que quieres predecir. En general, si la variable objetivo que eliges es de tipo cadena o booleano, lo más probable es que sea un problema de clasificación. Si la variable es de tipo numérico, lo más probable es que sea un problema de regresión.
- Clasificación:
  - Resumen del modelo básico: la llamada de función en R, objetivo, predictores y parámetros relacionados.
  - Rendimiento del modelo:
    Matriz de confusión
    Gráficos de clasificación de SVM
    En el informe se explica cómo interpretar cada medida de evaluación de rendimiento.
- Opciones de clasificación:
  - Clasificación C: optimiza el plano de decisión y permite una cierta cantidad de errores.
  - Clasificación nu: es similar a la clasificación C, pero permite limitar la cantidad de errores mediante la selección del valor de nu.
- Regresión:
  - Resumen del modelo básico: la llamada de función en R, objetivo, predictores y parámetros relacionados.
  - Rendimiento del modelo:
    Error cuadrático medio de raíz
    R cuadrado
    Error absoluto de la media
    Error absoluto de la mediana
    Gráfico de residuales
    Distribución de residuales
    En el informe se explica cómo interpretar cada medida de evaluación de rendimiento.
- Opciones de regresión:
  - Regresión épsilon
  - Regresión nu: es similar a la regresión épsilon, pero permite limitar la cantidad de errores mediante la selección del valor de nu.

Personalización del modelo (opcional)

La sección de personalización del modelo es donde se puede elegir el tipo de kernel y los parámetros relacionados de cada kernel. Selecciona Especificar parámetros del modelo para personalizar el modelo.

El usuario proporciona los parámetros: selecciona esta opción para establecer directamente el conjunto de parámetros necesarios.

Tipo de Kernel: determina la métrica utilizada para medir la separación entre grupos

Lineal: es útil cuando la relación entre las clases y los predictores es una línea simple, un plano o un hiperplano.
- cost: el costo relacionado con la agrupación errónea de un registro. Un costo menor te permite cierto nivel de errores en la formación de grupos de registros con el fin de evitar el sobreajuste.
Polinomial: la distancia se mide mediante una función polinomial de las variables predictivas.
- cost: el costo relacionado con la agrupación errónea de un registro. Un costo menor te permite cierto nivel de errores en la formación de grupos de registros con el fin de evitar el sobreajuste.
- degree: el grado del kernel polinomial. Aumentar el grado del polinomio permite flexibilizar más el margen entre grupos, lo que genera menos errores en la muestra de estimación. Sin embargo, esto causa un sobreajuste del modelo en la muestra de estimación.
- gamma: coeficiente del término de producto interno en el kernel polinomial.
- coef0: término constante de la formulación polinomial.
Radial (predeterminado): apto para datos separables no lineales.
- cost: permite cierto grado de errores en la clasificación para evitar el sobreajuste.
- gamma: coeficiente del término de potencia en el kernel de función de base radial. A mayor gamma, mejor es la característica de espacio y, por lo tanto, hay menos errores en el conjunto de entrenamiento. No obstante, también puede causar un sobreajuste grave.
Sigmoide: se utiliza principalmente como proxy para redes neuronales.
- gamma: define la influencia en el ejemplo de entrenamiento.
- coef0: término constante en el kernel sigmoide.

Parámetros para el ajuste de la máquina: selecciona esta opción para tener un rango de parámetros y encontrar de manera computarizada los mejores parámetros mediante la búsqueda en una cuadrícula de posibles valores. Esto tiene mayor costo computacional y, por lo tanto, demora más tiempo, ya que realiza una validación cruzada de 10 iteraciones con el fin de probar el modelo en diversos valores de parámetros. Sin embargo, es probable que se genere un modelo que se ajuste mejor a los datos.

Los parámetros que se deben seleccionar en este caso son análogos a los del caso de la sección “El usuario proporciona los parámetros”, pero con las siguientes diferencias:

Cantidad de candidatos: la cantidad de valores de los parámetros que el usuario desea probar (el valor predeterminado es 5).
Tipo de kernel (búsqueda de cuadrícula): consulta la sección “El usuario proporciona los parámetros”. El usuario especifica los valores mínimos y máximos de ciertos parámetros. El modelo genera una cantidad de candidatos determinada, que se establece en “Cantidad de candidatos”, y encuentra el mejor mediante una validación cruzada de 10 iteraciones.

Opciones de gráficos

Tamaño del gráfico: configura las dimensiones del ancho y la altura de la cuadrícula resultante, ya sea mediante el uso de pulgadas o centímetros.
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 ppp); 2x (192 ppp); o 3x (288 ppp).
- La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.
- Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.
Tamaño de fuente base: número de puntos de la fuente base utilizada en las cuadrículas generadas por la macro.

Ver la salida

Ancla O: la salida del ancla O consta de una tabla del modelo serializado con el nombre del modelo. Se puede utilizar la herramienta Puntuación y un conjunto de datos de prueba después de obtener la salida de la herramienta Máquina de soporte vectorial.
Ancla R: la salida del ancla R consta de fragmentos de informe generados por la herramienta Máquina de soporte vectorial. El informe difiere si es de clasificación o regresión, ya que tiene distintos métodos de evaluación de rendimiento.