Ejemplo de cada herramienta
La Red neuronal tiene un ejemplo de uso de herramienta. Consulta Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.
La herramienta Red neuronal crea un modelo de red neuronal prealimentada perceptrón de una sola capa oculta. Las neuronas de la capa oculta utilizan una función de activación logística (también conocida como sigmoide), y la función de activación de salida depende de la naturaleza del campo objetivo. Específicamente, para problemas de clasificación binaria (por ejemplo, la probabilidad de que un cliente compre o no compre), la función de activación de salida utilizada es logística, para problemas de clasificación multinomial (por ejemplo, la probabilidad de que un cliente elija la opción A, B o C) la función de activación de salida utilizada es softmax, para problemas de regresión (donde el objetivo es un campo numérico continuo) se utiliza una función de activación lineal para la salida.
Las redes neuronales representan el primer algoritmo de aprendizaje automático o machine learning (a diferencia de los enfoques estadísticos tradicionales) para el modelado predictivo. La motivación detrás del método es imitar la estructura de las neuronas en el cerebro (de ahí el nombre del método). La estructura básica de una red neuronal implica un conjunto de entradas (campos predictores) que se alimentan en una o más capas “ocultas”, y cada capa oculta que tiene uno o más “nodos” (también conocidos como “neuronas”).
En la primera capa oculta, las entradas se combinan linealmente (con una ponderación asignada a cada entrada en cada nodo), y una “función de activación” se aplica a la combinación lineal ponderada de los predictores. En la segunda capa oculta y subsiguientes, la salida de los nodos de la capa oculta anterior se combina linealmente en cada nodo de la capa oculta (de nuevo con ponderaciones asignadas a cada nodo de la capa oculta anterior), y una función de activación se aplica a la combinación lineal ponderada. Finalmente, los resultados de los nodos de la capa oculta final se combinan en una capa de salida final que utiliza una función de activación que es congruente con el tipo objetivo.
La estimación (o “aprendizaje” en el vocabulario de la literatura de la red neuronal) implica encontrar el conjunto de ponderaciones para cada entrada o valores de nodo de capa anterior que minimizan la función objetiva del modelo. En el caso de un campo numérico continuo esto significa minimizar la suma de los errores al cuadrado de la predicción del modelo final en comparación con los valores reales, mientras que las redes de clasificación intentan minimizar una medida entrópica para problemas de clasificación binarios y multinomiales. Como se indicó anteriormente, la herramienta de red neuronal (que se basa en el paquete R nnet), solo permite una sola capa oculta (que puede tener un número arbitrario de nodos), y siempre utiliza una función de transferencia logística en los nodos de capa oculta. A pesar de estas limitaciones, nuestra investigación indica que el paquete nnet es el paquete de red neuronal más robusto disponible en R en este momento.
Mientras que los métodos de aprendizaje estadístico más modernos (como los modelos producidos por las herramientas del modelo aumentado, de bosque y de acoplamientos) suelen proporcionar una mayor eficacia predictiva en relación con los modelos de red neuronal, en algunas aplicaciones específicas (que no se pueden determinar antes del hecho), los modelos de red neuronal superan a otros métodos tanto para los modelos de clasificación como de regresión. Además, en algunas áreas, como en la evaluación del riesgo financiero, los modelos de red neuronal se consideran un método “estándar” que es ampliamente aceptado. Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivas e inicia sesión en el portal de descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.
Nombre del modelo: cada modelo debe tener un nombre para su posterior identificación. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.
Selecciona la variable objetivo: selecciona el campo del flujo de datos que deseas predecir. Este objetivo debe ser de tipo cadena.
Selecciona los campos predictores: selecciona los campos del flujo de datos que crees que “causan” los cambios en el valor de la variable objetivo. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
¿Utilizar ponderaciones de muestreo para la estimación del modelo? (opcional): haz clic en la casilla de verificación y, luego, selecciona un campo de ponderación del flujo de datos para estimar un modelo que utilice ponderación de muestreo.
La cantidad de nodos en la capa oculta: el número de nodos (neuronas) en la capa oculta única del modelo. El valor predeterminado es diez.
Incluir gráficos de efecto: si se marca, se producirán gráficos de efecto que muestren gráficamente la relación entre la variable predictora y el objetivo, y se hará un promedio sobre el efecto de otros campos predictores. El número de gráficos por producir está controlado por “el nivel mínimo de importancia de un campo que se debe incluir en los gráficos”, lo que indica el porcentaje del poder predictivo total del modelo que un campo en particular debe aportar al modelo para tener un gráfico de efecto marginal producido para ese campo. Cuanto mayor sea el valor de esta selección, se reducirá el número de gráficos de efectos marginales producidos.
Escalado/normalización personalizados...: los métodos numéricos subyacentes a la optimización de las ponderaciones del modelo pueden ser problemáticos si las entradas (campos predictores) están en diferentes escalas (por ejemplo, ingresos que oscilan entre siete mil y un millón combinados con el número de miembros presentes en el hogar que oscila entre uno y siete).
Ninguno: predeterminado.
Puntuación Z (z-score): todos los campos predictores se escalan de manera que tengan una media de cero y una desviación estándar de uno.
Intervalo de unidades: todos los campos predictores se escalan de manera que tengan un valor mínimo de cero y un valor máximo de uno, con todos los demás valores entre cero y uno.
Centrado a cero: todos los campos predictores se escalan de manera que tengan un valor mínimo de negativo y un valor máximo de uno, con todos los demás valores entre negativo y positivo.
La degradación de las ponderaciones: la degradación de las ponderaciones limita el movimiento en los nuevos valores de ponderación en cada iteración (también llamada “época”) del proceso de estimación. El valor de la ponderación de la degradación debe estar entre cero y uno, valores mayores colocan una mayor restricción de los posibles movimientos de las ponderaciones. En general, un valor de degradación de las ponderaciones de entre 0,01 y 0,2 a menudo funciona bien.
El rango +/- de las ponderaciones iniciales (aleatorias) en torno a cero: las ponderaciones dadas a las variables de entrada en cada nodo oculto se inicializan usando números aleatorios. Esta opción permite al usuario establecer el rango de los números aleatorios utilizados. Generalmente, los valores deben estar cerca de 0,5. Sin embargo, los valores más pequeños pueden ser mejores si todas las variables de entrada son de tamaño grande. Un valor de 0 es en realidad un valor especial que hace que la herramienta encuentre un buen valor compuesto dados los datos de entrada.
El número máximo de ponderaciones permitidas en el modelo: esta opción se vuelve relevante cuando hay un gran número de campos predictores y nodos en la capa oculta. Reducir el número de ponderaciones acelera la estimación del modelo y también reduce la posibilidad de que el algoritmo encuentre un óptimo local (en lugar de un óptimo global) para las ponderaciones. Las ponderaciones excluidas del modelo se establecen implícitamente en cero.
El número máximo de iteraciones para la estimación del modelo: este valor controla el número de intentos que el algoritmo puede hacer al intentar encontrar mejoras en el conjunto de ponderaciones del modelo en relación con el conjunto anterior de ponderaciones. Si no se encuentran mejoras en las ponderaciones antes del número máximo de iteraciones, el algoritmo terminará y devolverá el mejor conjunto de ponderaciones. Esta opción por defecto es de 100 iteraciones. En general, dado el comportamiento del algoritmo, es probable que tenga sentido aumentar este valor si es necesario, a costa de alargar el tiempo de ejecución para la creación del modelo.
Tamaño del gráfico: selecciona pulgadas o centímetros para el tamaño del gráfico.
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 ppp); 2x (192 ppp); o 3x (288 ppp).
La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.
Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.
Tamaño de fuente base (puntos): selecciona el tamaño de la fuente del gráfico.
Ancla O: objeto. Consta de una tabla del modelo serializado con el nombre del modelo.
Ancla R: informe. Consta de los fragmentos de informe generados por la herramienta red neuronal: un resumen básico del modelo, así como gráficos de efectos principales para cada clase de la variable objetivo.