Herramienta de red neural
La herramienta de red neuronal crea un modelo de red neural feedforward Perceptrón con una sola capa oculta. Las neuronas en la capa oculta utilizan una función de activación logística (también conocida como sigmoide), y la función de activación de salida depende de la naturaleza del campo de destino. Específicamente, para problemas de clasificación binaria (por ejemplo, la probabilidad que un cliente compra o no compra), la función de activación de salida utilizada es logística, para problemas de clasificación multinomiales (por ejemplo, la probabilidad de que un cliente elija la opción a, B o C) el la función de activación de salida utilizada es softmax, para problemas de regresión (donde el objetivo es un campo numérico continuo) se utiliza una función de activación lineal para la salida.
Las redes neuronales representan el primer algoritmo de aprendizaje de máquinas (a diferencia de los enfoques estadísticos tradicionales) para el modelado predictivo. La motivación detrás del método es imitar la estructura de las neuronas en el cerebro (de ahí el nombre del método). La estructura básica de una red neuronal implica un conjunto de entradas (campos predictor) que se alimentan en una o más capas "ocultas", con cada capa oculta que tiene uno o más "nodos" (también conocidos como "neuronas").
En la primera capa oculta, las entradas se combinan linealmente (con un peso asignado a cada entrada en cada nodo), y se aplica una "función de activación" a la combinación lineal ponderada de los predictores. En la segunda y subsecuentes capas ocultas, la salida de los nodos de la capa oculta anterior se combina linealmente en cada nodo de la capa oculta (de nuevo con los pesos asignados a cada nodo de la capa oculta anterior), y se aplica una función de activación a la combinación lineal ponderada. Finalmente, los resultados de los nodos de la capa oculta final se combinan en una capa de salida final que utiliza una función de activación consistente con el tipo de destino.
La estimación (o "aprendizaje" en el vocabulario de la literatura de la red neuronal) implica encontrar el conjunto de pesos para cada entrada o valores de nodo de capa anterior que minimicen la función objetiva del modelo. En el caso de un campo numérico continuo esto significa minimizar la suma de los errores cuadrados de la predicción del modelo final en comparación con los valores reales, mientras que las redes de clasificación intentan minimizar una medida de entropía tanto para los binarios como para los multinomiales problemas de clasificación. Como se indicó anteriormente, la herramienta de red neuronal (que se basa en el paquete R nnet), sólo permite una sola capa oculta (que puede tener un número arbitrario de nodos), y siempre utiliza una función de transferencia logística en los nodos de capa oculta. A pesar de estas limitaciones, nuestra investigación indica que el paquete nnet es el paquete de red neural más robusto disponible en R en este momento.
Si bien los métodos de aprendizaje estadístico más modernos (como los modelos producidos por las herramientas de modelado, bosque, y spline) suelen proporcionar una mayor eficacia predictiva en relación con los modelos de red neural, en algunas aplicaciones específicas (que no pueden determinarse antes del hecho), los modelos de red neural superan a otros métodos para los modelos de clasificación y regresión. Además, en algunas áreas, como en la evaluación de riesgos financieros, los modelos de redes neurales se consideran un método "estándar" que es ampliamente aceptado.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.
Configurar la herramienta
Parámetros obligatorios
- Nombre del modelo: cada modelo debe recibir un nombre para poder identificarlo posteriormente. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
- Seleccione la variable de destino: Seleccione el campo de la secuencia de datos que desea predecir. Este objetivo debe ser de tipo String.
- Seleccione las variables predictoras: Elija los campos de la secuencia de datos que cree que "causan" cambios en el valor de la variable de destino.
- Utilice pesos de muestreo en la estimación del modelo (opcional): haga clic en la casilla de verificación y, a continuación, seleccione un campo de peso de la secuencia de datos para estimar un modelo que utilice el peso de muestreo.
- Número de nodos en la capa oculta: número de nodos (neuronas) en la única capa oculta del modelo. El valor predeterminado es diez.
- Incluir parcelas de efectos: si se comprueba, se producirán las gráficas de efectos que muestran gráficamente la relación entre la variable predictora y el destino, haciendo un promedio sobre el efecto de otros campos predictores. El número de parcelas a producir está controlado por "el nivel mínimo de importancia de un campo que se incluirá en las parcelas", lo que indica el porcentaje de la potencia predictiva total del modelo que un campo particular debe aportar al modelo para tener un marginal EF Perfect parcela producida para ese campo. Cuanto mayor sea el valor de esta selección, se reduce el número de parcelas de efectos marginales producidas.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Personalización del modelo
- Escalado/normalización personalizada...: los métodos numéricos subyacentes a la optimización de los pesos del modelo pueden ser problemáticos si las entradas (campos predictores) se encuentran en diferentes escalas (por ejemplo, ingresos que oscilan entre 7000 y 1 millón combinados con el número de miembros presentes en el hogar que van del uno al siete).
- Ninguno: predeterminado.
- Z-score: todos los campos predictores se escalan para que tengan una media de cero y una desviación estándar de uno.
- Intervalo de unidad: todos los campos predictores se escalan para que tengan un valor mínimo de cero y un valor máximo de uno, con todos los demás valores entre cero y uno.
- Cero centrado: todos los campos predictores se escalan de forma que tengan un valor mínimo de uno negativo y un valor máximo de uno, con todos los demás valores entre uno negativo y otro positivo).
- La caída del peso: el peso de decaimiento limita el movimiento en los nuevos valores del peso en cada iteración (también llamada "época") del proceso de la estimación. El valor del peso de decaimiento debe estar entre cero y uno, valores más grandes ponen una restricción más grande de los movimientos posibles de los pesos. En general, un valor de decaimiento de peso entre 0,01 y 0,2 a menudo funciona bien.
- El rango +/-de los pesos iniciales (aleatorios) alrededor de cero: los pesos dados a las variables de entrada en cada nodo oculto se inicializan usando números aleatorios. Esta opción permite al usuario establecer el rango de los números aleatorios utilizados. Generalmente, los valores deben estar cerca de 0,5. Sin embargo, los valores más pequeños pueden ser mejores si todas las variables de entrada son de tamaño grande. Un valor de 0 es en realidad un valor especial que hace que la herramienta encuentre un buen valor, dado los datos de entrada.
- El número máximo de pesos permitidos en el modelo: esta opción se vuelve relevante cuando hay un gran número de campos y nodos predictores en la capa oculta. La reducción del número de pesos acelera la estimación del modelo, y también reduce la posibilidad de que el algoritmo encuentre un óptimo local (en lugar de un óptimo global) para los pesos. Los pesos excluidos del modelo se establecen implícitamente en cero.
- Número máximo de iteraciones para la estimación del modelo: este valor controla el número de intentos que puede realizar el algoritmo al intentar encontrar mejoras en el conjunto de pesos del modelo en relación con el conjunto anterior de pesos. Si no se encuentran mejoras en los pesos antes del número máximo de iteraciones, el algoritmo terminará y devolverá el mejor conjunto de pesos. Esta opción se omite en 100 iteraciones. En general, dado el comportamiento del algoritmo, es probable que tenga sentido aumentar este valor si es necesario, a costa de alargar el tiempo de ejecución para la creación del modelo.
Opciones de gráficos
- Tamaño de la parcela: seleccione pulgadas o centímetros para el tamaño del gráfico.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
- Tamaño de fuente base (puntos): seleccione el tamaño de la fuente en el gráfico.
Ver la salida
- O ancla: Object. Consiste en una tabla del modelo serializado con su nombre de modelo.
- R ancla: informe. Consiste en los fragmentos de informe generados por la herramienta de red neuronal: un resumen de modelo básico, así como las gráficas de efectos principales para cada clase de la variable de destino.