Outil Réseau neural

L’outil Réseau neural crée un modèle de réseau neural de type perceptron unidirectionnel avec une couche masquée unique. Les neurones de la couche masquée utilisent une fonction d’activation logistique (également appelée « sigmoïde »), et la fonction d’activation de sortie dépend de la nature du champ cible. En particulier, pour les problèmes de classification binaire (par exemple, probabilité d’un client d’acheter ou de ne pas acheter), la fonction d’activation de sortie utilisée est logistique. Pour les problèmes de classification multinomiale (par exemple, probabilité qu’un client choisisse l’option A, B ou C), la fonction d’activation de sortie utilisée est softmax. Pour les problèmes de régression (lorsque la cible est un champ numérique continu), une fonction d’activation linéaire est utilisée pour la sortie.

Les réseaux neuraux représentent le premier algorithme d’apprentissage automatique (par opposition aux approches statistiques traditionnelles) pour la modélisation prédictive. Le principe de cette méthode est de reproduire la structure des neurones dans le cerveau (d’où le nom de la méthode). La structure de base d’un réseau neural implique un jeu d’entrées (champs prédicteurs) qui sont transmises à une ou plusieurs couches masquées, chaque couche masquée comportant un ou plusieurs nœuds (également appelés « neurones »).

Dans la première couche masquée, les entrées sont combinées de manière linéaire (une pondération est attribuée à chaque entrée de chaque nœud), et une fonction d’activation est appliquée à la combinaison linéaire pondérée des prédicteurs. Dans la deuxième couche masquée et les couches suivantes, la sortie depuis les nœuds de la couche masquée précédente est combinée de manière linéaire dans chaque nœud de la couche masquée (à nouveau, une pondération est attribuée à chaque nœud de la couche masquée précédente), et une fonction d’activation est appliquée à la combinaison linéaire pondérée. Enfin, les résultats des nœuds de la dernière couche masquée sont combinés dans une dernière couche de sortie qui utilise une fonction d’activation cohérente avec le type cible.

L’estimation (ou « apprentissage » selon la terminologie des réseaux neuraux) implique la recherche du jeu de pondérations pour chaque entrée ou de valeurs de nœuds de la couche précédente qui réduisent au minimum la fonction objective du modèle. Dans le cas d’un champ numérique continu, il s’agit d’une diminution de la somme des erreurs quadratiques de la prédiction du modèle final par rapport aux valeurs réelles, et les réseaux de classification tentent de réduire au minimum une mesure d’entropie pour les problèmes de classification binaire et multinomiale. Comme indiqué ci-dessus, l’outil Réseau neural (qui repose sur le package R nnet) n’autorise qu’une seule couche masquée (qui peut comporter un nombre arbitraire de nœuds), et utilise toujours une fonction de transfert logistique dans les nœuds de couche masquée. Malgré ces limitations, nos recherches démontrent que le package nnet est le meilleur package de réseau neural actuellement disponible dans R.

Les méthodes d’apprentissage statistique plus modernes (comme les modèles générés par les outils Modèle boosté, Modèle de forêt et Modèle Spline) garantissent généralement une meilleure efficacité prédictive par rapport aux modèles de réseau neural. Toutefois, dans certaines applications spécifiques (qui ne peuvent pas être déterminées à l’avance), les modèles de réseau neural surpassent les autres méthodes pour les modèles de classification et de régression. En outre, dans certains domaines, comme l’évaluation des risques financiers, les modèles de réseau neural sont considérés comme une méthode standard largement acceptée.

Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.

Configurer l’outil

Paramètres obligatoires

  • Nom du modèle: chaque modèle doit être donné un nom afin qu'il puisse être identifié ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
  • Sélectionnez la variable cible: sélectionnez le champ dans le flux de données que vous souhaitez prédire. Cette cible doit être de type Chaîne.
  • Sélectionnez les variables prédictives: Choisissez les champs du flux de données que vous croyez «provoquer» les modifications de la valeur de la variable cible.
  • Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.

  • Utiliser les pondérations d'échantillonnage dans l'estimation du modèle (facultatif): cochez la case, puis sélectionnez un champ de poids dans le flux de données pour estimer un modèle qui utilise le poids d'échantillonnage.
  • Nombre de nœuds dans la couche cachée: nombre de nœuds (neurones) dans la couche cachée unique du modèle. Valeur par défaut :
  • Inclure les placettes d'effets: si elle est cochée, les tracés d'effets seront produits qui montrent graphiquement la relation entre la variable Predictor et la cible, en calculant la moyenne sur l'effet d'autres champs prédictifs. Le nombre de tracés à générer est contrôlé par « le niveau d’importance minimum d’un champ à inclure dans les tracés ». Celui-ci indique à quelle hauteur un champ doit contribuer à la capacité prédictive totale du modèle (en pourcentage) afin d’obtenir un tracé de l’effet marginal pour ce champ. Plus la valeur est élevée pour cette sélection, moins le nombre des tracés d’effets marginaux produits est faible.

Personnalisation du modèle

  • Mise à l'échelle/normalisation personnalisée...: les méthodes numériques qui sous-tendent l'optimisation des poids du modèle peuvent être problématiques si les intrants (champs prédictifs) sont à différentes échelles (p. ex., le revenu qui varie de 7000 à 1 million combiné avec le nombre de membres présents dans le ménage qui varie de un à sept).
    • None: par défaut.
    • Z-score: tous les champs Predictor sont mis à l'échelle afin qu'ils aient une moyenne de zéro et un écart-type d'un.
    • Intervalle unitaire: tous les champs Predictor sont mis à l'échelle afin qu'ils aient une valeur minimale de zéro et une valeur maximale d'un, toutes les autres valeurs étant comprises entre zéro et un.
    • Zéro centré: tous les champs Predictor sont mis à l'échelle de sorte qu'ils ont une valeur minimale de négatif et une valeur maximale d'un, avec toutes les autres valeurs étant entre négatif et positif.
  • La dégradation du poids: le poids de décomposition limite le mouvement dans les nouvelles valeurs de poids à chaque itération (également appelée «époque») du processus d'estimation. La valeur de décroissance de pondération doit être comprise entre zéro et un. Plus la valeur est grande, plus la restriction des mouvements possibles des pondérations est importante. En général, une valeur de décroissance de pondération comprise entre 0,01 et 0,2 fonctionne bien.
  • La plage +/-des pondérations initiales (aléatoires) autour de zéro: les pondérations données aux variables d'entrée de chaque nœud masqué sont initialisées à l'aide de nombres aléatoires. Cette option permet de définir la plage de nombres aléatoires utilisés. En général, la valeur doit être proche de 0,5. Toutefois, une valeur plus faible peut être préférable si la taille de toutes les variables d’entrée est importante. La valeur 0 est une valeur particulière selon laquelle l’outil recherche une valeur comprise appropriée au vu des données d’entrée.
  • Nombre maximal de poids autorisé dans le modèle: cette option devient pertinente lorsqu'il existe un grand nombre de champs et de nœuds Predictor dans la couche masquée. La diminution du nombre de pondérations accélère l’estimation du modèle et réduit les chances de l’algorithme de trouver un optimum local (par opposition à un optimum global) pour les pondérations. Les pondérations exclues du modèle sont implicitement définies sur zéro.
  • Nombre maximal d'itérations pour l'estimation du modèle: cette valeur contrôle le nombre de tentatives que l'algorithme peut effectuer pour tenter de trouver des améliorations dans l'ensemble de poids de modèle par rapport à l'ensemble de poids précédent. Si aucune amélioration n’est détectée dans les pondérations avant le nombre maximum d’itérations, l’algorithme prend fin et renvoie le meilleur jeu de pondérations. Valeur par défaut : 100 itérations. En général, étant donné le comportement de l’algorithme, il peut être utile d’augmenter cette valeur, si nécessaire, au détriment de l’allongement de la durée d’exécution de la création de modèle.

Options des graphiques

  • Tailledu tracé: sélectionnez pouces ou centimètres pour la taille du graphique.
  • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.

  • Taille de police de base (points): sélectionnez la taille de la police dans le graphique.

Afficher la sortie

  • O ancre: objet. Table du modèle sérialisé avec son nom de modèle.
  • R ancre: rapport. Constituée des snippets de rapports générés par l’outil Réseau neural : récapitulatif de modèle de base et tracés d’effets principaux pour chaque classe de la variable cible.

https://en.wikipedia.org/wiki/Artificial_neural_network