Analyse prédictive

Ces outils englobent l’exploration de données, des éléments spécialisés de préparation des données pour l’analyse prédictive, la modélisation prédictive, des outils permettant de comparer et d’évaluer l’efficacité de différents modèles, des outils permettant de regrouper des enregistrements et des champs de manière systématique, ainsi que des outils permettant de déployer des solutions d’analyse prédictive.

Prise en charge en base de données des outils d’analyse prédictive

Six outils prédictifs prennent en charge le traitement en base de données.

Si un outil prédictif prenant en charge le traitement En base de données est placé sur le canevas avec un autre outil en BDD, il bascule automatiquement vers la version en BDD. Pour changer la version de l’outil, cliquez avec le bouton droit sur l’outil, pointez le curseur sur Sélectionner la version de l’outil, puis cliquez sur une autre version de l’outil. Voir Vue d’ensemble des outils En base de données pour plus d'informations sur le support et les outils de la base de données.

	Microsoft SQL Server 2016	Oracle	Teradata
Outil Modèle boosté	Oui
Outil Arbre de décision	Oui
Outil Modèle de forêt	Oui
Outil Régression linéaire	Oui	Oui	Oui
Outil Régression logistique	Oui	Oui	Oui
Outil Évaluation	Oui	Oui	Oui

Outils d’analyse prédictive

Examen des données

Cette catégorie contient des outils permettant de mieux comprendre les données à utiliser dans un projet d’analyses prédictives ainsi que des outils d’échantillonnage spécialisés pour ces mêmes analyses prédictives. Les outils permettant de mieux comprendre les données utilisées dans un projet d’analyses prédictives comprennent des outils de visualisation et des outils fournissant des tables de statistiques descriptives.

Les outils permettant de mieux comprendre les données à analyser à l’aide de méthodes visuelles sont les suivants :

Récapitulatif des champs
Diagramme thermique
Histogramme
Tracé des moyennes
Nuage de points
Diagramme en violon

Les outils qui fournissent des statistiques récapitulatives utiles permettant de mieux comprendre les données analysées sont les suivants :

Analyse d’association
Profil de données de base
Tableau de contingence
Analyse de distribution
Tableau des fréquences
Pondération de l’importance
Corrélation de Pearson
Corrélation de Spearman

Outils prédictifs basés sur R

Cette catégorie contient des outils de modélisation prédictive générale pour les modèles de classification (champ cible catégoriel) et de régression (champ cible numérique), ainsi que des outils de comparaison de modèles et de vérification d’hypothèse pertinents pour la modélisation prédictive. L’ensemble d’outils destinés à la modélisation prédictive générale peut être réparti en modèles statistiques traditionnels et en méthodes d’apprentissage statistique plus modernes. Un outil Score fournit un mécanisme permettant d’obtenir des prévisions de modèle à partir des deux types d’outils de modélisation prédictive générale.

Le niveau d’intervention directe de l’utilisateur dans le processus de modélisation constitue une distinction importante entre les modèles statistiques traditionnels et les méthodes d’apprentissage statistique plus modernes. Les modèles statistiques traditionnels nécessitent une plus grande intervention et expertise de l’utilisateur pour élaborer un modèle présentant un niveau d’efficacité prédictive adéquat. En particulier, l’utilisateur doit présélectionner les champs prédicteurs importants, et doit généralement appliquer des transformations appropriées aux champs numériques pour recueillir les effets non linéaires entre le champ cible et les prédicteurs continus. Dans le cadre des modèles traditionnels, la régression pas à pas permet d’aider à sélectionner les prédicteurs importants (et à ignorer les problèmes potentiels dus aux relations non linéaires). En revanche, les méthodes d’apprentissage statistiques modernes font appel à des algorithmes consacrés en interne à la sélection de prédicteurs et aux relations non linéaires possibles entre les prédicteurs cibles et numériques.

Les modèles statistiques traditionnels diffèrent entre eux en fonction de la nature du champ cible visé par la prédiction. Ils reposent tous sur l’estimation de modèles linéaires (généralisés). Tous les algorithmes d’apprentissage statistique ont la même propriété de gestion interne de la sélection de prédicteurs et des effets non linéaires, mais ils utilisent différentes approches. Par conséquent, aucune méthode n’est supérieure à une autre en ce qui concerne les problèmes susceptibles de se produire.

Outils correspondant aux modèles statistiques traditionnels

Régression de comptage
Régression Gamma
Régression linéaire
Régression logistique
Classifieur bayésien naïf
Réseau neural
Pas à pas
Machine à vecteurs de support

Outils correspondant aux méthodes d’apprentissage statistique modernes

Modèle boosté
Modèle Arbre de décision
Modèle de forêt
Modèle Spline

Outils pour la comparaison de modèles prédictifs et la vérification d’hypothèse

Validation croisée
Tableau de levage (applicable aux modèles de classification binaire)
Coefficients de modèle
Comparaison de modèle
Test imbriqué
Test des moyennes
Facteurs d’inflation de variance

Outil destiné aux valeurs prédictives pour tous les outils de modélisation prédictive générale

Évaluation

Outil pour la création de visualisations réseau interactives et de statistiques récapitulatives clés

Analyse du réseau

Outils pour la génération de modèles de survie et l’estimation du risque relatif et du temps de survie moyen restreint

Analyse de survie
Score de survie

Test AB

Les outils Test AB aident à réaliser les expériences Test AB (également appelé « test et apprentissage »), comme l’examen de l’effet d’une nouvelle campagne de communication marketing sur les ventes ou l’effet du changement de personnel dans un magasin. Les outils permettent de déterminer les zones commerciales pour un test (généralement dans le cadre d’une publicité dans les médias où toutes les personnes résidant dans cette zone peuvent potentiellement être exposées à cette publicité), d’associer une ou plusieurs unités de contrôle à chaque unité de traitement, de développer des mesures de tendance et du caractère saisonnier sur lesquelles se base souvent l’association de contrôles à des traitements, ainsi que de réaliser l’analyse réelle des résultats de l’expérience. Les outils associés à cette sous-catégorie sont les suivants :

Analyse A/B
Contrôles A/B
Traitements A/B
Tendance A/B

Séries temporelles

Cette catégorie contient plusieurs outils réguliers (en termes d’intervalle de temps des données, par exemple, mensuellement) de prévision et de tracé des séries temporelles univariées. Les principaux de ces outils sont ceux permettant de créer des modèles de prévision de lissage exponentiel étendu et ARIMA, qui peuvent servir à créer des éléments tels qu’un modèle de prévision des ventes hebdomadaire. Ces deux méthodes élaborent des prévisions en fonction d’éléments temporels systématiques dans les valeurs de la variable cible. En particulier, elles utilisent les éléments concernant la tendance (mouvement en amont ou en aval cohérent à long terme dans la variable cible) et le caractère saisonnier (schémas cycliques qui se répètent dans le temps).

À titre d’exemple concret de ces éléments, un modèle temporel de ventes des tablettes ferait probablement apparaître une tendance positive des ventes et un schéma saisonnier important à la période de Noël et avant la rentrée scolaire. Si la variable cible ne contient aucune tendance ni aucun caractère saisonnier, les valeurs prévues de la variable cible seront probablement placées sur une ligne droite en fonction de la valeur moyenne pondérée de la cible pour les valeurs les plus récentes de la cible. Ce résultat ne sera probablement pas utile pour l’utilisateur, mais il indique que les données ne présentent aucune structure réelle en ce qui concerne les éléments temporels uniquement (tendance et caractère saisonnier). Dans ce cas, des méthodes de modélisation prédictive plus générale peuvent être plus utiles pour élaborer des prévisions que les outils Séries temporelles.

Outre les outils permettant de créer des prévisions, il existe des outils permettant de comparer l’efficacité relative de différents modèles de prévision des séries temporelles. L’ensemble d’outils Séries temporelles comprend :

ARIMA
ETS (lissage exponentiel)
Comparaison ST
Prévision à covariables ST
Remplissage ST
Prévision ST
Usine de prévisions ST
Usine de modèles ST
Diagramme ST

Regroupement prédictif

Cette catégorie contient des outils permettant de regrouper des enregistrements ou des champs dans un nombre plus réduit de groupes. La création de segments client en fonction de schémas d’achat ou la création d’un ensemble de groupes de magasins constituent des applications courantes du regroupement d’enregistrements. Dans ces deux domaines, le but final du regroupement est de créer un nombre restreint de groupes permettant de personnaliser des programmes et des activités de manière réaliste du point de vue commercial.

Par exemple, un détaillant possédant un réseau constitué de 500 points de vente considérerait probablement comme fastidieuse l’élaboration d’un programme de tarification et de commercialisation pour chacun de ces 500 points de vente. Toutefois, si les points de vente sont placés dans un ensemble restreint de groupes de magasins (10, par exemple) selon la similarité des points de vente par rapport à leurs schémas commerciaux, la création de 10 programmes différents est une opération que le détaillant pourrait mettre en œuvre. De même, de nombreuses organisations ont des tables de base de données à analyser qui sont très étendues et qui présentent une corrélation importante entre les champs. Dans ces cas, le traitement d’un nombre élevé de mesures fortement corrélées complique considérablement les analyses effectuées avec ces données. Par conséquent, il peut être utile de réduire le jeu de champs d’origine en un ensemble plus restreint de champs composites plus adaptés pour l’analyse. Dans ces deux cas, il est nécessaire de réduire la taille des données afin de les rendre faisables.

L’analyse de clusters est la méthode la plus couramment utilisée pour regrouper des enregistrements. Il existe en réalité de nombreux types différents d’analyses des clusters, mais la grande majorité des méthodes de clustering utilisées dans les applications commerciales est basée sur des algorithmes de k-centroïdes. Alteryx fournit des outils pour aider à déterminer le nombre approprié de clusters (groupes) qui devraient être formés, créant l'ensemble final de clusters et l'ajout du cluster auquel appartient un enregistrement particulier (peu importe si l'enregistrement a été utilisé pour déterminer l'ensemble de clusters) aux données. Un outil connexe (Trouver les plus proches voisins) permet de former des groupes ad hoc d’une taille donnée pour un ou plusieurs enregistrements spécifiques. Par exemple, les outils permettent de rechercher les cinq clients similaires au client « X » en fonction d’un comportement d’achat passé. Les composants principaux sont la méthode disponible pour le regroupement de champs.

Les outils d’analyse du panier de la ménagère permettent de déterminer les éléments associés dans les données sur les points de vente ou la combinaison de problèmes se produisant généralement dans les systèmes de signalement des défauts et d’ordres d’exécution. Les outils de cette catégorie déterminent l’ensemble de « règles » dans les données (par exemple, « le défaut de produit A est plus susceptible de se présenter lorsque les défauts B et C sont également observés »), et contiennent des outils de filtrage permettant de restreindre la liste de règles possibles en fonction d’un ensemble de critères associés à des règles les rendant plus importants.

Cette catégorie contient les outils suivants :

Ajouter le cluster
Trouver les plus proches voisins
Analyse des clusters k-centroïdes
Diagnostics des k-centroïdes
Affinité du PM
Contrôle du PM
Règles du PM
Mise à l’échelle multidimensionnelle
Composants principaux

Prescriptif

Cette catégorie contient des outils qui aident à déterminer le meilleur résultat ou la meilleure approche à adopter dans une situation ou un ensemble de scénarios donné. Ces outils permettent d’augmenter la sortie des modèles prédictifs en imposant une action optimale.

Optimisation
Échantillonnage de simulation
Score de simulation
Résumé de simulation