Outil Analyse de distribution
L’outil Analyse de distribution permet d’ajuster une ou plusieurs distributions aux données d’entrée et de les comparer sur la base de plusieurs statistiques de qualité de l’ajustement*. À partir du caractère statistiquement significatif (valeurs p) des résultats de ces tests, vous pouvez déterminer quelle distribution représente le mieux les données.
L’outil Analyse de distribution peut être utile lorsque vous tentez de comprendre la nature générale de vos données et pour décider du meilleur moyen de les analyser. Par exemple, les données d’une distribution de type Normal sont généralement bien adaptées à une régression linéaire, tandis que les données distribuées selon une loi Gamma sont mieux adaptées à l’analyse via l’outil Régression Gamma.
Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.
Configurer l’outil
Utilisez l' onglet Configuration pour définir les contrôles obligatoires pour une analyse de distribution.
- Sélectionnez un champ pourl'analyse: sélectionnez un champ à partir des données entrantes pour analyse.
- Sélectionnez distributions pour comparaison: sélectionnez une ou plusieurs distributions à comparer. Plusieurs options de distribution sont possibles :
- Normal: une distribution de probabilité continue courante qui est souvent utilisée dans les sciences naturelles et sociales pour représenter des variables aléatoires réelles (c.-à-d. des variables aléatoires continues qui peuvent prendre des valeurs positives et négatives).
- Log-normale: une distribution de probabilité continue d'une variable aléatoire dont le logarithme est normalement distribué. Cette distribution est bien adaptée à la description des phénomènes naturels tels que le taux de croissance et les distributions de taille. En outre, elle est souvent utilisée pour décrire la distribution des revenus dans une population suffisamment vaste.
- Weibull: une distribution relativement flexible qui est étroitement liée à la distribution exponentielle. On la rencontre fréquemment dans les données décrivant des taux de « défaillance » divers, par exemple les taux aléatoires de défaillances mécaniques, de mortalité, de désabonnement, d’usure mécanique, etc.
- Gamma: une distribution de probabilité continue caractérisée par une concentration significative de cas à des valeurs inférieures non-entières et non négatives tout en permettant la possibilité raisonnable de valeurs beaucoup plus élevées. La distribution Gamma possède une vaste gamme d’utilisations. On la trouve couramment dans les données décrivant un cumul (ou une moyenne) par cas, par exemple le montant moyen d’une déclaration de sinistre, mesurées par personne.
Les distributions log-normale, Weibull et gamma ne fonctionnent que pour des données non négatives.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Utilisez l' onglet options graphiques pour définir les commandes de la sortie graphique.
- Tailledu tracé: sélectionnez pouces ou centimètres pour la taille du graphique.
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
Afficher la sortie
Jeu de snippets de rapports incluant un histogramme, des statistiques de base sur les résultats des tests et sur la qualité de l’ajustement, les quantiles de données par distribution et les paramètres de distribution.
* Agostino, R., Stephens, M.A. (1986) bonté des techniques d'ajustement.