Outil Suréchantillonner le champ

Dans les données servant à élaborer un modèle prédictif de classification binaire, il arrive souvent que la variable cible ait une proportion de réponses négatives (« non ») bien plus élevée que de réponses positives (« Oui »). Par exemple, dans le cadre d’une campagne de publipostage non ciblée, il n’est pas rare de constater que 2 % des prospects potentiels répondent de manière favorable à un appel, contrairement à 98 %. Dans ce cas, les modèles prédictifs rencontrent des difficultés pour établir une distinction entre le signal et le bruit, car le coût de classification de tous les prospects potentiels dans la catégorie « non » sera presque toujours correct.

Pour éviter ce problème, il est fréquent de créer un échantillon pour analyse qui présente un pourcentage élevé de réponses positives (une répartition 50-50 des réponses positives et négatives est souvent utilisée). Cet objectif est généralement atteint en incluant toutes les réponses positives et en utilisant un échantillon aléatoire de réponses négatives, la taille de l’échantillon de réponses négatives étant déterminé par le pourcentage de réponses favorables souhaitées dans la nouvelle base de données. Il s’agit de l’approche utilisée dans cet outil.

Connecter une entrée

Flux de données Alteryx, généralement utilisé pour créer un modèle prédictif de classification binaire (par exemple, oui/non).

Configurer l’outil

  1. Sélectionnez le champ sur lequel vous voulez baser le suréchantillonnage: le champ contenant la valeur à suréchantillonner, généralement le champ variable cible dans un modèle prédictif de classification binaire.
  2. Valeur de champ que vous souhaitez suréchantillonner: niveau à suréchantillonner, généralement la réponse positive («oui») dans un modèle prédictif de classification binaire.
  3. Le pourcentage d'enregistrements qui doivent avoir la valeur désirée dans le champ d'intérêt: une valeur entière comprise entre 1 et 100. Cette valeur ne doit pas être inférieure au pourcentage que ce niveau du champ d’intérêt représente dans les données d’origine. Par exemple, si 30 % des données d’origine contiennent la valeur souhaitée pour le champ d’intérêt, la valeur de ce paramètre doit être inférieure à 30 %.