Strumento Campo sovracampionamento
Esempio di uno strumento
Campo sovracampionamento dispone dell'opzione Esempio di uno strumento. Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.
Si tratta di una circostanza comune per i dati utilizzati per sviluppare un modello predittivo di classificazione binaria, nei quali la variabile target ha una proporzione molto più elevata di risposte negative (no) rispetto a quelle positive (sì). Ad esempio, nel caso delle campagne di direct mailing non mirate, è piuttosto frequente scoprire che solo il 2% dei clienti potenziali risponde favorevolmente a un invito. In questo caso, i modelli predittivi hanno difficoltà a distinguere i dati reali, poiché il costo della classificazione di tutti i clienti potenziali nella categoria "no" sarà quasi sempre corretto.
Per evitare questo problema, spesso si crea un nuovo campione per l'analisi con una percentuale elevata di risposte positive (spesso si utilizza una suddivisione di 50-50 tra risposte positive e negative). Generalmente ciò viene realizzato includendo tutte le risposte positive e prendendo un campione casuale di risposte negative, da definire in base alla percentuale di risposte positive desiderate nel nuovo database, che è l'approccio utilizzato in questo strumento.
Connessione di un input
Un flusso di dati Alteryx, in genere da utilizzare per creare un modello predittivo di classificazione binaria (ad esempio, sì/no).
Configura lo strumento
Seleziona il campo su cui desideri basare il sovracampionamento : il campo che contiene il valore da sovracampionare, in genere quello della variabile target in un modello predittivo di classificazione binaria.
Il valore del campo che si desidera sovracampionare : il livello che deve essere sovracampionato, in genere la risposta positiva ("sì") in un modello predittivo di classificazione binaria.
La percentuale di record che dovrebbe avere il valore desiderato nel campo di interesse : un valore intero compreso tra 1 e 100. Questo valore non deve essere inferiore alla percentuale rappresentata da questo livello del campo di interesse nei dati originali. Ad esempio, se il 30% dei dati originali presenta il valore desiderato nel campo di interesse, il valore di questo parametro non deve essere impostato al di sotto di tale percentuale.