Strumento Convalida incrociata
Usa lo strumento Convalida incrociata per confrontare le prestazioni di uno o più modelli predittivi generati da Alteryx tramite il processo di convalida incrociata. Supporta tutti i modelli di classificazione e regressione.
Questo strumento utilizza lo strumento R. Vai a Opzioni Scarica Strumenti predittivi e accedi al portale Download e licenze di Alteryx per installare R e i pacchetti utilizzati dallo strumento R.
Importante
Questo strumento non viene installato automaticamente con Alteryx Designer o con gli strumenti R. Per utilizzare questo strumento, scaricalo dalla community di Alteryx.
Tra i modellatori predittivi, la convalida incrociata è spesso preferita agli altri metodi di valutazione dei modelli, poiché non richiede l'uso di un insieme di test separato e genera stime più affidabili della qualità del modello.
Per tutti i modelli di classificazione, lo strumento offre precisione complessiva e a livello di classe, oltre a un insieme di matrici di confusione (una per ciascun modello). Inoltre, lo strumento fornisce il punteggio F1 e una raccolta di grafici di diagnostica delle prestazioni (curva lift, grafico del guadagno, curve di precisione rispetto a quelle di richiamo e curva ROC) per i modelli di classificazione binaria. Per i modelli di regressione, lo strumento fornisce generalmente la correlazione tra i valori previsti ed effettivi, la radice dell'errore quadratico medio (RMSE), l'errore assoluto medio (MAE), l'errore percentuale medio (MPE) e l'errore medio assoluto percentuale (MAPE) delle previsioni di ciascun modello. Tuttavia, quando almeno un valore target è simile a 0, i parametri MPE e MAPE non sono definiti. In tal caso, l'MPE viene sostituito dalla somma degli errori diviso la somma dei valori effettivi e il MAPE viene sostituito dalla somma degli errori assoluti diviso la somma dei valori effettivi (ovvero l'errore percentuale assoluto ponderato). Inoltre, lo strumento fornisce sempre un grafico dei valori effettivi rispetto a quelli previsti nel caso di regressione.
Collegamento degli input
Lo strumento Convalida incrociata richiede 2 input:
Ancoraggio M: un singolo modello stimato generato da Alteryx o l'unione di 2 o più modelli di questo tipo. Questi modelli dovrebbero essere stati generati utilizzando lo stesso insieme di dati.
Ancoraggio D: l'insieme di dati utilizzato per generare i modelli precedenti.
Configura lo strumento
Numero di prove: specifica quante volte ripetere la procedura di convalida incrociata. L'esecuzione di un numero di prove minore velocizza lo strumento, ma effettuando più volte la procedura si ottiene una stima più accurata della qualità dei modelli.
Numero di fold: specifica in quanti sottoinsiemi suddividere i dati. Esiste una voce analoga a Numero di prove per il numero di fold.
Seleziona il Tipo di modello.
Classificazione: questi modelli prevedono categorie come sì/no.
Regressione: questi modelli prevedono quantità numeriche come i totali delle vendite.
È necessario utilizzare la convalida incrociata stratificata?: la convalida incrociata stratificata è un tipo speciale di convalida incrociata che crea fold con la stessa distribuzione di probabilità dell'insieme di dati più grande. Ad esempio, in un insieme di dati in cui l'80% dei valori target è "No" e il 20% è "Sì", ogni fold avrebbe circa l'80% di risposte "No" e il 20% di risposte "Sì". La convalida incrociata stratificata è spesso consigliata quando la variabile target è sbilanciata.
Nome della classe positiva: (facoltativo) questa opzione di configurazione è pertinente solo nella classificazione binaria (a due classi). Alcune delle misure riportate per la classificazione binaria, come il punteggio F1, richiedono una distinzione tra una classe positiva (come "Sì") e una classe negativa (come "No"). Tuttavia, questa opzione di configurazione non è obbligatoria. Se viene lasciata vuota durante l'uso dello strumento con modelli di classificazione binaria, lo strumento sceglierà una delle classi come positiva.
Valore iniziale: per creare risultati riproducibili, è possibile selezionare il valore iniziale utilizzato dal generatore di numeri casuali che stabilisce quali record ordinare nei vari fold. La modifica del valore iniziale comporta una variazione nelle composizioni dei fold.
Visualizzazione dell'output
Ancoraggio D: questo output fornisce i valori dei dati effettivi e le relative previsioni.
Ancoraggio F: questo output riporta varie misure di adattamento del modello, a seconda del tipo di modello.
Ancoraggio R: un report riepilogativo contenente le misure di adattamento medie per ogni prova e grafici in cui viene presentata una singola curva per ogni modello.