Skip to main content

Glossario di Machine Learning

Reale

I valori reali sono valori del proprio set di dati che indicano a quale categoria appartiene una riga. Ad esempio, se disponi di un set di dati relativi al tasso di abbandono dei clienti, esso può contenere una colonna di variabili Sì e No che indicano se un cliente ha abbandonato o meno. Questi sono i valori reali osservati che aiutano ad addestrare il modello di Machine Learning.

Reale verso Previsto

Un grafico con il confronto tra i dati effettivi e quelli previsti traccia i valori reali dai dati di addestramento rispetto ai valori previsti generati dal modello per il target. I modelli con punteggi di errore inferiori contengono datapoint in cui i valori reali sono più vicini ai valori previsti.

R² rettificato

R² rettificato è una misura normalizzata di adattamento che indica in che misura le funzioni spiegano la variazione del proprio target. Usa questa misura per confrontare come i diversi algoritmi di regressione modellano dati simili. I punteggi vanno da 0 a 1, dove 1 indica che si adatta perfettamente.

Algoritmo

Un algoritmo è una procedura che un computer utilizza per risolvere un problema. Seguendo un insieme di regole, un algoritmo costruisce un modello utilizzando dati di addestramento che contengono un insieme di funzionalità. Quando il modello vede nuovi dati, può prevedere un risultato. Esempi di algoritmi sono la foresta casuale, l'albero decisionale e la regressione logistica.

Booleano

I dati booleani rappresentano i valori che possono essere solo uno dei due elementi, come true or false.

Categorico

Le funzioni categoriche contengono un numero limitato di valori che rappresentano diverse categorie quali lo stato di un prestito concesso a una persona con i valori approvato, negato e nessuno.

Collinearità

La collinearità si verifica quando due o più funzionalità misurano lo stesso elemento. In questi casi, potresti disporre di più caratteristiche a cui il tuo modello assegna troppo peso. La collinearità può distorcere la misura dell'importanza della permutazione.

Considerazioni sull'importanza della permutazione

L'importanza della permutazione è un modo efficace per misurare la rilevanza di ogni caratteristica per il tuo modello. Tuttavia presenta dei limiti. È suscettibile a problemi di collinearità, effetti di interazione e valori impossibili. Esamina attentamente i tuoi dati per assicurarti che nessuno di questi problemi influenzi il tuo modello.

Costante

Se si seleziona questa opzione, la modellazione assistita legge i campi vuoti come valori mancanti. Seleziona questa opzione se ritieni che l'algoritmo di modellazione possa trovare significato nei valori mancanti perché a volte può trovare modelli in assenza di dati. Puoi anche selezionare questa opzione se pensi che altri metodi di gestione dei dati mancanti potrebbero influenzare il tuo modello.

Funzione di rilascio

Se si seleziona questa opzione la modellazione assistita non utilizzerà questa funzione come parte del modello. Seleziona questa opzione quando il set di dati contiene troppi valori mancanti.

Funzionalità

Le funzionalità sono set di valori misurabili che è possibile utilizzare per prevedere il target. Un modello solitamente presenta molteplici funzionalità di varia importanza. Per un problema di regressione, come ad esempio cercare di prevedere il prezzo di un'azione, l'insieme delle funzionalità potrebbe essere il prezzo giornaliero di partenza, il prezzo finale e il numero di transazioni. Per un problema di classificazione, come ad esempio cercare di prevedere a quale specie di fiori appartiene un iris, le funzionalità potrebbero essere la lunghezza e la larghezza dei sepali e dei petali.

Importanza della funzionalità

La modellazione assistita utilizza il metodo dell'importanza della permutazione per misurare la rilevanza di ogni caratteristica per il tuo modello, valutando le caratteristiche rispetto al set di dati di test. Utilizza questa misura per determinare quali funzionalità sono più importanti per il tuo modello. Puoi inoltre utilizzare questa misura per individuare le funzionalità che potrebbero costituire un rischio per il modello causando un errore di generalizzazione, mediante la creazione di un'associazione troppo debole o troppo forte con il target.

Gini

L'impurità di Gini (Gini) è un indice del contributo delle funzioni, in cui a ciascuna funzionalità viene assegnata una percentuale di quanto contribuisce all'intero modello predittivo. La modellazione assistita utilizza questo indice come parte di un albero decisionale per selezionare le funzionalità che rappresentano dei buon indicatori, in base ai loro contributi. Utilizza l'impurità di Gini per individuare le funzionalità che potrebbero costituire un rischio per il modello causando un errore di generalizzazione contribuendo troppo o troppo poco.

ID

La modellazione assistita rilascia le colonne di tipo ID quando si impostano i tipi di dati poiché non possono essere utilizzati per prevedere un target. I dati di tipo ID rappresentano valori univoci e discreti. Queste funzioni contengono informazioni quali l'ID del cliente o un numero di una transazione.

Valore impossibile

Un valore impossibile può essere creato quando si utilizza un metodo, come l'importanza della permutazione, che rimescola i valori del proprio set di dati. In questi casi potresti avere righe di dati privi di senso, come nel caso di una casa con un numero inferiore di porte rispetto ai locali. Valori impossibili possono distorcere la misura dell'importanza della permutazione.

Effetto di interazione

Un effetto di interazione si verifica quando due o più funzionalità influenzano un target molto di più (o molto meno) di quanto farebbero indipendentemente. In questi casi potresti avere funzionalità con effetti sovrastimati o sottostimati sul target. Gli effetti dell'interazione possono distorcere la misura dell'importanza della permutazione.

MAE

L'errore assoluto medio (mae) valuta in che misura il modello di regressione si adatta ai propri dati. MAE è simile all'errore quadrato medio, ma tende a essere meno influenzato dalle anomalie. I valori più alti indicano un numero maggiore di errori e un peggiore adattamento; i valori 0 indicano nessun errore e un adattamento perfetto.

Errore massimo

Errore massimo rappresenta la misura della differenza maggiore tra i valori previsti e quelli reali. Utilizza questa misura per dedurre lo scenario del caso peggiore per il tuo modello di regressione. I valori più alti indicano un numero maggiore di errori; i valori 0 indicano nessun errore e un adattamento perfetto.

Media

Se si seleziona questa opzione, la modellazione assistita sostituisce i valori mancanti con la somma di tutte le righe di una funzione divisa per il numero totale di righe. Utilizza questo metodo solo per i dati numerici. Consigliamo questa opzione se i dati sono normalmente distribuiti e non sono presenti anomalie.

Mediana

Se si seleziona questa opzione, la modellazione assistita sostituisce i valori mancanti con il numero che rappresenta il punto intermedio nella distribuzione della tua funzione. Consigliamo questa opzione se i dati sono distorti o contengono valori anomali.

Moda

Se si seleziona questa opzione, la modellazione assistita sostituisce i valori mancanti con il numero che si verifica più frequentemente. Consigliamo l'utilizzo di questa opzione se una funzione contiene valori categorici e non si desidera abbandonarla. È inoltre possibile utilizzare la modalità per inserire i valori numerici mancanti.

Funzionalità trascurabile

Questa è una funzionalità su cui il tuo modello non si affida per la previsione il tuo obiettivo. Puoi abbandonare questa funzionalità per ridurre la complessità del tuo modello.

Numerico

Le funzioni numeriche contengono numeri reali quali 1, 3,14 e 100.

OLS

Il metodo dei minimi quadrati ordinari (OLS) è una misura di adattamento, utile per determinare la varianza di una caratteristica. La modellazione assistita utilizza questa misura per valutare quanto una caratteristica si associ strettamente con il target. Usa il metodo OLS per identificare le funzioni che potrebbero mettere il tuo modello a rischio di errore di generalizzazione associandosi in maniera eccessivamente debole o troppo forte al target.

Previsto

I valori previsti sono valori che un algoritmo assegna alle righe in base alle tendenze che trova nelle caratteristiche da te fornite. Ad esempio, se disponi di un set di dati relativi al tasso di abbandono dei clienti, l'algoritmo può prevedere Sì (un cliente abbandonerà) o No (un cliente non abbandonerà).

Residuo

Un residuo è la differenza tra un valore osservato e un valore previsto per il proprio target. I residui possono essere positivi o negativi. Utilizza i residui per valutare in che misura un modello si adatta ai dati di addestramento e in che modo si differenzia.

Confronto dei residui

Questo grafico confronta i residui dell'output degli algoritmi di regressione. In esso, i residui sono assoluti, logaritmi trasformati e ordinati, in modo tale che 0 indichi nessun errore e valori più alti indichino più errori. Utilizza il grafico di confronto dei residui per valutare in che misura i diversi modelli si adattano ai dati di addestramento.

RMSE (Radice dell'errore quadratico medio)

La radice dell'errore quadratico medio (RMSE) è un valore che indica in che misura il modello di regressione si adatta ai dati. Usa l'RMSE per confrontare come i diversi algoritmi di regressione modellano dati simili. I valori più alti indicano un numero maggiore di errori e un peggiore adattamento; i valori 0 indicano nessun errore e un adattamento perfetto.