Ferramenta de validação cruzada

A ferramenta de validação cruzada compara o desempenho de um ou mais modelos de previsão gerados Alteryx usando o processo de validação cruzada. Oferece suporte para todos os modelos de classificação e regressão.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R.

Ferramenta Gallery

Esta ferramenta não é instalada automaticamente com o Alteryx designer ou as ferramentas R. Para usar esta ferramenta, baixe-a da Alteryx Analytics Gallery.

Entre os Modeladores preditivos, a validação cruzada é freqüentemente preferida sobre outros métodos de avaliação de modelo porque não requer o uso de um conjunto de testes separado e gera estimativas mais robustas da qualidade do modelo.

Para todos os modelos de classificação, a ferramenta fornece a exatidão geral, a precisão por classe e um conjunto de matrizes de confusão (uma para cada modelo). Adicionalmente, a ferramenta relata a contagem de F1 e uma coleção de parcelas diagnósticas do desempenho (curva do elevador, gráfico do ganho, precisão contra curvas da recordação e curva de ROC) para modelos binários da classificação. Para os modelos de regressão, a ferramenta geralmente fornece a correlação entre valores previstos e reais, o erro do quadrado da média raiz (RMSE), o erro absoluto médio (Mae), o erro médio da porcentagem (MPE), e o absoluto médio porcentagem de erro (mape) de previsões de cada modelo. Mas quando pelo menos um valor de destino está perto de 0, o MPE e o mape são indefinidos. Nesse caso, o MPE é substituído pela soma dos erros sobre a soma dos valores reais, e a soma dos erros absolutos dividido pela soma dos valores reais (isto é, o erro percentual absoluto ponderado) substitui o mape. Além disso, a ferramenta sempre fornece um enredo de Real versus valores previstos no caso de regressão.

Conecte entradas

A ferramenta de validação cruzada requer duas entradas:

  • M âncora: ou um único modelo previsto Alteryx, ou a União de dois ou mais modelos. Esses modelos devem ter sido gerados usando o mesmo DataSet.
  • D âncora: o conjunto de dados usado para gerar os modelos acima.

Configure a ferramenta

  • Número de tentativas: Insira o número de vezes que você gostaria que o procedimento de validação cruzada fosse repetido. Escolhendo um número menor de ensaios irá acelerar a ferramenta, mas um número maior lhe dará uma estimativa mais robusta da qualidade dos seus modelos.
  • Número de dobras: Insira o número de subconjuntos para dividir os dados em. Uma contrapartida análoga ao número de ensaios também existe para o número de dobras.
  • Selecione o tipo de modelo.

    • Classificação: estes modelos prevêem categorias como Sim/não.
    • Regressão: estes modelos prevêem quantidades numéricas como totais de vendas.
  • Deve ser utilizada a validação cruzada estratificada? : A validação cruzada estratificada é um tipo especial de validação cruzada que cria dobras com a mesma distribuição de probabilidades que o conjunto de dados maior. Por exemplo, em um DataSet onde 80% dos valores de destino são "não" e 20% são "Sim", cada dobra teria aproximadamente 80% "não" respostas e 20% "Sim" queridos. A validação cruzada estratificada é freqüentemente recomendada quando a variável de destino é desbalanceada.
  • Nome da classe positiva: (opcional) essa opção de configuração só é relevante em classificação binária (de duas classes). Algumas das medidas relatadas para classificação binária, como a pontuação F1, requerem uma distinção entre uma classe positiva (como "Sim") e uma classe negativa (como "não"). No entanto, essa opção de configuração não é necessária. Se você deixá-lo em branco ao usar a ferramenta com modelos de classificação binária, a ferramenta irá escolher uma das classes como o positivo.
  • Valor de semente: para criar resultados reproduzíveis, você pode selecionar a semente usada pelo gerador de números aleatórios que determina quais registros são classificados em que dobras. Mudar a semente vai mudar as composições das dobras.

Visualizar a saída

  • D âncora: esta saída fornece os valores reais de dados, bem como suas previsões.
  • F âncora: esta saída relata várias medidas de ajuste do modelo, dependendo do tipo de modelo.
  • R âncora: um relatório sumário contendo as medidas de ajuste médio para cada ensaio, bem como gráficos onde uma única curva é apresentada para cada modelo.