Spline Model Tool Icon

Ferramenta Modelo De Spline

Versão:
2022.3
Last modified: September 25, 2020

A ferramenta Spline Model fornece o algoritmo de regressão adaptativa multivariada (ou MARS) de Friedman.* Este método é um modelo de aprendizagem estatística moderno que: (1) auto-determina qual subconjunto de campos melhor prevê um campo-alvo de interesse; (2) é capaz de capturar relações e interações altamente não lineares entre os campos; e pode automaticamente resolver uma ampla gama de problemas de regressão e classificação de uma forma que pode ser transparente para o usuário (o usuário pode fazer tão pouco quanto especificar um campo de destino e um conjunto de campos preditor, mas a ferramenta pode ser extensivamente ajustada por usuários avançados).

A ferramenta é aplicável a uma ampla gama de problemas, como classificação, contagem de dados e problemas de regressão de destino contínuo. O método usa uma abordagem de duas etapas para desenvolver um modelo. Na primeira etapa (conhecida como a passagem para a frente, e é semelhante ao algoritmo de particionamento recursivo usado na ferramenta de árvore de decisão) as variáveis que importam mais na previsão do destino determinado, e apropriados "pontos divididos" (conhecidos como "nós") nas variáveis são encontradas. No entanto, ao contrário de uma árvore de decisão, uma linha entre nós adjacentes (chamado de um termo) está apto ao invés de usar saltos discretos como é feito em árvores de decisão. Isso resulta em uma construção de uma função linear parcial para cada variável que pode aproximar de perto qualquer relação entre o alvo e as variáveis do preditor. A segunda etapa (conhecida como a passagem para trás ou de poda) remove alguns dos nós nas variáveis (alongando o segmento de linha nos termos restantes) a fim minimizar a possibilidade que o modelo overfitting a amostra da estimativa e a amostra da estimativa da captura ruído em oposição ao sinal subjacente.

Esta ferramenta utiliza a ferramenta R. Vá para Opções > Baixe ferramentas preditivas e faça login no portal Alteryx Downloads and Licenses para instalar R e os pacotes utilizados pela Ferramenta R. Consulte Baixar e Usar Ferramentas Preditivas.

Entrada

Um fluxo de dados Alteryx que inclui um campo de destino de interesse junto com um ou mais possíveis campos de previsão.

Configuração da ferramenta

Use a guia Parâmetros Necessários para definir os controles obrigatórios para o modelo Spline.

  • Nome do modelo: Cada modelo precisa ser dado um nome para que possa ser identificado posteriormente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
  • Selecione o campo de destino: Selecione o campo a partir do fluxo de dados que deseja prever.
  • Selecione os campos preditoros: Escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável alvo.
    As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
  • Incluir diagramas de efeitos?: Se verificado, então serão produzidas parcelas de efeitos que mostram graficamente a relação entre a variável preditor e o alvo em níveis fixos (a mediana para preditores numéricos, o primeiro nível para fatores) de outros campos preditores. Há opções para exibir apenas os campos que têm um efeito principal no destino, apenas os efeitos de interação bidirecional entre campos usando uma plotagem de perspectiva, ou ambos os efeitos principais e as interações de duas vias.

Use a guia Personalização de modelos (opcional) para fazer ajustes mais específicos no modelo.

  • Especifique o tipo de destino e a família GLM: há cinco tipos de campos de destino suportados:
    • Alvos contínuos (por exemplo, alvos numéricos onde qualquer valor exclusivo tem uma porcentagem relativamente pequena das instâncias totais)
    • Destinos distribuídos gama (alvos numéricos estritamente positivos que têm uma alta porcentagem de valores de resposta razoavelmente baixos, mas uma pequena porcentagem de valores relativamente altos)
    • dEstinos "Count" (por exemplo, destinos de valor inteiro para os quais a maioria dos valores exclusivos têm uma porcentagem razoavelmente alta das instâncias totais, por exemplo, o número de visitas a um escritório de médicos uma pessoa faz em um ano)
    • Alvos categóricos binários (por exemplo, campos de destino da variedade "Sim/não")
    • Alvos categóricos multinomial (por exemplo, campos-alvo com um número limitado de resultados discretos, como "A", "B" ou "C")
      Cada tipo de campo alvo pode ter uma ou mais possíveis funções de distribuição associadas (que está relacionada à medida que o algoritmo está tentando minimizar).
    • Os destinos contínuos podem não ter nenhuma distribuição explícita ou gaussiana (i.e., normal) de distribuição.
    • No caso de um alvo distribuído Gamma, a escolha é a função de vínculo a ser usada (a relação entre os meios da distribuição e o preditor linear).
    • Os destinos Count (inteiro) minimizam uma função de perda com base na distribuição Poisson e usam uma função log (preferencial) ou link de identidade.
    • Os destinos categóricos binários podem usar um Logit (também usado na regressão logística clássica), um probit, ou uma função de link log-log complementar.
    • Uma resposta categórica multinomial é tratada de maneira não padronizada. Especificamente, em vez de estimar um verdadeiro modelo multinomial, um conjunto de modelos binários (usando uma função de link Logit) são estimados. Por exemplo, se as respostas possíveis são "a", "b", ou "C", o que é estimado é um modelo de: "a" contra qualquer outra escolha, "b" contra qualquer outra escolha, e "C" contra qualquer outra escolha.
  • Dimensione a variável alvo: Se a variável alvo for uma variável contínua, e essa opção for selecionada, então ela será submetida a uma transformação de escore z (média zero, desvio padrão de um) para ajudar com a estabilidade numérica no passe para frente (primeiro estágio) do algoritmo.
  • O número máximo de nós ou determinar automaticamente (Auto): Esta opção controla o número de possíveis nós (splits) nos campos preditor no passe para frente (primeiro estágio) do algoritmo. Se "auto" for selecionado, o número de nós é calculado com base no número de campos do preditor. O número real de nós na passagem para a frente será muitas vezes menor do que o máximo permitido.
  • Profundidade de interação: o nível de interação entre os campos do preditor.
    • No caso de dois campos do preditor que têm uma interação Two-way um com o outro, a seguir o efeito que um preditor tem no alvo depende do nível do segundo preditor.
    • No caso de uma interação de três vias, então o efeito de um campo de preditor em um destino dependerá dos valores de dois outros campos de previsão.
    • Podem ser especificadas interações até cinco vias (uma profundidade de interação de 5). O valor padrão desse parâmetro é definido como 1 (uma pressuposição implícita de sem interações entre os campos do preditor). Aumentar a profundidade de interação pode aumentar consideravelmente o tempo de execução do modelo.
  • Penalidade por termo ou nó: A função a ser otimizada contém um componente de penalidade para diminuir a possibilidade de que o modelo final se enquadrem nos dados da amostra de estimativa. O padrão é um valor de 2 para um modelo de somente efeitos principais e 3 se interações de duas vias ou superiores são permitidas. Um valor de-1 resulta em nenhuma penalidade para nós ou termos que estão sendo aplicados, enquanto um valor 0 aplica a penalidade padrão apenas para termos.
  • A melhoria mínima no R-Quadrado necessário para adicionar um nó adicional: Quanto maior o valor destes termos, maior a melhoria no R-Quadrado precisa ser para o modelo, a fim de adicionar um nó.
  • A distância mínima entre nós: Se 0 for selecionado, então a distância mínima permitida é calculada com base em uma fórmula, um valor de 1 permite que qualquer um dos valores de uma variável preditor seja um nó (que só funciona bem se os dados têm muito pouco ruído), caso contrário, um valor numérico entre 0 e 1 precisa ser fornecido que dá a distância como uma porcentagem da faixa de uma variável preditor.
  • Nova penalidade variável: O termo adicional de penalidade anexado à função objetiva para a adição de uma nova variável ao modelo. O padrão é 0 (None) e esse valor pode variar de 0 a 0,5. Tal como com a penalidade por nó ou termo, o objetivo é controlar a supermontagem
  • O número máximo de termos parentais considerados a cada passo no passe para a frente: Este termo controla o número de termos que são criados em um passe para frente, o que pode acelerar a execução. Um valor especial de 0 não coloca limites no termo, enquanto um número maior que 0 especifica o número máximo de termos. O padrão é 20 termos, valores comuns para isso são 20, 10 e 5.
  • O coeficiente de envelhecimento rápido de MARS: Consulte a Seção 3.1 de Friedman (1993) para obter uma explicação deste parâmetro.***
  • Realize uma análise de validação cruzada: Esta opção permite uma avaliação de validação cruzada sobre se obstruindo suficientemente ocorreu em relação ao método generalizado de validação cruzada usado pelo algoritmo. Se essa opção for selecionada, o usuário pode especificar o número de execuções de validação cruzada separada, o número de dobras em cada execução de validação cruzada, se as amostras de validação cruzada são estratificadas para ter uma combinação de respostas comparável para um destino categórico ( por exemplo, um número comparável de respostas "Sim" e "não" para uma variável categórica binária) e o valor de semente aleatório para os números aleatórios gerados para criar as amostras.
  • O método de poda: As opções são "Eliminação para trás", "Nenhum", "Busca exaustiva", "Seleção para frente" e "Substituição Sequencial".
    • Eliminação inversa (o padrão) começa com todos os nós e termos encontrados na passagem para a frente e, em seguida, remove o termo menos preditivo primeiro (fazendo ajustes apropriados para os termos afetados restantes) e, em seguida, compara o efeito sobre o generalizado medida de validação cruzada em relação ao modelo completo. Se a medida de validação cruzada generalizada não for aprimorada ao remover um termo, o modelo criado após a passagem de encaminhamento será retornado. Se houver uma melhoria na medida de validação cruzada generalizada este termo é removido do modelo, e o processo é repetido para os termos restantes. Se em algum ponto a remoção de um termo não melhorar a medida de validação cruzada generalizada em relação ao modelo criado na última iteração, o processo será finalizado.
    • Se a escolha for None, todos os termos encontrados na passagem de encaminhamento são usados no modelo final.
    • Em busca exaustiva, todas as combinações dos termos encontrados na etapa de pesquisa para a frente são examinadas, mas a um custo computacional muito alto.
    • Na exclusão direta, todos os termos, exceto a interceptação, são removidos e, em seguida, o melhor termo dos encontrados na passagem de encaminhamento é determinado e incluído no modelo (supondo que ele aumente a medida de validação cruzada generalizada em relação a um modelo de interceptação única). Este processo é continuado até que nenhum termo adicional pode ser adicionado que melhora a medida de validação cruzada generalizada.
    • Em substituição sequencial, uma solução com um determinado número de termos tem um termo substituído por todos os outros termos possíveis restantes encontrados na passagem para a frente, que ainda não está incluída no conjunto de termos no passe de poda. Se um novo termo for encontrado que melhora a medida de validação cruzada generalizada em relação ao termo original, o termo original é substituído pelo novo termo.
  • O número máximo de termos no modelo podado: Se 0 for selecionado (o padrão) então todos os termos que permanecem após os outros critérios utilizados no passe de poda são aplicados são usados no modelo final, caso contrário, apenas os termos mais importantes até o número selecionado são mantidos no modelo final.
    Use a guia Opções gráficas para definir os controles para a saída gráfica.
  • Tamanho da parcela: Selecione polegadas ou centímetros para o tamanho do gráfico.
  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.
  • Tamanho da fonte base (pontos): Selecione o tamanho da fonte no gráfico.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O âncora: Consiste em uma tabela do modelo serializado com seu nome de modelo.
  • R âncora: Consiste nos trechos de relatório gerados pela ferramenta Modelo Spline: um resumo básico do modelo, um Plot de Importância Variável (que indica a importância relativa dos diferentes campos preditores), um Gráfico de Diagnósticos de Modelo Básico e (opcionalmente) os Gráficos de Efeitos.

https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
Freidman, Jerome H., "Multivariate Adaptive Regression Splines", Universidade de Stanford, agosto de 1990
*** Freidman, Jerome H., "Fast MARS", Relatório Técnico nº 102, Departamento de Estatística, Universidade de Stanford, maio de 1993

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.