Ferramenta modelo de spline

A ferramenta modelo spline fornece o algoritmo de regressão adaptável multivariada (ou Marte) de Friedman. * este método é um modelo de aprendizagem estatística moderna que: (1) auto-determina qual subconjunto de campos melhor prever um campo de interesse do alvo; (2) é capaz de capturar relações altamente não-lineares e interações entre os campos; e pode automaticamente abordar uma ampla gama de problemas de regressão e classificação de uma forma que pode ser transparente para o usuário (o usuário pode fazer tão pouco como especificar um campo de destino e um conjunto de campos de preditor, mas a ferramenta pode ser amplamente afinado por avançado usuários).

A ferramenta é aplicável a uma ampla gama de problemas, como classificação, contagem de dados e problemas de regressão de destino contínuo. O método usa uma abordagem de duas etapas para desenvolver um modelo. Na primeira etapa (conhecida como a passagem para a frente, e é semelhante ao algoritmo de particionamento recursivo usado na ferramenta de árvore de decisão) as variáveis que importam mais na previsão do destino determinado, e apropriados "pontos divididos" (conhecidos como "nós") nas variáveis são encontradas. No entanto, ao contrário de uma árvore de decisão, uma linha entre nós adjacentes (chamado de um termo) está apto ao invés de usar saltos discretos como é feito em árvores de decisão. Isso resulta em uma construção de uma função linear parcial para cada variável que pode aproximar de perto qualquer relação entre o alvo e as variáveis do preditor. A segunda etapa (conhecida como a passagem para trás ou de poda) remove alguns dos nós nas variáveis (alongando o segmento de linha nos termos restantes) a fim minimizar a possibilidade que o modelo overfitting a amostra da estimativa e a amostra da estimativa da captura ruído em oposição ao sinal subjacente.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Entrada

Um fluxo de dados Alteryx que inclui um campo de destino de interesse junto com um ou mais possíveis campos de previsão.

Configure a ferramenta

Use a guia parâmetros necessários para definir os controles obrigatórios para o modelo spline.

Nome do modelo: cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
Selecione o campo de destino: Selecione o campo do fluxo de dados que deseja prever.
Selecione os campos do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.
As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Incluir parcelas efeitos?: se verificado, então os lotes de efeitos serão produzidos que mostram graficamente a relação entre a variável do preditor e o alvo em níveis fixos (a mediana para os preditores numéricos, o primeiro nível para fatores) de outro preditor Fields. Há opções para exibir apenas os campos que têm um efeito principal no destino, apenas os efeitos de interação bidirecional entre campos usando uma plotagem de perspectiva, ou ambos os efeitos principais e as interações de duas vias.

Use a guia personalização de modelo (opcional) para fazer ajustes mais específicos ao modelo.

Especifique o tipo de destino e a família GLM: há cinco tipos de campos de destino suportados:
- Alvos contínuos (por exemplo, alvos numéricos onde qualquer valor exclusivo tem uma porcentagem relativamente pequena das instâncias totais)
- Destinos distribuídos gama (alvos numéricos estritamente positivos que têm uma alta porcentagem de valores de resposta razoavelmente baixos, mas uma pequena porcentagem de valores relativamente altos)
- dEstinos "Count" (por exemplo, destinos de valor inteiro para os quais a maioria dos valores exclusivos têm uma porcentagem razoavelmente alta das instâncias totais, por exemplo, o número de visitas a um escritório de médicos uma pessoa faz em um ano)
- Alvos categóricos binários (por exemplo, campos de destino da variedade "Sim/não")
- Alvos categóricos multinomial (por exemplo, campos-alvo com um número limitado de destinações discretas, como "a", "B" ou "C")
Cada tipo de campo de destino pode ter uma ou mais funções de distribuição associadas possíveis (que está relacionada com a medida que o algoritmo está tentando minimizar).
- Os destinos contínuos podem não ter nenhuma distribuição explícita ou gaussiana (i.e., normal) de distribuição.
- No caso de um alvo distribuído Gamma, a escolha é a função de vínculo a ser usada (a relação entre os meios da distribuição e o preditor linear).
- Os destinos Count (inteiro) minimizam uma função de perda com base na distribuição Poisson e usam uma função log (preferencial) ou link de identidade.
- Os destinos categóricos binários podem usar um Logit (também usado na regressão logística clássica), um probit, ou uma função de link log-log complementar.
- Uma resposta categórica multinomial é tratada de maneira não padronizada. Especificamente, em vez de estimar um verdadeiro modelo multinomial, um conjunto de modelos binários (usando uma função de link Logit) são estimados. Por exemplo, se as respostas possíveis são "a", "b", ou "C", o que é estimado é um modelo de: "a" contra qualquer outra escolha, "b" contra qualquer outra escolha, e "C" contra qualquer outra escolha.
Dimensionar a variável de destino: se a variável de destino é uma variável contínua, e esta opção é selecionada, então ele será submetido a uma pontuação z (média zero, desvio padrão de uma) transformação para ajudar com a estabilidade numérica na passagem para a frente (primeiro estágio) do algoritmo.
O número máximo de nós ou determinar automaticamente (auto): esta opção controla o número de nós possíveis (divisões) nos campos do preditor na passagem para a frente (primeiro estágio) do algoritmo. Se "auto" for selecionado, o número de nós é calculado com base no número de campos do preditor. O número real de nós na passagem para a frente será muitas vezes menor do que o máximo permitido.
Profundidade de interação: o nível de interação entre os campos do preditor.

No caso de dois campos do preditor que têm uma interação Two-way um com o outro, a seguir o efeito que um preditor tem no alvo depende do nível do segundo preditor.
No caso de uma interação de três vias, então o efeito de um campo de preditor em um destino dependerá dos valores de dois outros campos de previsão.
Podem ser especificadas interações até cinco vias (uma profundidade de interação de 5). O valor padrão desse parâmetro é definido como 1 (uma pressuposição implícita de sem interações entre os campos do preditor). Aumentar a profundidade de interação pode aumentar consideravelmente o tempo de execução do modelo.

Penalidade por termo ou nó: a função a ser otimizada contém um componente de penalidade para diminuir a possibilidade de que o modelo final overfits os dados de amostra de estimativa. O padrão é um valor de 2 para um modelo de somente efeitos principais e 3 se interações de duas vias ou superiores são permitidas. Um valor de-1 resulta em nenhuma penalidade para nós ou termos que estão sendo aplicados, enquanto um valor 0 aplica a penalidade padrão apenas para termos.
A melhoria mínima no r-quadrado necessário para adicionar um nó adicional: quanto maior o valor deste termos, maior a melhoria no r-squared precisa ser para o modelo, a fim de adicionar um nó.
A distância mínima entre nós: se 0 for selecionado, então a distância mínima permitida é calculada com base em uma fórmula, um valor de 1 permite que qualquer um dos valores de uma variável de preditor seja um nó (que só funciona bem se os dados tiverem muito pouco ruído) , caso contrário, um valor numérico entre 0 e 1 precisa ser fornecido que dá a distância como uma porcentagem do intervalo de uma variável de preditor.
Nova penalidade variável: o termo de penalidade adicional acrescentado à função objetiva para a adição de uma nova variável ao modelo. O padrão é 0 (None) e esse valor pode variar de 0 a 0,5. Tal como com a penalidade por nó ou termo, o objetivo é controlar a supermontagem
O número máximo de termos pai considerados em cada etapa na passagem para a frente: este termo controla o número de termos que são criados em uma passagem para frente, que pode acelerar a execução. Um valor especial de 0 não coloca limites no termo, enquanto um número maior que 0 especifica o número máximo de termos. O padrão é 20 termos, valores comuns para isso são 20, 10 e 5.
O coeficiente de envelhecimento Fast Mars: Ver secção 3,1 de Friedman (1993) para uma explicação deste parâmetro. * * *
Executar uma análise de validação cruzada: esta opção permite uma avaliação de validação cruzada se a poda suficiente ocorreu em relação ao método generalizado de validação cruzada usada pelo algoritmo. Se essa opção for selecionada, o usuário pode especificar o número de execuções de validação cruzada separada, o número de dobras em cada execução de validação cruzada, se as amostras de validação cruzada são estratificadas para ter uma combinação de respostas comparável para um destino categórico ( por exemplo, um número comparável de respostas "Sim" e "não" para uma variável categórica binária) e o valor de semente aleatório para os números aleatórios gerados para criar as amostras.
O método de poda: as opções são "eliminação invertida", "None", "pesquisa exaustiva", "selecção à frente" e "substituição sequencial".

Eliminação inversa (o padrão) começa com todos os nós e termos encontrados na passagem para a frente e, em seguida, remove o termo menos preditivo primeiro (fazendo ajustes apropriados para os termos afetados restantes) e, em seguida, compara o efeito sobre o generalizado medida de validação cruzada em relação ao modelo completo. Se a medida de validação cruzada generalizada não for aprimorada ao remover um termo, o modelo criado após a passagem de encaminhamento será retornado. Se houver uma melhoria na medida de validação cruzada generalizada este termo é removido do modelo, e o processo é repetido para os termos restantes. Se em algum ponto a remoção de um termo não melhorar a medida de validação cruzada generalizada em relação ao modelo criado na última iteração, o processo será finalizado.
Se a escolha for None, todos os termos encontrados na passagem de encaminhamento são usados no modelo final.
Em busca exaustiva, todas as combinações dos termos encontrados na etapa de pesquisa para a frente são examinadas, mas a um custo computacional muito alto.
Na exclusão direta, todos os termos, exceto a interceptação, são removidos e, em seguida, o melhor termo dos encontrados na passagem de encaminhamento é determinado e incluído no modelo (supondo que ele aumente a medida de validação cruzada generalizada em relação a um modelo de interceptação única). Este processo é continuado até que nenhum termo adicional pode ser adicionado que melhora a medida de validação cruzada generalizada.
Em substituição sequencial, uma solução com um determinado número de termos tem um termo substituído por todos os outros termos possíveis restantes encontrados na passagem para a frente, que ainda não está incluída no conjunto de termos no passe de poda. Se um novo termo for encontrado que melhora a medida de validação cruzada generalizada em relação ao termo original, o termo original é substituído pelo novo termo.

O número máximo de termos no modelo podado: se 0 é selecionado (o padrão), em seguida, todos os termos que permanecem após os outros critérios utilizados na passagem de poda são aplicados são usados no modelo final, caso contrário, apenas os termos mais importantes até o número selecionado são r etained no modelo final.

Use a guia opções de gráficos para definir os controles da saída gráfica.

Tamanhodo lote: selecione polegadas ou centímetros para o tamanho do gráfico.
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.
Tamanho da fonte base (pontos): selecione o tamanho da fonte no gráfico.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

O Anchor: consiste em uma tabela do modelo serializado com seu nome de modelo.
R Anchor: consiste nos trechos de relatório gerados pela ferramenta modelo de spline: um resumo de modelo básico, uma parcela de importância variável (que indica a importância relativa dos diferentes campos do preditor), um plano de diagnóstico de modelo básico e (opcionalmente) o Parcelas efeitos.

*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines

* *Freidman, Jerome H., "splines de regressão adaptativa multivariada", Universidade de Stanford, agosto 1990

Freidman, Jerome H., "Fast Mars", relatório técnico n º 102, departamento de estatística, Universidade de Stanford, maio 1993