Fluxo de trabalho de exemplo
A ferramenta Modelo de Spline tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar a esse e a muitos outros exemplos diretamente do Alteryx Designer.
A ferramenta Modelo de Spline fornece o algoritmo splines de regressão adaptativa multivariada (ou MARS) de Friedman.* Esse método é um modelo moderno de aprendizagem estatística que: (1) autodetermina qual subconjunto de campos prevê com mais precisão um campo-alvo de interesse; (2) é capaz de capturar relações e interações altamente não lineares entre campos e pode abordar automaticamente uma ampla variedade de problemas de regressão e de classificação de uma forma que pode ser transparente para o usuário (que pode somente especificar um campo-alvo e um conjunto de campos preditores. No entanto, a ferramenta pode ser amplamente ajustada por usuários avançados).
A ferramenta é aplicável a uma ampla variedade de problemas, como classificação, dados de contagem e problemas de regressão de alvo contínuo. O método utiliza uma abordagem de dois passos para desenvolver um modelo. No primeiro passo (conhecido como passagem progressiva, semelhante ao algoritmo de particionamento recursivo usado na ferramenta Árvore de Decisão) são encontrados as variáveis mais importantes na previsão do alvo determinado e os "pontos divididos" apropriados (conhecidos como "nós") nas variáveis. Contudo, diferentemente de uma árvore de decisão, uma linha entre nós adjacentes (chamada termo) é mais adequada, em vez de saltos discretos, como ocorre nas árvores de decisão. Como resultado, há a construção de uma função linear definida por partes para cada variável que pode aproximar quaisquer relações entre o alvo e as variáveis preditoras. O segundo passo (conhecido como passagem regressiva ou passagem de poda) remove alguns dos nós nas variáveis (alongando o segmento de linha nos termos restantes), de forma a minimizar a possibilidade do modelo sobreajustar a amostra de estimativa e de captar o ruído da amostra de estimativa em oposição ao sinal subjacente.
Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.
Um fluxo de dados do Alteryx que inclui um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.
Use a guia Parâmetros obrigatórios para definir os controles obrigatórios da ferramenta Modelo de Spline.
Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.
Selecione o campo-alvo: selecione o campo do fluxo de dados que você deseja prever.
Selecione os campos preditores: escolha os campos do fluxo de dados que você pressupõe causem alterações no valor da variável-alvo. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Incluir diagramas de efeito?: se selecionado, serão produzidos diagramas de efeitos que exibem graficamente a relação entre a variável preditora e o alvo em níveis fixos (a mediana para preditores numéricos, o primeiro nível para fatores) de outros campos preditores. Existem opções para mostrar apenas os campos que têm um efeito principal sobre o alvo, para mostrar somente os efeitos de interação bidirecional entre os campos usando um diagrama de perspectiva, ou para mostrar ambos.
Use a guia Personalização do modelo (opcional) para fazer ajustes mais específicos no modelo.
Especificar o tipo de alvo e a família GLM: há cinco tipos de campos-alvo compatíveis:
Alvos contínuos (por exemplo, alvos numéricos em que determinado valor exclusivo tem uma porcentagem relativamente pequena do total de instâncias).
Alvos distribuídos por gama (alvos numéricos estritamente positivos com uma alta porcentagem de valores de resposta relativamente baixos, mas uma pequena porcentagem de valores relativamente altos).
Alvos de "contagem" (por exemplo, alvos de números inteiros para os quais a maioria dos valores exclusivos compreende uma grande porcentagem do total de instâncias, como o número de visitas que uma pessoa faz a um consultório médico em um ano).
Alvos categóricos binários (por exemplo, campos-alvo da variedade "sim/não").
Alvos categóricos multinomiais (por exemplo, campos-alvo com um número limitado de resultados discretos, como "A", "B" ou "C").
Cada tipo de campo-alvo pode ter uma ou mais funções de distribuição associadas possíveis (relacionadas com a medida que o algoritmo está tentando minimizar).
Alvos contínuos não podem ter distribuição explícita nem distribuição Gaussiana (em outras palavras, distribuição normal).
No caso de um alvo com distribuição gama, a escolha é a função de ligação a ser usada (a relação entre os meios da distribuição e o preditor linear).
Os alvos de contagem (inteiros) minimizam uma função de perda com base na distribuição de Poisson e usam ou uma função de log (escolha preferida) ou uma função de vínculo de identidade.
Alvos categóricos binários podem usar uma logit (também usada em regressão logística clássica), uma probit ou uma função de ligação log-log complementar.
Uma resposta categórica multinomial é tratada de forma não padronizada. Mais especificamente, em vez de estimar um modelo multinomial verdadeiro, um conjunto de modelos binários será estimado (usando uma função de ligação logit). Por exemplo, se as possíveis respostas são "A", "B" ou "C", o que se estima é um modelo de: "A" em relação a qualquer outra escolha; "B" em relação a qualquer outra escolha; e "C" em relação a qualquer outra escolha.
Escalar a variável-alvo: se a variável-alvo for uma variável contínua, e essa opção estiver selecionada, ela estará sujeita a uma transformação z-score (zero médio, desvio padrão de um) a fim de ajudar na estabilidade numérica na passagem progressiva (primeiro passo) do algoritmo.
Número máximo de nós ou determinar automaticamente (Auto): esta opção controla o número de nós possíveis (divisões) nos campos preditores na passagem progressiva (primeiro passo) do algoritmo. Se "Auto" estiver selecionado, o número de nós será calculado com base no número de campos preditores. O número real de nós na passagem progressiva será, com frequência, menor do que o máximo permitido.
Profundidade de interação: o nível de interação entre campos preditores.
No caso de dois campos preditores com uma interação bidirecional entre si, o efeito de um preditor sobre o alvo depende do nível do segundo preditor.
No caso de uma interação de três vias, o efeito de um campo preditor em um alvo dependerá dos valores de dois outros campos preditores.
Podem ser especificadas interações de até cinco vias (profundidade de interação de 5). O valor padrão desse parâmetro é definido como 1 (suposição implícita de nenhuma interação entre campos preditores). Um aumento na profundidade de interação pode elevar significativamente o tempo de execução do modelo.
Penalidade por termo ou nó definida manualmente: a função a ser otimizada contém um componente de penalidade a fim de diminuir a possibilidade de que o modelo final se sobreajuste aos dados da amostra de treinamento. O padrão é um valor de 2 para um modelo somente de efeitos principais, e de 3 se forem permitidas interações bidirecionais ou superiores. Um valor de -1 resulta em nenhuma penalidade por nós ou termos aplicados, enquanto um valor de 0 aplica a penalidade padrão somente aos termos.
Melhoria mínima no R-quadrado necessária para acrescentar um nó adicional: quanto maior o valor deste termo, maior a melhoria no R-quadrado necessária para se adicionar um nó ao modelo.
Distância mínima entre nós: se 0 está selecionado, a distância mínima permitida é calculada com base em uma fórmula. Um valor de 1 permite que qualquer valor de uma variável preditora seja um nó (o que só funcionará adequadamente se os dados tiverem muito pouco ruído); caso contrário, é necessário informar um valor numérico entre 0 e 1 que forneça a distância como porcentagem do intervalo de uma variável preditora.
Nova penalidade variável: o termo de penalidade adicional agregado à função objetiva para a adição de uma nova variável ao modelo. O padrão é 0 (nenhum) e esse valor pode variar de 0 a 0.5. Tal como acontece com a penalidade por nó ou termo, o objetivo é controlar o sobreajuste.
Número máximo de termos pai considerados em cada etapa da passagem progressiva: este termo controla o número de termos criados em uma passagem progressiva, o que pode acelerar a execução. Um valor especial de 0 não coloca limites no termo, enquanto um número maior que 0 especifica o número máximo de termos. O padrão é de 20 termos, e valores comuns são 20, 10 e 5.
Coeficiente de rápido envelhecimento MARS: veja a Seção 3.1 de Friedman (1993) para uma explicação deste parâmetro.***
Realizar uma análise de validação cruzada: esta opção permite uma avaliação de validação cruzada para saber se houve uma poda suficiente em relação ao método da validação cruzada generalizada utilizada pelo algoritmo. Se essa opção for selecionada, o usuário poderá especificar o número de execuções de validação cruzada separadas; o número de partições (folds) em cada execução de validação cruzada; se as amostras de validação cruzada estão estratificadas para obter uma mistura comparável de respostas para um alvo categórico (por exemplo, um número comparável de respostas "sim" e "não" para uma variável categórica binária); e o valor da semente aleatória dos números aleatórios gerados na criação das amostras.
Método de poda: as escolhas são "Eliminação regressiva", "Nenhuma", "Pesquisa exaustiva", "Seleção progressiva" e "Substituição sequencial".
A eliminação regressiva (padrão) começa com todos os nós e termos encontrados na passagem progressiva, em seguida, remove primeiramente o termo menos preditivo (fazendo ajustes apropriados aos termos restantes afetados), e, por fim, compara o efeito na medida de validação cruzada generalizada em relação ao modelo completo. Se a medida generalizada de validação cruzada não for aprimorada com a remoção de um termo, o modelo criado após a passagem progressiva será retornado. Se houver uma melhoria na medida de validação cruzada generalizada, esse termo será removido do modelo e o processo será repetido para os termos restantes. Se, em qualquer momento, a remoção de um termo não aprimorar a medida de validação cruzada generalizada em relação ao modelo criado na última iteração, o processo será encerrado.
Se não houver nenhuma escolha, todos os termos encontrados na passagem progressiva serão usados no modelo final.
Em uma pesquisa exaustiva, todas as combinações dos termos encontrados no passo de passagem progressiva serão examinados, porém, a um custo computacional bastante elevado.
Na eliminação progressiva, todos os termos, exceto o de interceptação, são removidos, e então o melhor termo daqueles encontrados na passagem progressiva é determinado e incluído no modelo (supondo que ele melhore a medida de validação cruzada generalizada em relação a um modelo unicamente de interceptação). O processo continua até que nenhum termo adicional possa ser incluído a fim de melhorar a medida de validação cruzada generalizada.
Na substituição sequencial, uma solução com um determinado número de termos tem um de seus termos substituído por todos os outros termos possíveis restantes encontrados na passagem progressiva e que ainda não estejam incluídos no conjunto de termos na passagem de poda. Se for encontrado um termo novo que melhore a medida de validação cruzada generalizada em relação ao termo original, então o termo original será substituído pelo termo novo.
Número máximo de termos no modelo de poda: se 0 estiver selecionado (o padrão), então todos os termos que permanecem depois da aplicação dos outros critérios usados na passagem de poda serão usados no modelo final; caso contrário, somente os termos mais importantes, até o número selecionado, serão mantidos no modelo final.
Use a guia Opções de gráfico para definir os controles para o gráfico de saída:
Tamanho do gráfico: selecione polegadas ou centímetros para o tamanho do gráfico.
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
Uma resolução mais baixa gera um arquivo menor que é melhor para visualização em um monitor.
Uma resolução mais alta gera um arquivo maior e com melhor qualidade de impressão.
Tamanho da fonte base (pontos): selecione o tamanho da fonte para o gráfico.
Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
Âncora O: consiste em uma tabela do modelo serializado com o nome correspondente.
Âncora R: consiste nos fragmentos de relatório gerados pela ferramenta Modelo de Spline: um resumo de modelo básico, um gráfico de importância variável (indica a importância relativa dos diferentes campos preditores), um gráfico de diagnóstico de modelo básico e (opcionalmente) os diagramas de efeito.
*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
**Friedman, Jerome H., "Multivariate Adaptive Regression Splines", Stanford University, agosto de 1990