Ferramenta Modelo impulsionado

Conecte uma entrada

A ferramenta Modelo impulsionado requer um fluxo de dados de entrada com:

Um campo de destino de interesse
Dois ou mais campos do preditor

Os pacotes usados na estimativa de modelo variam com base no fluxo de dados de entrada.

Um fluxo de dados Alteryx usa a função de código aberto R GBM.
Um fluxo de metadados XDF, proveniente de uma Ferramenta Entrada XDF ou Ferramenta Saída XDF, usa a função RevoScaleR rxBTrees.
Os dados de um fluxo de dados no banco de dados do SQL Server usam a função rxBTrees.
A instalação do Microsoft Machine Learning Server aproveita a função RevoScaleR rxBTrees para seus dados em bancos de dados do SQL Server ou Teradata. Isso requer que a máquina local e o servidor sejam configurados com o Microsoft Machine Learning Server, que permite o processamento no servidor do banco de dados e resulta em uma melhoria significativa do desempenho.

Desempenho do algoritmo

Em comparação com as funções R de código aberta, a função baseada em RevoScaleR pode analisar conjuntos de dados muito maiores. No entanto, a função baseada no RevoScaleR deve criar um arquivo XDF, que aumenta o custo de sobrecarga, usa um algoritmo que faz mais passagens pelos dados, aumenta o tempo de execução e não pode criar saídas de diagnóstico do modelo.

Configurar a ferramenta para processamento padrão

Parâmetros obrigatórios: os campos básicos necessários para gerar um modelo impulsionado.

Definir os parâmetros obrigatórios de modelo

Nome do modelo: um nome para o modelo que pode ser referenciado por outras ferramentas. O nome do modelo ou prefixo deve começar com uma letra e pode conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). R diferencia maiúsculas e minúsculas.
Selecionar variável de destino: o campo de dados a ser previsto, também conhecido como uma resposta ou variável dependente.
Selecionar os campos do preditor: os campos de dados usados para influenciar o valor da variável de destino, também conhecido como um recurso ou variável independente. Dois campos do preditor são exigidos no mínimo, mas não há nenhum limite superior no número de campos do preditor selecionado. A variável de destino propriamente dita não deve ser usada no cálculo do valor de destino, portanto, o campo de destino não deve ser incluído com os campos do preditor.

As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Use pesos de amostragem na estimativa do modelo: uma opção que permite selecionar um campo que pese a importância colocada em cada registro ao criar uma estimativa de modelo.
Se um campo é usado como um preditor e um peso de amostra, o campo de variável de peso de saída será anexado com Right_.
- Selecionar o campo de peso de amostragem: o campo usado para ponderar os registros.
Incluir diagramas de efeito marginal?: uma opção para incluir diagramas no relatório que mostram a relação entre a variável do preditor e o destino, calculando a média sobre o efeito de outros campos do preditor.

O nível mínimo de importância de um campo a ser incluído nos diagramas: um valor percentual que indica o poder preditivo mínimo de uma variável a ser incluída no diagrama de efeito marginal. Uma percentagem mais elevada reduz o número de diagramas de efeito marginal produzidos.

Personalização do modelo: configurações opcionais que personalizam o modelo de saída com base no destino e como as árvores de decisão são gerenciadas.

Personalizar a configuração do modelo

Essas opções podem ser usadas para modificar as configurações do modelo.

Especificar o tipo de destino e a distribuição da função de perda: a categoria de dados no campo de destino e a função associada que funciona para otimizar a criação do modelo.

Destino contínuo: um destino numérico no qual um determinado valor exclusivo compreende uma pequena porcentagem das instâncias totais, como vendas anuais por loja.
Para um destino contínuo, minimize uma função de perda com base em uma das seguintes distribuições:

Gaussiano (perda de erro ao quadrado)
Laplace (perda de valor absoluto)
perda de distribuição t

Contar destino (número inteiro): um destino numérico para o qual a maioria dos valores exclusivos compreende uma grande porcentagem das instâncias totais, como o número de visitas a um consultório médico que uma pessoa faz em um ano.
Para um destino de contagem, minimize uma função de perda com base na distribuição de Poisson.
Binário (dois resultados) categórico: um destino categórico com dois resultados possíveis, como categorização sim-não.
Para um destino categórico binário, minimize uma função de perda com base em uma das seguintes distribuições:

Bernoulli (regressão logística)
AdaBoost (perda exponencial)

Multinomial (três ou mais resultados) categórico: um campo de destino categórico com um número limitado de resultados discretos, como categorização A, B ou C.
Para um destino categórico multinomial, minimize uma função de perda baseada em uma função de perda logística multinomial, uma generalização multinomial da função de perda de Bernoulli.

O número máximo de árvores no modelo: o número de árvores de decisão que o algoritmo pode incluir no modelo final. O valor padrão é 4000. Um número maior de árvores aumenta o tempo de execução.
Método para determinar o número final de árvores no modelo: o método usado para determinar o número de árvores de decisão que capturam adequadamente o comportamento preditivo sem sobrepor os dados da amostra.

Validação cruzada: método de validação com utilização eficiente das informações disponíveis. Recomendado em casos com dados limitados.

Número de dobras de validação cruzada: o número de subamostras que os dados são divididos para validação ou treinamento. O valor padrão é 5. Valores comuns são 5 e 10.
Em um caso com 5 dobras, os dados são divididos em 5 subamostras exclusivas e 5 modelos diferentes são criados, cada um usando dados de 4 das subamostras. A subamostra final é retida da criação do modelo e é usada para testar a precisão da previsão.
Número de núcleos de máquina a ser usado em validação cruzada: o número de núcleos da máquina usados na análise. O valor padrão é 1. O número utilizado deve ser sempre inferior ao número de núcleos disponíveis. Para aumentar a velocidade de computação, aumente o número de núcleos usados.

Amostra de teste (validação): método de validação que puxa amostras dos dados de treinamento. Recomendado em casos com muitos registros.

A percentagem na amostra de estimativa (treinamento): a percentagem de registos utilizados na amostra de treinamento, com o restante utilizado na amostra de teste. O valor padrão é 50. Valores comuns são 50% e 75%. Se 50% dos registos forem utilizados na amostra de treinamento, os 50% restantes são utilizados para testar a precisão da previsão.

Out-of-bag : método de validação que usa registros que foram excluídos na criação do modelo.

A fração das observações usadas na amostra out-of-bag: uma percentagem de amostragem utilizada para orientar o número adequado de árvores para incluir no modo para evitar o sobreajuste. O valor padrão é 50%. Os valores comuns estão entre 25-50%.
Encolhimento: um valor entre 0 e 1 usado para colocar o peso em cada árvore adicionada ao modelo. O valor padrão é 0,0020. Valores menores permitem que mais árvores sejam incluídas no modelo, o que aumenta o tempo de execução.
Um pequeno valor de encolhimento pode exigir que o valor para definir o número máximo de árvores de decisão aumente para garantir um número ideal de árvores.
Profundidade de interação: o nível de interação entre os campos do preditor. Por exemplo, uma interação de três vias indica que um preditor depende de dois outros preditores para determinar o impacto no campo de destino. O valor padrão é linear, com a pressuposição de nenhuma interação entre os campos do preditor. Aumentar a profundidade aumenta o tempo de execução.
Número mínimo de objetos obrigatórios em cada nó de árvore: um parâmetro que verifica uma árvore de decisão tem tamanho suficiente antes de permitir a adição de outra árvore de decisão. O padrão é 10. Aumentar o valor resultará em árvores de decisão menores.
Valor de semente aleatória: um valor que determina a sequência de sorteios para amostragem aleatória. Isso faz com que os mesmos registros dentro dos dados sejam escolhidos, embora o método de seleção seja aleatório e não dependente de dados. Altere o valor para mudar a sequência de sorteios aleatórios.

Opções de gráficos: as configurações do gráfico de saída. Os padrões são usados a menos que personalizados.

Configurar a ferramenta para processamento em banco de dados

A ferramenta de modelo impulsionado oferece suporte ao processamento em banco de dados do Microsoft SQL Server 2016. Veja Visão geral do recurso Na base de dados para obter mais informações sobre suporte e ferramentas no banco de dados.

Para acessar a versão na BD da ferramenta de modelo impulsionado:

Coloque uma ferramenta em banco de dados na tela. A ferramenta de modelo impulsionado muda automaticamente para o modelo impulsionado na BD.
Clique com o botão direito do mouse na ferramenta de modelo impulsionado, aponte para Escolher a versão da ferramenta e selecione Modelo impulsionado na BD .

Veja Análise de dados preditiva para obter mais informações sobre o suporte de banco de dados preditivo.

Parâmetros obrigatórios: os campos básicos necessários para gerar um modelo impulsionado.

Definir os parâmetros obrigatórios de modelo

Cada modelo criado requer um nome que pode referenciado por outras ferramentas. O processamento Ina BD permite dois métodos de criação de nome de modelo:
- Nome do modelo específico: um nome de modelo determinado pelo usuário. O nome do modelo ou prefixo deve começar com uma letra e pode conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). R diferencia maiúsculas e minúsculas.
- Nome do modelo gerado: o nome do modelo é gerado automaticamente.
Selecionar variável de destino: o campo de dados a ser previsto, também conhecido como uma resposta ou variável dependente.
Selecione as variáveis do preditor: os campos de dados usados para influenciar o valor da variável de destino, também conhecido como um recurso ou variável independente. Dois valores do preditor são exigidos no mínimo, mas não há nenhum limite superior no número de valores usados do preditor. A variável de destino propriamente dita não deve ser usada no cálculo do valor de destino, portanto, o campo de destino não deve ser incluído com os campos do preditor.

As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Use pesos de amostragem na estimativa do modelo: uma opção que permite selecionar um campo que pese a importância colocada em cada registro ao criar uma estimativa de modelo.

Se um campo é usado como um preditor e um peso de amostra, o campo de variável de peso de saída será anexado com Right_.
Selecionar o campo de peso de amostragem: o campo usado para ponderar os registros.

Personalização do modelo: configurações opcionais que personalizam o modelo de saída com base no destino e como as árvores de decisão são gerenciadas.

Personalizar a configuração do modelo

Essas opções podem ser usadas para modificar as configurações do modelo.

Especifique o tipo de destino e a distribuição de função de perda:
- Destino contínuo: um destino numérico no qual qualquer valor exclusivo fornecido contém uma pequena porcentagem das instâncias totais, como vendas anuais por loja.
  Para um destino contínuo, minimize uma função de perda com base na distribuição gaussiana.
- Destino categórico binário: um destino categórico com dois resultados possíveis, como categorização sim-não.
  Para um destino categórico binário, minimize uma função de perda com base nas distribuições de Bernoulli.
- Destino categórico multinomial: um campo de destino categórico com um número limitado de resultados discretos, como categorização A, B ou C.
  Para um destino categórico multinomial, minimize uma função de perda baseada em uma função de perda logística multinomial, uma generalização multinomial da função de perda de Bernoulli.
O número máximo de árvores no modelo: o número de árvores de decisão que o algoritmo pode adicionar para incluir no modelo final. O valor padrão é 4000. Um número maior de árvores aumenta o tempo de execução.
A fração das observações na amostra out-of-bag: uma percentagem de amostragem utilizada para reduzir o número de árvores de decisão incluídas com uma avaliação out-of-bag. O valor padrão é 50%. Os valores comuns estão entre 25-50%.
Peso do encolhimento: um valor entre 0 e 1 usado para colocar o peso em cada árvore adicionada ao modelo. O valor padrão é 0,0020. Valores menores permitem que mais árvores sejam incluídas no modelo, o que aumenta o tempo de execução.
Um pequeno valor de encolhimento pode exigir que o valor para definir o número máximo de árvores de decisão aumente para garantir um número ideal de árvores.
Tamanho da árvore: para imitar as configurações de tamanho de árvore padrão na ferramenta de modelo impulsionado padrão, use os valores padrão. Para obter mais informações, consulte controles rxBTrees.

maxDepth: Profundidade máxima de qualquer nó da árvore [1000]
minBucket: Número mínimo necessário de observações em um nó terminal (ou folha) [10]
minSplit: Número mínimo de observações que devem existir em um nó antes da tentativa de uma divisão [minBucket * 2]

Valor de semente aleatória: um valor que determina a sequência de sorteios para amostragem aleatória. Isso faz com que os mesmos registros dentro dos dados sejam escolhidos, embora o método de seleção seja aleatório e não dependente de dados. Altere o valor para mudar a sequência de sorteios aleatórios.

Opções de gráficos: as configurações do gráfico de saída. Os padrões são usados a menos que personalizados.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

A âncora O: produz o nome e o tamanho do modelo na janela de resultados.
A âncoraR: exibe um relatório do modelo que inclui um resumo e quaisquer diagramas configurados.