Ferramenta de árvore de decisão
A ferramenta árvore de decisão cria um conjunto de regras If-então Split para otimizar os critérios de criação de modelo com base nos métodos de aprendizado da árvore de decisão . A formação de regras baseia-se no tipo de campo de destino:
- Se o campo de destino é um membro de um conjunto de categorias, uma árvore de classificação é construída.
- Se o campo de destino for uma variável contínua, uma árvore de regressão será construída.
Use a ferramenta árvore de decisão quando o campo destino for previsto usando um ou mais campos variáveis, como um problema de classificação ou regressão de destino contínuo.
Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

A ferramenta de decisão tee requer uma entrada com:
- Um campo de destino de interesse
- Um ou mais campos do preditor
Os pacotes usados na estimativa de modelo variam com base no fluxo de dados de entrada.
- Um fluxo de dados Alteryx usa a função Open Source R rpart .
- Um fluxo de metadados XDF, proveniente de uma Ferramenta Entrada XDF ou Ferramenta Saída XDF, usa o RevoScaleR rxDTree função.
- Os dados de um fluxo de dados no banco de dados do SQL Server usam a função rxBTrees.
- A instalação do Microsoft Machine Learning Server aproveita a função RevoScaleR rxBTrees para seus dados em bancos de dados do SQL Server ou Teradata. Isso requer que a máquina local e o servidor sejam configurados com o Microsoft Machine Learning Server, que permite o processamento no servidor do banco de dados e resulta em uma melhoria significativa do desempenho.
Capacidades RevoScaleR
Em comparação com as funções R de código aberta, a função baseada em RevoScaleR pode analisar conjuntos de dados muito maiores. No entanto, a função baseada no RevoScaleR deve criar um arquivo XDF, que aumenta o custo de sobrecarga, usa um algoritmo que faz mais passagens pelos dados, aumenta o tempo de execução e não pode criar saídas de diagnóstico do modelo.

Essas opções são necessárias para gerar uma decisão.
- Tipo nomedo modelo: um nome para o modelo que pode ser referenciado por outras ferramentas. O nome do modelo ou prefixo deve começar com uma letra e pode conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). R diferencia maiúsculas e minúsculas.
- Selecionar variávelde destino: o campo de dados a ser previsto, também conhecido como uma resposta ou variável dependente.
- Selecione variáveis do preditor: os campos de dados usados para influenciar o valor da variável de destino, também conhecido como um recurso ou variável independente. Um campo do preditor é exigido no mínimo, mas não há nenhum limite superior no número de campos do preditor selecionado. A variável de destino propriamente dita não deve ser usada no cálculo do valor de destino, portanto, o campo de destino não deve ser incluído com os campos do preditor.
As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Clique em Personalizar para ajustar configurações adicionais.
Modelo: as opções que alteram a forma como o modelo avalia dados e é construído.

Escolhao algoritmo: selecione a função rpart ou a função c 5.0.
rpart: um algoritmo baseado no trabalho de Breiman, Friedman, Olshen e Stone; considerado o padrão. Use rpart se você estiver criando um modelo de regressão ou se você precisar de uma parcela de poda.

Tipo de modelo e pesosde amostragem: controlos para o tipo de modelo com base na variável-alvo e no manuseamento de pesos de amostragem.

- Tipode modelo: o tipo de modelo usado para prever a variável de destino.
- Auto: o tipo de modelo é automaticamente selecionado com base no tipo de variável de destino.
- Classificação: o modelo prevê um valor de texto discreto de uma categoria ou grupo.
- Regressão: o modelo prevê valores numéricos contínuos.
- Use pesos de amostragem na estimativa do modelo: uma opção que permite que você selecione um campo que julga a importância colocada em cada registro e pondera o registro em conformidade ao criar uma estimativa de modelo.
Se um campo é usado como um preditor e um peso de amostra, o campo de variável de peso de saída é anexado com "Right_".
Divisão de critérios e substitutos: controles de como o modelo determina uma divisão e como os substitutos são usados na avaliação de padrões de dados.

- Os critérios de divisão a serem usados: Selecione a forma como o modelo é avaliado quando uma árvore deve ser dividida.
- Coeficiente de Gini
- Índice de informações
- Use substitutos para: selecione o método para usar substitutos no processo de divisão. Os substitutos são variáveis relacionadas à variável primária que são usadas para determinar o resultado de divisão para um registro com informações ausentes.
- Omitir observações com valor ausente para regra de divisão primária: o registro que falta a variável de candidato não é considerado na determinação da divisão.
- Registros de divisão faltando a variável de candidato: todos os registros que faltam a variável de candidato são distribuídos uniformemente na divisão.
- Enviar observação na direção da maioria se todos os substitutos estão faltando: todos os registros que faltam a variável de candidato são empurrados para o lado da divisão que contém mais registros.
- Selecione a melhor divisão substituta usando: selecione os critérios para escolher a melhor variável a ser dividida em um conjunto de variáveis possíveis.
- Número de classificações corretas para uma variável de candidato: escolhe a variável a ser dividida com base no número total de registros que são classificados corretamente.
- Porcentagem de classificações corretas para uma variável candidata escolhe a variável a ser dividida com base na porcentagem de registros que são classificados corretamente.
Os critérios de divisão ao usar um modelo de regressão são sempre menos quadrados.
A impureza é usada.
Hiperparâmetros: controles para a distribuição prévia do modelo.

- O número mínimo de registros necessários para permitir uma divisão: defina o número de registros que devem existir antes que ocorra uma divisão. Se houver menos registros do que o número mínimo, então não serão permitidas divisões adicionais.
- O número mínimo permitido de registros em um nó de terminal: Defina o número de registros que podem estar em um nó de terminal. Um número mais baixo aumenta o número potencial de nós terminais finais no final da árvore.
- O número de dobras para usar na validação cruzada para podar a árvore: definir o número de grupos (N) os dados devem ser divididos em ao testar o modelo. O número padrão é 10, mas outros valores comuns são 5 e 20. Um número mais elevado de dobras dá mais exatidão à árvore mas pode tomar mais por muito tempo para processar. Quando a árvore é podada usando um parâmetro de complexidade, a validação cruzada determina quantas divisões ou ramificações estão na árvore. Na validação cruzada, N-1 das dobras são usados para criar um modelo, e a outra dobra é usada como uma amostra para determinar o número de ramificações que melhor se encaixa na dobra de validação, a fim de evitar a supermontagem.
- A profundidade máxima permitida de qualquer nó na árvore final: defina o número de níveis de ramificações permitidas do nó raiz para o nó mais distante da raiz para limitar o tamanho total da árvore.
- O número máximo de caixas a serem usadas para cada variável numérica: Insira o número de caixas a serem usadas para cada variável. Por padrão, o valor é calculado com base no número mínimo de registros necessários para permitir uma divisão.
- Definir parâmetrode complexidade: um valor que controla o tamanho da árvore de decisão. Um valor menor resulta em mais ramificações na árvore e um valor maior resulta em menos ramificações. Se um parâmetro de complexidade não estiver selecionado, o parâmetro será determinado com base na validação cruzada.
Somente fluxo de metadados Xdf do
Esta opção só se aplica quando a entrada na ferramenta é um fluxo de metadados Xdf do. A função de escalador Revo (rxDTree) que implementa a árvore de decisão escalável manipula variáveis numéricas por meio de um processo de binning de intervalo igual para reduzir a complexidade computacional.
C 5.0: um algoritmo baseado no trabalho de Quinlan; use c 5.0 se seus dados forem classificados em um de um pequeno número de classes mutuamente exclusivas. Propriedades que podem ser relevantes para a atribuição de classe são fornecidas, embora alguns dados podem ter valores desconhecidos ou não-aplicáveis.

Opções estruturais: controles para a estrutura do modelo. Por padrão, o modelo é estruturado como uma árvore de decisão.

- Decompor árvore em modelo baseado em regra: altere a estrutura do algoritmo de saída de uma árvore de decisão em uma coleção de regras não ordenadas, simples se-então.
- Número limite de faixas para agrupar regras em: Selecione para selecionar um número de bandas para agrupar regras em onde o conjunto de números é o limite de banda.
Opções detalhadas: controles para divisões e recursos do modelo.

- O modelo deve avaliar grupos de preditores discretos para divisões: agrupar variáveis do preditor categórico em conjunto. Selecione para reduzir a supermontagem quando houver atributos discretos importantes que tenham mais de quatro ou cinco valores.
- Use o preditor winnowing (ou seja, seleção de recursos): Selecione para simplificar o modelo, tentando excluir os preditores não úteis.
- Árvore de poda: Selecione para simplificar a árvore para reduzir a supermontagem removendo rachas de árvore.
- Avalie as divisões avançadas nos dados: Selecione para realizar avaliações com variáveis secundárias para confirmar qual ramificação é a previsão mais precisa.
- Use o método de parada para impulsionar: Selecione para avaliar se aumentar as iterações estão se tornando ineficazes e, se assim for, parar de aumentar.
Hiperparâmetros numéricos: controles para a distribuição prévia do modelo que se baseiam em um valor numérico.

- Selecione o número de iterações de aumento: selecione um 1 para usar um único modelo.
- Selecione fator de confiança: Este é o analógico do parâmetro de complexidade do rpart.
- Selecione o número de amostras que devem estar em pelo menos 2 divisões: um número maior dá uma árvore menor, mais simplificada.
- Porcentagem de dados detidos de treinamento para avaliação de modelos: selecione a porção dos dados usados para treinar o modelo. Use o valor padrão 0 para usar todos os dados para treinar o modelo. Selecione um valor maior para manter essa porcentagem de dados de treinamento e avaliação da precisão do modelo
- Selecione semente aleatória para algoritmo: selecione o valor da semente. O valor deve ser um inteiro positivo.
Validação cruzada: controles para personalizar um método de validação com uso eficiente de informações disponíveis.

- Use a validação cruzada para determinar as estimativas da qualidade do modelo: Selecione para executar validação cruzada para obter várias métricas e gráficos de qualidade de modelo. Algumas métricas e gráficos são exibidos na saída R, e outros são exibidos na saída i.
- Número de dobras de validação cruzada: o número de subamostras que os dados são divididos para validação ou treinamento. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
- Número de testes de validação cruzada: o número de vezes que o procedimento de validação cruzada é repetido. As dobras são selecionadas de forma diferente em cada julgamento, e os resultados são em média em todos os ensaios. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
- Definir semente para validação cruzada externa: um valor que determina a seqüência de sorteios para amostragem aleatória. Isso faz com que os mesmos registros dentro dos dados sejam escolhidos, embora o método de seleção seja aleatório e não dependente de dados.
- Selecione o valor da semente aleatória para validação cruzada: selecione o valor da semente. O valor deve ser um inteiro positivo.
Plotagens: Selecione e configure os gráficos exibidos no relatório de saída.

Exibir relatório estático: Selecione para exibir um relatório de resumo do modelo da âncora de saída R. Selecionado por padrão.
Parcelada árvore: um gráfico de variáveis de árvore de decisão e ramos.

Exibir plotagem de árvore: clique para incluir um gráfico de variáveis de árvore de decisão e ramificações na saída do relatório de modelo.
- Distâncias uniformes da filial: Selecione para exibir as ramificações de árvore com comprimento uniforme ou proporcional à importância relativa de uma divisão na previsão do destino.
- Folha resumo: Determine o que é exibido nos nós da folha final no enredo da árvore. Selecione contagens se o número de registros for exibido. Selecione proporções se a porcentagem de registros totais for exibida.
- Tamanho da plotagem: selecione se o gráfico é exibido em polegadas ou centímetros.
- Largura: defina a largura do gráfico usando a unidade selecionada no tamanho da plotagem.
- Altura: defina a altura do gráfico usando a unidade selecionada no tamanho da plotagem.
-
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.
- Tamanho da fonte base (pontos): selecione o tamanho da fonte no gráfico.
Parcela de poda: um gráfico simplificado da árvore de decisão.

Exibir plotagem de poda: clique para incluir um gráfico simplificado da árvore de decisão na saída do relatório de modelo.
- Tamanho da plotagem: selecione se o gráfico é exibido em polegadas ou centímetros.
- Largura: defina a largura do gráfico usando a unidade selecionada no tamanho da plotagem.
- Altura: defina a altura do gráfico usando a unidade selecionada no tamanho da plotagem.
-
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.
- Tamanho da fonte base (pontos): defina o tamanho da fonte no gráfico.

A ferramenta árvore de decisão suporta o Microsoft SQL Server 2016 e o processamento de banco de dados Teradata. Veja Visão geral do recurso Na base de dados para obter mais informações sobre suporte e ferramentas no banco de dados.
Quando uma ferramenta de árvore de decisão é colocada na tela com outra ferramenta em-dB, a ferramenta muda automaticamente para a versão em-dB. Para alterar a versão da ferramenta, clique com o botão direito do mouse na ferramenta, aponte para escolher a versão da ferramenta e clique em uma versão diferente da ferramenta. Veja Análise de dados preditiva para obter mais informações sobre o suporte de banco de dados preditivo.

- Nomedo modelo: cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente.
- Um nome de modelo específico: insira o nome do modelo que deseja usar para o modelo. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
- Gere automaticamente um nome de modelo: o designer gera automaticamente um nome de modelo que atenda aos parâmetros necessários.
- Selecione a variávelde destino: selecione o campo do fluxo de dados que deseja prever.
- Selecione as variáveis do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.
- Use pesos de amostragem na estimativa do modelo (opcional): Selecione para escolher um campo do fluxo de dados de entrada para usar o peso de amostragem fo.
- Selecione o campo de pesode amostragem: selecione um campo de peso do fluxo de dados para estimar um modelo que use peso de amostragem. Um campo é usado como um preditor e a variável de peso.
As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
A variável de peso aparece na chamada de modelo na saída com a seqüência de caracteres "Right_" anexado a ele.

- Tipode modelo: selecione que tipo de modelo vai ser usado.
- Classificação: um modelo para prever um alvo categórico. Se estiver usando um modelo de classificação, selecione também os critérios de divisão.
- Coeficiente de Gini
- índice de informações baseada em entropia
- Regressão: um modelo para prever um alvo numérico contínuo.
- O número mínimo de registros necessários para permitir uma divisão: se ao longo de um conjunto de ramos de uma árvore houver menos registros do que o número mínimo selecionado do que nenhuma divisão adicional é permitida.
- Parâmetro da complexidade: Este parâmetro controla como as divisões são executadas (isto é, o número de filiais na árvore). O valor deve estar abaixo de 1 e, quanto menor o valor, mais ramificações terá a árvore final. Um valor "Automático" ou a omissão de um valor resultará na seleção do "melhor" parâmetro de complexidade com base na validação cruzada.
- O número mínimo permitido de registros em um nó de terminal: o menor número de registros que devem estar contidos em um nó de terminal. Diminuir esse número aumenta o número potencial de nós terminais finais.
- Uso substituto: esse grupo de opções controla como os registros com dados ausentes nas variáveis do preditor em uma determinada divisão são endereçados. A primeira opção é omitir (remover) um registro com um valor ausente da variável usada na divisão. O segundo é usar "substituto" divide, em que a direção de um registro será enviado é baseado em divisões alternativas em uma ou mais outras variáveis com quase os mesmos resultados. A terceira opção é enviar a observação na direção maioritária na divisão.
- Omitir uma observação com um valor ausente para a regra de divisão primária
- Usar substitutos para dividir registros com a variável de candidato ausente
- Se todos os substitutos estão ausentes, envie a observação na direção da maioria
- O número total de classificações corretas para uma variável de candidato potencial
- A porcentagem correta calculada sobre os valores não ausentes de uma variável de candidato
- O número de dobras a ser usado na validação cruzada para podar a árvore: quando a árvore é podada através do uso de um parâmetro de complexidade, a validação cruzada é usada para determinar quantas divisões, portanto, ramificações, estão na árvore. Isto é feito através do uso da validação cruzada em que N-1 das dobras são usadas para criar um modelo, e a dobra enésimo é usada como uma amostra para determinar o número de filiais que melhor se ajusta melhor a dobra da validação a fim evitar overfitting. Uma coisa que pode ser alterada pelo usuário é o número de grupos (N) em que os dados devem ser divididos. O padrão é 10, mas outros valores comuns são 5 e 20.
- A profundidade máxima permitida de qualquer nó na árvore final: essa opção limita o Dimensionar geral da árvore, indicando quantos níveis são permitidos do nó raiz para o nó mais distante da raiz.
- O número máximo de caixas a serem usadas para cada variável numérica: a função de escalador Revo (rxDTree) que implementa a árvore de decisão escalável lida com variáveis numéricas por meio de um processo binning de intervalo igual para reduzir a complexidade computacional. As opções para estes são "default", que usa uma fórmula com base no número mínimo de registros necessários para permitir uma divisão, mas pode ser definida manualmente pelo usuário. Esta opção aplica-se somente em casos onde a entrada na ferramenta é um fluxo de metadados Xdf do.

- Lote de árvore: este conjunto de opções controla um número de opções associadas com a plotagem de uma árvore de decisão.
- Folha resumo: a primeira escolha esta opção é a natureza do resumo folha. Essa opção controla se contagens ou proporções são impressas nos nós de folha final na plotagem de árvore.
- Conta:
- Proporções:
- Distâncias uniformesda filial: a segunda opção é se as distâncias uniformes da filial devem ser usadas. Esta opção controla se o comprimento das ramificações de árvore desenhada refletem a importância relativa de uma divisão na previsão do destino ou são de comprimento uniforme na plotagem da árvore.
- Parcela de poda: esta opção permite que você ajuste o tamanho, a definição, e a pia batismal baixa da parcela de poda em uma maneira análoga à parcela da árvore.
- Tamanho da plotagem: defina as dimensões da plotagem da árvore de saída.
- Polegadas: definir a largura ea altura do enredo.
- Centímetros: definir a largura ea altura do enredo.
-
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.
- Tamanho da fonte base (pontos): o tamanho da fonte em pontos.

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
- O (output): exibe o nome do modelo e o tamanho do objeto na janela de resultados.
- R (Report): exibe um relatório sumário do modelo que inclui um resumo e plotagens.
- I (interativo): exibe um painel interativo de suporte a visuais que permite ampliar, focalizar e clicar.
Comportamento esperado: precisão de plotagem
Ao usar a ferramenta árvore de decisão para processamento padrão, a saída interativa mostra maior precisão com valores numéricos do que a saída do relatório.