Ferramenta do modelo da floresta
A ferramenta de modelo de floresta cria um modelo que constrói um conjunto de modelos de árvore de decisão para prever uma variável de destino com base em uma ou mais variáveis de preditor. Os diferentes modelos são construídos usando amostras aleatórias dos dados originais, um procedimento conhecido como inicialização. Além disso, apenas um número limitado de variáveis é considerado em cada divisão de árvore, com o número determinado definido, seja automaticamente por R ou definido pelo usuário. Veja a floresta aleatória.
Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.
Conecte um fluxo de dados Alteryx ou Xdf do de metadados que inclua um campo de destino de interesse junto com um ou mais possíveis campos de previsão.
Se os dados de entrada forem de um fluxo de dados Alteryx, então a função Open Source R randomForest ( do pacote randomForest) é usada para a estimativa do modelo.
Se os dados de entrada forem provenientes Ferramenta Saída XDF ou Ferramenta Entrada XDF, em seguida, o RevoScaleR rxDForest função é usada para a estimativa do modelo. A vantagem de usar a função baseada em RevoScaleR é que ele permite que conjuntos de dados muito maiores (fora da memória) sejam analisados, mas ao custo de sobrecarga adicional para criar um arquivo Xdf do, e ele usa um algoritmo que precisa fazer mais passes sobre os dados para criar cada árvore no conjunto (por isso é muito mais lento) do que a função Open Source randomForest. Como resultado, a redução do número de árvores no conjunto do padrão 500 árvores é altamente recomendável.
- Nome do modelo: digite um nome para o modelo para identificar o modelo quando ele é referenciado em outras ferramentas. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
- Selecione a variávelde destino: selecione os dados a serem previstos. Uma variável de destino também é conhecida como uma resposta ou variável dependente.
- Selecione as variáveis do preditor: selecione os dados a serem usados para influenciar o valor da variável de destino. Uma variável de preditor também é conhecida como um recurso ou uma variável independente. Qualquer número de variáveis do preditor pode ser selecionada, mas a variável de destino também não deve ser uma variável de preditor. Cada variável de predição categórica pode ter um máximo de 32 classes.
- Número de árvores a serem usadas: selecione o número de modelos de árvore a serem incluídos na floresta. O padrão é 500 com base na descoberta de Breiman. Diminua o valor com um fluxo de metadados Xdf do se o comprimento do tempo de execução do modelo for uma preocupação.
- Selecione um número específico de variáveis para selecionar entre em cada divisão: selecione o número de variáveis a serem consideradas em cada divisão.
As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Clique em personalização de modelo para modificar as configurações do modelo.
- Limitar diretamente o tamanho geral de cada árvore de modelo
- O total de nós permitidos em uma árvore: Selecione para modelos que usam o modelo Open Source randomForest.
- A profundidade máxima de uma árvore de modelo: Selecione para modelos que usam a função rxDForest RevoScaleR é usado
- O número mínimo de registros permitidos em um nó de árvore: selecione um valor para controlar o tamanho do nó de terminal permitido menor em cada árvore Ensemble. Aumentar este número irá reduzir o número total de nós em cada árvore.
- Selecione os registros para a criação de cada modelo com substituição: Selecione para controlar se os replicadores de Bootstrap são extraídos da amostra de estimativa completa com ou sem substituição.
- A porcentagem dos registros de dados a serem amostrados para criar cada árvore: Selecione para controlar se toda ou somente parte da amostra de estimativa completa será usada para formar cada Bootstrap replicar.
- Tamanhodo lote: selecione polegadas ou centímetros para o tamanho do gráfico.
-
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.
- Tamanho da fonte base (pontos): selecione o tamanho da fonte no gráfico.
Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
- O Anchor: exibe o nome do modelo e o tamanho do objeto na janela resultados.
- R Anchor: exibe um relatório sumário do modelo que inclui um resumo e plotagens.
A ferramenta modelo de floresta oferece suporte ao processamento do banco de dados do Microsoft SQL Server 2016. Veja Visão geral do recurso Na base de dados para obter mais informações sobre suporte e ferramentas no banco de dados.
Quando uma ferramenta de modelo de floresta é colocada na tela com outra ferramenta em-dB, a ferramenta muda automaticamente para a versão em-dB. Para alterar a versão da ferramenta, clique com o botão direito do mouse na ferramenta, aponte para escolher a versão da ferramenta e clique em uma versão diferente da ferramenta. Veja Análise de dados preditiva para obter mais informações sobre o suporte de banco de dados preditivo.
Conecte um fluxo de dados no banco de dado que inclua um campo de interesse de destino junto com um ou mais possíveis campos de previsão.
Se a entrada for de um SQL Server ou de um fluxo de dados de banco de dados em Teradata, então a função rxDForest do Microsoft Machine Learning Server (do pacote RevoScaleR) é usada para a estimativa do modelo. Isso permite que o processamento seja feito no servidor de banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server e possam resultar em uma melhoria significativa no desempenho.
- Nomedo modelo: cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. A escolha é fornecer um nome ou ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
- Selecione a variávelde destino: selecione o campo do fluxo de dados que deseja prever.
- Selecione as variáveis do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.
- Número de árvores a serem usadas: selecione o número de modelos de árvore a serem incluídos na floresta. O padrão é 500 com base na descoberta de Breiman. Diminua o valor com um fluxo de metadados Xdf do se o comprimento do tempo de execução do modelo for uma preocupação.
- Selecione um número específico de variáveis para selecionar entre em cada divisão: selecione o número de variáveis a serem consideradas em cada divisão.
- Use pesos de amostragem para estimativa de modelo: clique na caixa de seleção e selecione um campo de peso do fluxo de dados para estimar um modelo que usa peso de amostragem. Um campo é usado como um preditor e a variável de peso, em seguida, a variável de peso aparecerá na chamada de modelo na saída com a seqüência de caracteres "Right_" anexado a ele.
As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
- Limitar diretamente o tamanho geral de cada árvore de modelo
- O total de nós permitidos em uma árvore: Selecione para modelos que usam o modelo Open Source R randomForest.
- A profundidade máxima de uma árvore de modelo: Selecione para modelos que usam o RevoScaleR rxDForest função.
- O número mínimo de registros permitidos em um nó de árvore: selecione um valor para controlar o tamanho do nó de terminal permitido menor em cada árvore Ensemble. Aumentar este número irá reduzir o número total de nós em cada árvore.
- Selecione os registros para a criação de cada modelo com substituição: Selecione para controlar se os replicadores de Bootstrap são extraídos da amostra de estimativa completa com ou sem substituição.
- A porcentagem dos registros de dados a serem amostrados para criar cada árvore: Selecione para controlar se toda ou somente parte da amostra de estimativa completa será usada para formar cada Bootstrap replicar.
- Tamanhodo lote: selecione polegadas ou centímetros para o tamanho do gráfico.
-
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.
- Tamanho da fonte base (pontos): selecione o tamanho da fonte no gráfico.
Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
- O Anchor: exibe o nome do modelo e o tamanho do objeto na janela resultados.
- R Anchor: exibe um relatório sumário do modelo que inclui um resumo e plotagens.