Ferramenta do modelo da floresta

A ferramenta de modelo de floresta cria um modelo que constrói um conjunto de modelos de árvore de decisão para prever uma variável de destino com base em uma ou mais variáveis de preditor. Os diferentes modelos são construídos usando amostras aleatórias dos dados originais, um procedimento conhecido como inicialização. Além disso, apenas um número limitado de variáveis é considerado em cada divisão de árvore, com o número determinado definido, seja automaticamente por R ou definido pelo usuário. Veja a floresta aleatória.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Configurar a ferramenta para processamento padrão

Parâmetros obrigatórios

Nome do modelo: digite um nome para o modelo para identificar o modelo quando ele é referenciado em outras ferramentas. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
Selecione a variávelde destino: selecione os dados a serem previstos. Uma variável de destino também é conhecida como uma resposta ou variável dependente.
Selecione as variáveis do preditor: selecione os dados a serem usados para influenciar o valor da variável de destino. Uma variável de preditor também é conhecida como um recurso ou uma variável independente. Qualquer número de variáveis do preditor pode ser selecionada, mas a variável de destino também não deve ser uma variável de preditor. Cada variável de predição categórica pode ter um máximo de 32 classes.

As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Número de árvores a serem usadas: selecione o número de modelos de árvore a serem incluídos na floresta. O padrão é 500 com base na descoberta de Breiman. Diminua o valor com um fluxo de metadados Xdf do se o comprimento do tempo de execução do modelo for uma preocupação.
Selecione um número específico de variáveis para selecionar entre em cada divisão: selecione o número de variáveis a serem consideradas em cada divisão.

Clique em personalização de modelo para modificar as configurações do modelo.

Personalização de modelo

Limitar diretamente o tamanho geral de cada árvore de modelo

O total de nós permitidos em uma árvore: Selecione para modelos que usam o modelo Open Source randomForest.
A profundidade máxima de uma árvore de modelo: Selecione para modelos que usam a função rxDForest RevoScaleR é usado

O número mínimo de registros permitidos em um nó de árvore: selecione um valor para controlar o tamanho do nó de terminal permitido menor em cada árvore Ensemble. Aumentar este número irá reduzir o número total de nós em cada árvore.
Selecione os registros para a criação de cada modelo com substituição: Selecione para controlar se os replicadores de Bootstrap são extraídos da amostra de estimativa completa com ou sem substituição.
A porcentagem dos registros de dados a serem amostrados para criar cada árvore: Selecione para controlar se toda ou somente parte da amostra de estimativa completa será usada para formar cada Bootstrap replicar.

Configurar a ferramenta para processamento em banco de dados

A ferramenta modelo de floresta oferece suporte ao processamento do banco de dados do Microsoft SQL Server 2016. Veja Visão geral do recurso Na base de dados para obter mais informações sobre suporte e ferramentas no banco de dados.

Quando uma ferramenta de modelo de floresta é colocada na tela com outra ferramenta em-dB, a ferramenta muda automaticamente para a versão em-dB. Para alterar a versão da ferramenta, clique com o botão direito do mouse na ferramenta, aponte para escolher a versão da ferramenta e clique em uma versão diferente da ferramenta. Veja Análise de dados preditiva para obter mais informações sobre o suporte de banco de dados preditivo.

Parâmetros obrigatórios

Nomedo modelo: cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. A escolha é fornecer um nome ou ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
Selecione a variávelde destino: selecione o campo do fluxo de dados que deseja prever.
Selecione as variáveis do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.

Número de árvores a serem usadas: selecione o número de modelos de árvore a serem incluídos na floresta. O padrão é 500 com base na descoberta de Breiman. Diminua o valor com um fluxo de metadados Xdf do se o comprimento do tempo de execução do modelo for uma preocupação.
Selecione um número específico de variáveis para selecionar entre em cada divisão: selecione o número de variáveis a serem consideradas em cada divisão.
Use pesos de amostragem para estimativa de modelo: clique na caixa de seleção e selecione um campo de peso do fluxo de dados para estimar um modelo que usa peso de amostragem. Um campo é usado como um preditor e a variável de peso, em seguida, a variável de peso aparecerá na chamada de modelo na saída com a seqüência de caracteres "Right_" anexado a ele.

Personalização de modelo

Limitar diretamente o tamanho geral de cada árvore de modelo

O total de nós permitidos em uma árvore: Selecione para modelos que usam o modelo Open Source R randomForest.
A profundidade máxima de uma árvore de modelo: Selecione para modelos que usam o RevoScaleR rxDForest função.

O número mínimo de registros permitidos em um nó de árvore: selecione um valor para controlar o tamanho do nó de terminal permitido menor em cada árvore Ensemble. Aumentar este número irá reduzir o número total de nós em cada árvore.
Selecione os registros para a criação de cada modelo com substituição: Selecione para controlar se os replicadores de Bootstrap são extraídos da amostra de estimativa completa com ou sem substituição.
A porcentagem dos registros de dados a serem amostrados para criar cada árvore: Selecione para controlar se toda ou somente parte da amostra de estimativa completa será usada para formar cada Bootstrap replicar.