Ferramenta de rede neural

A ferramenta de rede neural cria um modelo de rede neural Feedforward perceptron com uma única camada oculta. Os neurônios na camada oculta usam uma função de ativação logística (também conhecida como sigmóide), e a função de ativação de saída depende da natureza do campo de destino. Especificamente, para problemas de classificação binária (por exemplo, a probabilidade que um cliente compra ou não compra), a função de ativação de saída usada é logística, para problemas de classificação multinomial (por exemplo, a probabilidade de um cliente escolher a opção a, B ou C) função de ativação de saída usada é softmax, para problemas de regressão (onde o destino é um campo numérico contínuo) uma função de ativação linear é usada para a saída.

As redes neurais representam o primeiro algoritmo de aprendizado de máquinas (em oposição às abordagens estatísticas tradicionais) para modelagem preditiva. A motivação por trás do método é a imitação da estrutura dos neurônios no cérebro (daí o nome do método). A estrutura básica de uma rede neural envolve um conjunto de entradas (campos de previsão) que se alimentam em uma ou mais camadas "ocultas", com cada camada oculta com um ou mais "nós" (também conhecidos como "neurônios").

Na primeira camada oculta, as entradas são linearmente combinadas (com um peso atribuído a cada entrada em cada nó), e uma "função de ativação" é aplicada à combinação ponderada linear dos preditores. Na segunda e subseqüente camadas ocultas, a saída dos nós da camada oculta prévia é linearmente combinada em cada nó da camada oculta (novamente com pesos atribuídos a cada nó da camada oculta prévia), e uma função de ativação é aplicada ao combinação linear ponderada. Finalmente, os resultados dos nós da camada oculta final são combinados em uma camada de saída final que usa uma função de ativação que é consistente com o tipo de destino.

A estimativa (ou "aprendizado" no vocabulário da literatura da rede neural) envolve encontrar o conjunto de pesos para cada entrada ou valores de nó de camada anterior que minimizem a função objetiva do modelo. No caso de um campo numérico contínuo, isso significa minimizar a soma dos erros quadrados da previsão do modelo final em comparação com os valores reais, enquanto as redes de classificação tentam minimizar uma medida de entropia para binários e multinomial problemas de classificação. Como indicado acima, a ferramenta de rede neural (que depende do pacote R nnet), só permite uma única camada oculta (que pode ter um número arbitrário de nós), e sempre usa uma função de transferência logística nos nós de camada oculta. Apesar dessas limitações, nossa pesquisa indica que o pacote nnet é o pacote de rede neural mais robusto disponível em R neste momento.

Embora os métodos de aprendizado estatístico mais modernos (como modelos produzidos pelas ferramentas de modelo impulsionado, floresta e spline) normalmente forneçam maior eficácia preditiva em relação aos modelos de rede neural, em algumas aplicações específicas (que não podem ser determinadas antes do fato), os modelos de rede neural outperform outros métodos para os modelos de classificação e regressão. Além disso, em algumas áreas, como na avaliação de riscos financeiros, os modelos de rede neural são considerados um método "padrão" que é amplamente aceito.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Configure a ferramenta

Parâmetros obrigatórios

  • Nome do modelo: cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
  • Selecione a variável de destino: Selecione o campo do fluxo de dados que deseja prever. Esse destino deve ser um tipo de seqüência de caracteres.
  • Selecione as variáveis do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.
  • As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Use pesos de amostragem na estimativa de modelo (opcional): clique na caixa de seleção e selecione um campo de peso do fluxo de dados para estimar um modelo que usa peso de amostragem.
  • O número de nós na camada oculta: o número de nós (neurônios) na única camada oculta do modelo. O padrão é dez.
  • Inclua parcelas do efeito: se verificado, as parcelas do efeito serão produzidas que mostram graficamente a relação entre a variável do preditor e o alvo, calculando a média sobre o efeito de outros campos do preditor. O número de parcelas a serem produzidos é controlado por "o nível mínimo de importância de um campo a ser incluído nas parcelas", que indica a porcentagem do poder preditivo total do modelo de um campo específico deve contribuir para o modelo, a fim de ter um marginal EF perrr enredo produzido para esse campo. Quanto maior o valor desta seleção reduz o número de parcelas de efeitos marginais produzidos.

Personalização de modelo

  • Dimensionamento/normalização personalizados...: os métodos numéricos subjacentes à otimização dos pesos do modelo podem ser problemáticos se as entradas (campos do preditor) estiverem em escalas diferentes (por exemplo, renda que varia de 7000 a 1 milhão combinada com o número de membros presentes no agregado familiar que varia de um a sete).
    • Nenhum: Default.
    • Z-score: todos os campos do preditor são dimensionados para que eles tenham uma média de zero e um desvio padrão de um.
    • Intervalo unitário: todos os campos do preditor são dimensionados para que tenham um valor mínimo de zero e um valor máximo de um, com todos os outros valores sendo entre zero e um.
    • Zero centralizado: todos os campos do preditor são dimensionados para que eles tenham um valor mínimo de um negativo e um valor máximo de um, com todos os outros valores sendo entre negativo e positivo um).
  • A deterioração do peso: o peso da deterioração limita o movimento nos novos valores de peso em cada iteração (também chamado de "Epoch") do processo de estimativa. O valor do peso da deterioração deve ser entre zero e um, valores maiores coloc uma limitação maior dos movimentos possíveis dos pesos. Em geral, um valor de deterioração de peso entre 0, 1 e 0,2 muitas vezes funcionam bem.
  • O +/-intervalo dos pesos iniciais (aleatórios) em torno de zero: os pesos dados para as variáveis de entrada em cada nó oculto são inicializados usando números aleatórios. Esta opção permite ao usuário definir o intervalo dos números aleatórios usados. Geralmente, os valores devem estar perto de 0,5. No entanto, valores menores podem ser melhores se todas as variáveis de entrada são grandes em tamanho. Um valor de 0 é realmente um valor especial que faz com que a ferramenta para encontrar uma boa compreender o valor dado os dados de entrada.
  • O número máximo de pesos permitidos no modelo: esta opção torna-se relevante quando há um grande número de campos de preditores e nós na camada oculta. Reduzir o número de pesos acelera a estimativa do modelo, e também reduz a chance de que o algoritmo encontra um local ideal (em oposição a um ideal global) para os pesos. Os pesos excluídos do modelo são implicitamente definidos como zero.
  • O número máximo de iterações para estimativa de modelo: esse valor controla o número de tentativas que o algoritmo pode fazer na tentativa de encontrar melhorias no conjunto de pesos de modelo em relação ao conjunto anterior de pesos. Se não forem encontradas melhorias nos pesos antes do número máximo de iterações, o algoritmo terminará e retornará o melhor conjunto de pesos. Esta opção é padrão para 100 iterações. Em geral, dado o comportamento do algoritmo, é provável que faça sentido para aumentar esse valor, se necessário, ao custo de alongamento do tempo de execução para a criação do modelo.

Opções de gráficos

  • Tamanhodo lote: selecione polegadas ou centímetros para o tamanho do gráfico.
  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

  • Tamanho da fonte base (pontos): selecione o tamanho da fonte no gráfico.

Visualizar a saída

  • O âncora: objeto. Consiste em uma tabela do modelo serializado com seu nome de modelo.
  • relatório. Consiste nos trechos de relatório gerados pela ferramenta de rede neural: um resumo de modelo básico, bem como parcelas de efeito principal para cada classe da variável de destino.

https://en.wikipedia.org/wiki/Artificial_neural_network