Ferramenta componentes principais

A ferramenta componentes principais pode reduzir as dimensões (o número de campos numéricos) em um banco de dados. Ele faz isso transformando o conjunto original de campos em um conjunto menor que explica a maior parte da variância (ou seja, informações) nos dados. Os novos campos são chamados de fatores ou componentes principais.

Os principais componentes são extraídos sequencialmente, com o primeiro componente principal contabilizando a maior variação nos dados. Intuitivamente, o primeiro componente principal é um vetor que aponta na direção em que os dados são mais "espalhados". O segundo componente principal é configurado da mesma forma, mas com a restrição adicional de que ele deve ser não correlacionado com o primeiro. Cada componente principal subseqüente captura uma porcentagem cada vez menor de variação nos dados e não está correlacionada com os componentes principais extraídos anteriormente. Pode haver tantos componentes principais como existem campos numéricos nos dados. No entanto, normalmente é possível capturar a variância nos dados usando os primeiros componentes principais em vez do conjunto completo de campos numéricos originais. Um componente principal é composto de uma combinação ponderada linear dos campos numéricos originais. Juntos, eles podem ser usados para formar um novo sistema de coordenadas, onde cada dimensão não é correlacionada com os outros.

Os componentes principais podem ser usados em vez dos campos originais em modelos preditivos, evitando os problemas que podem ocorrer quando variáveis altamente correlacionadas são usadas, mas ao custo de tornar a interpretação do modelo mais difícil. Além disso, o método pode ser usado para determinar quais grupos de campos são susceptíveis de serem conjuntamente altamente relacionados entre si, e ajudar a orientar as decisões em que os campos a omitir de um modelo preditivo. Finalmente, a capacidade de "recolher" um grande número de campos em um pequeno número de componentes principais é muitas vezes um benefício na visualização de relações nos dados.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Configure a ferramenta

Use a guia configuração para definir os controles para os componentes principais e biplotas relacionadas.

  • Campos (selecione dois ou mais): selecione os campos numéricos a serem usados na análise de componentes principais.
  • Dimensionar cada campo para ter variância de unidade? : Selecione esta opção para padronizar os dados e usar a matriz de autocorrelação em vez da matriz autocovariance como base para análise.
  • O maior número de componentes principais a incluir em biparcelas: um Biplot é um meio de visualização de uma solução de componentes principais, dois componentes de cada vez. Essa opção define o limite superior dos componentes principais a serem usados na análise. Por exemplo, se este parâmetro é definido como "3", em seguida, biplotas incluirá o primeiro e segundo, primeiro e terceiro, e segundo e terceiro principais componentes em três figuras separadas.
  • Acrescentar componentes principais ao fluxo de dados: Selecione para produzir os dados originais junto com campos adicionais para os componentes principais anexados. Os campos adicionados são rotulados PC1, PC2 e assim por diante. Defina o número de componentes principais a serem anexados.

Use a guia opções de gráficos para definir os controles da saída gráfica.

  • Tamanhodo lote: selecione polegadas ou centímetros para o tamanho do gráfico.
  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

  • Tamanho da fonte base (pontos): selecione o tamanho da fonte no gráfico.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O Anchor: consiste no fluxo de dados de entrada com os componentes principais anexados.
  • R Anchor: consiste nos trechos de relatório gerados pela ferramenta principal componente: um resumo estatístico, parcelas básicas e biparcelas.

*https://en.wikipedia.org/wiki/Principal_component_analysis