Skip to main content

Principal Components Tool Icon Ferramenta Componentes Principais

A ferramenta Componentes Principais pode reduzir as dimensões (a quantidade de campos numéricos) em um banco de dados. Para fazer isso, ela transforma o conjunto original de campos em um conjunto menor que representa a maior parte da variância (ou seja, informações) dos dados. Os novos campos são chamados de fatores ou componentes principais.

Os componentes principais são extraídos sequencialmente, com o primeiro representando a maior parte da variância dos dados. Intuitivamente, o primeiro componente principal é um vetor que aponta na direção em que os dados estão mais "propagados". O segundo componente principal é configurado de forma semelhante, mas com a restrição adicional de que não tenha qualquer correlação com o primeiro. Cada componente principal subsequente captura uma percentagem cada vez menor de variação nos dados e não está correlacionado com os componentes principais que já foram extraídos. Pode haver tantos componentes principais quanto campos numéricos nos dados. No entanto, normalmente é possível capturar a variância nos dados usando alguns dos primeiros componentes principais, em vez do conjunto completo de campos numéricos originais. Um componente principal é composto de uma combinação linear ponderada de campos numéricos originais. Juntos, eles podem ser usados para formar um novo sistema de coordenadas, em que cada dimensão não está correlacionada com as outras.

É possível usar os componentes principais, em vez dos campos originais, em modelos preditivos, o que evita os problemas que podem ocorrer quando variáveis altamente correlacionadas são usadas, mas acaba tornando a interpretação do modelo mais difícil. É possível também usar o método para determinar quais grupos de campos provavelmente estarão muito relacionados em conjunto uns com os outros e ajudar a orientar nas decisões sobre os campos que devem ser omitidos de um modelo preditivo. Por fim, a capacidade de "recolher" um grande número de campos em um pequeno número de componentes principais é, muitas vezes, um benefício na visualização de relações dos dados.

Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Consulte Baixar e utilizar ferramentas preditivas.

Configurar a ferramenta

Guia "Configuração"

Use a guia Configuração para definir os controles para os componentes principais e para os biplots relacionados.

  • Campos (selecione dois ou mais): selecione os campos numéricos que serão usados na análise dos componentes principais.

  • Escalonar (normalizar) cada campo para uma variância unitária?: selecione essa opção para padronizar os dados e usar a matriz de autocorrelação, em vez da matriz de autocovariância, como base para análise.

  • O número mais alto de componentes principais para incluir nos biplots: biplot é um meio de visualizar uma solução de componentes principais, dois componentes de cada vez. Essa opção define o limite máximo de componentes principais para usar na análise. Por exemplo, se o parâmetro é definido como "3", os biplots incluem o primeiro e o segundo, o primeiro e o terceiro e o segundo e o terceiro componentes principais em três figuras separadas.

  • Anexar componentes principais ao fluxo de dados: selecione para gerar os dados originais junto com campos adicionais para os componentes principais anexados. Os campos adicionados são identificados com o rótulo PC1, PC2 e assim por diante. Defina o número de componentes principais para anexar.

Guia "Opções de gráfico"

Use a guia Opções de gráfico para definir os controles para o gráfico de saída.

  • Tamanho do gráfico: selecione polegadas ou centímetros para o tamanho do gráfico.

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

    • Resoluções mais baixas geram um arquivo menor que é melhor para visualização em um monitor.

    • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

  • Tamanho da fonte base (pontos): selecione o tamanho da fonte para o gráfico.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • Âncora O: consiste no fluxo de dados de entrada com os componentes principais anexados.

  • Âncora R: consiste nos fragmentos de relatório gerados pela ferramenta Componentes Principais: um resumo estatístico, gráficos básicos e biplots.

*https://pt.wikipedia.org/wiki/Análise_de_componentes_principais