Herramienta componentes principales

La herramienta componentes principales puede reducir las cotas (el número de campos numéricos) en una base de datos. Lo hace transformando el conjunto de campos original en un conjunto más pequeño que representa la mayor parte de la varianza (es decir, información) en los datos. Los campos nuevos se llaman factores, o componentes principales.

Los componentes principales se extraen secuencialmente, con el primer componente principal que representa la mayor variación en los datos. Intuitivamente el primer componente principal es un vector que apunta en la dirección en la que los datos son más "extendidos". El segundo componente principal se configura de forma similar, pero con la restricción adicional que debe estar no correlacionada con la primera. Cada componente principal subsiguiente captura un porcentaje cada vez menor de variación en los datos, y no está correlacionado con los componentes principales previamente extraídos. Puede haber tantos componentes principales como hay campos numéricos en los datos. Sin embargo, normalmente es posible capturar la varianza en los datos utilizando los primeros componentes principales en lugar del conjunto completo de campos numéricos originales. Un componente principal se compone de una combinación lineal ponderada de los campos numéricos originales. Juntos pueden ser utilizados para formar un nuevo sistema de coordenadas, donde cada dimensión está no correlacionada con las otras.

Los componentes principales se pueden utilizar en lugar de los campos originales en modelos predictivos, evitando los problemas que pueden ocurrir cuando se utilizan variables altamente correlacionadas, pero a costa de hacer más difícil la interpretación del modelo. Además, el método se puede utilizar para determinar qué grupos de campos son probables estar en común altamente relacionados con uno a otro, y ayuda de guía de las decisiones en qué campos a omitir de un modelo predictivo. Finalmente, la capacidad de "colapsar" un gran número de campos en un pequeño número de componentes principales es a menudo un beneficio al visualizar las relaciones en los datos.

Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.

Configurar la herramienta

Utilice la ficha Configuración para establecer los controles de los componentes principales y las biparcelas relacionadas.

  • Campos (Seleccione dos o más): seleccione los campos numéricos que se usarán en el análisis de componentes principales.
  • Escalar cada campo para tener varianza de unidad? : Seleccione esta opción para estandarizar los datos y utilizar la matriz de autocorrelación en lugar de la matriz Autocovariance como base para el análisis.
  • El mayor número de componentes principales que se incluirán en las biparcelas: un biplot es un medio para visualizar una solución de componentes principales, dos componentes a la vez. Esta opción establece el límite superior de los componentes principales que se usarán en el análisis. Por ejemplo, si este parámetro se establece en "3", entonces los dos diagramas incluirán los componentes primero y segundo, primero y tercero, y segundo y tercer principal en tres figuras separadas.
  • Anexar componentes principales a la secuencia de datos: Seleccione esta opción para emitir los datos originales junto con campos adicionales para los componentes principales anexados. Los campos agregados se etiquetan PC1, PC2, y así sucesivamente. Defina el número de componentes principales que se anexarán.

Utilice la ficha opciones gráficas para definir los controles de la salida gráfica.

  • Tamaño de la parcela: seleccione pulgadas o centímetros para el tamaño del gráfico.
  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.

  • Tamaño de fuente base (puntos): seleccione el tamaño de la fuente en el gráfico.

Ver la salida

Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.

  • O ancla: consiste en la secuencia de datos de entrada con los componentes principales anexados.
  • R Anchor: consiste en los fragmentos de informe generados por la herramienta componente principal: un resumen estadístico, parcelas básicas y biparcelas.

*https://en.wikipedia.org/wiki/Principal_component_analysis