Skip to main content

Distribution Analysis Tool Icon Ferramenta Análise de Distribuição

Fluxo de trabalho de exemplo

A ferramenta Análise de Distribuição tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.

Use a ferramenta Análise de Distribuição para ajustar uma ou mais distribuições aos dados de entrada e compará-las com base em uma série de estatísticas de adequação de ajuste*. Com base na significância estatística (valores p) dos resultados desses testes, você pode determinar qual distribuição melhor representa os dados.

A ferramenta Análise de Distribuição pode ser útil para tentar entender a natureza geral de seus dados e tomar decisões sobre como analisá-los. Por exemplo, os dados que se ajustam a uma distribuição normal provavelmente se adaptam melhor a uma ferramenta Regressão Linear, enquanto os dados com uma distribuição gama podem se adaptar melhor à análise por meio da ferramenta Regressão Gama.

Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.

Configurar a ferramenta

Guia "Configuração"

Use a guia Configuração para definir os controles obrigatórios para a análise de distribuição.

  1. Selecionar um campo para análise: selecione um campo a partir dos dados recebidos para análise.

  2. Selecionar distribuições para comparação: selecione uma ou mais distribuições para comparar. As opções de distribuição são:

    • Normal: uma distribuição de probabilidade contínua de ocorrência comum que é frequentemente usada nas ciências naturais e sociais para representar variáveis aleatórias com valor real (em outras palavras, variáveis aleatórias contínuas que podem ter valores positivos e negativos).

    • Lognormal: uma distribuição de probabilidade contínua de uma variável aleatória cujo logaritmo é normalmente distribuído. Essa distribuição é adequada para a descrição de fenômenos naturais, como a taxa de crescimento e as distribuições de tamanho. Além disso, ela é frequentemente usada para descrever a distribuição de renda em uma população suficientemente grande.

    • Weibull: uma distribuição relativamente flexível que tem uma forte relação com a distribuição exponencial. É frequentemente encontrado em dados que descrevem taxas de "falha" de algum tipo, por exemplo, falha mecânica aleatória, mortalidade, rotatividade (churn), taxas de desgaste mecânico etc.

    • Gama: uma distribuição de probabilidade contínua caracterizada por uma concentração significativa de casos em valores inferiores não inteiros e não negativos, ao mesmo tempo em que permite a possibilidade razoável de valores muito mais altos. A distribuição Gama tem uma ampla variedade de usos e é comumente encontrada em dados que descrevem valores agregados (ou médios) por caso, por exemplo, o tamanho médio de um sinistro de seguro medido por indivíduo.

As distribuições Lognormal, Weibull e Gama só funcionam para dados não negativos.

As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Guia "Opções de gráfico"

Use a guia Opções de gráfico para definir os controles para o gráfico de saída.

  • Tamanho do gráfico: selecione Polegadas ou Centímetros para o tamanho do gráfico e defina os valores de Largura e Altura.

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

    • Resoluções mais baixas geram um arquivo menor que é melhor para visualização em um monitor.

    • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

Visualizar a saída

Um conjunto de fragmentos de relatório que inclui histograma, estatísticas básicas sumarizadas dos resultados do teste, estatísticas de adequação de ajuste, quantis de dados por distribuição e parâmetros de distribuição.

*D'Agostino, R., Stephens, M.A. (1986) Goodness of Fit Techniques.