Ferramenta de análise de distribuição

A ferramenta de análise de distribuição permite que você ajuste uma ou mais distribuições aos dados de entrada e compare-as com base em uma série de estatísticas de bondade de ajuste. Com base na significância estatística (valores p) dos resultados desses testes, o usuário pode determinar qual distribuição melhor representa os dados.

A ferramenta de análise de distribuição pode ser útil ao tentar entender a natureza geral dos seus dados, bem como tomar decisões sobre como analisá-la. Por exemplo, os dados que se encaixem em uma distribuição normal provavelmente seriam bem adequados para uma regressão linear, enquanto os dados que são distribuídos por gama poderiam ser mais adequados à análise através da ferramenta de regressão de gama.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Configure a ferramenta

Use a guia configuração para definir os controles obrigatórios para uma análise de distribuição.

  1. Selecione um campo para análise: selecione um campo a partir dos dados de entrada para análise.
  2. Selecione distribuições para comparação: selecione uma ou mais distribuições para comparar. As opções de distribuição são as seguintes:
    • Normal: uma distribuição de probabilidade contínua em constante ocorrência que é frequentemente utilizada tanto nas ciências naturais e sociais para representar variáveis aleatórias de valor real (i.e. variáveis aleatórias contínuas que podem ter valores positivos e negativos).
    • Lognormal: uma distribuição de probabilidade contínua de uma variável aleatória cujo logaritmo é normalmente distribuído. Esta distribuição é bem adequada à descrição de fenómenos naturais, tais como a taxa de crescimento e as distribuições de tamanho. Além disso, é frequentemente usado para descrever a distribuição de renda em uma população suficientemente grande.
    • Weibull: uma distribuição relativamente flexível que está intimamente relacionada com a distribuição exponencial. É freqüentemente encontrado em dados que descrevem as taxas de "falha" de algum tipo, por exemplo, falha mecânica aleatória, mortalidade, churn, taxas de desgaste mecânica, etc.
    • Gamma: uma distribuição de probabilidade contínua caracterizada por uma concentração significativa de casos em não-inteiros, valores inferiores não negativos, permitindo também a possibilidade razoável de valores muito mais elevados. A distribuição gama tem uma ampla gama de usos, e é comumente encontrado em dados que descrevem agregados (ou média) montantes por caso, por exemplo, o tamanho médio de uma reivindicação de seguro, medido por indivíduo.
    • As distribuições lognormal, Weibull e Gamma só funcionam para dados não negativos.

    As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Use a guia opções de gráficos para definir os controles da saída gráfica.

  • Tamanhodo lote: selecione polegadas ou centímetros para o tamanho do gráfico.
  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

Visualizar a saída

Um conjunto de trechos de relatório que inclui um histograma, estatísticas básicas de resumo dos resultados do teste, bondade de estatísticas de ajuste, dados quantiles por distribuição e os parâmetros de distribuição.

* Agostino, R., Stephens, M.A. (1986) bondade de técnicas de ajuste.