Fluxo de trabalho de exemplo
A ferramenta Análise de Distribuição tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.
Use a ferramenta Análise de Distribuição para ajustar uma ou mais distribuições aos dados de entrada e compará-las com base em uma série de estatísticas de adequação de ajuste*. Com base na significância estatística (valores p) dos resultados desses testes, você pode determinar qual distribuição melhor representa os dados.
A ferramenta Análise de Distribuição pode ser útil para tentar entender a natureza geral de seus dados e tomar decisões sobre como analisá-los. Por exemplo, os dados que se ajustam a uma distribuição normal provavelmente se adaptam melhor a uma ferramenta Regressão Linear, enquanto os dados com uma distribuição gama podem se adaptar melhor à análise por meio da ferramenta Regressão Gama.
Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.
Use a guia Configuração para definir os controles obrigatórios para a análise de distribuição.
Selecionar um campo para análise: selecione um campo a partir dos dados recebidos para análise.
Selecionar distribuições para comparação: selecione uma ou mais distribuições para comparar. As opções de distribuição são:
Normal: uma distribuição de probabilidade contínua de ocorrência comum que é frequentemente usada nas ciências naturais e sociais para representar variáveis aleatórias com valor real (em outras palavras, variáveis aleatórias contínuas que podem ter valores positivos e negativos).
Lognormal: uma distribuição de probabilidade contínua de uma variável aleatória cujo logaritmo é normalmente distribuído. Essa distribuição é adequada para a descrição de fenômenos naturais, como a taxa de crescimento e as distribuições de tamanho. Além disso, ela é frequentemente usada para descrever a distribuição de renda em uma população suficientemente grande.
Weibull: uma distribuição relativamente flexível que tem uma forte relação com a distribuição exponencial. É frequentemente encontrado em dados que descrevem taxas de "falha" de algum tipo, por exemplo, falha mecânica aleatória, mortalidade, rotatividade (churn), taxas de desgaste mecânico etc.
Gama: uma distribuição de probabilidade contínua caracterizada por uma concentração significativa de casos em valores inferiores não inteiros e não negativos, ao mesmo tempo em que permite a possibilidade razoável de valores muito mais altos. A distribuição Gama tem uma ampla variedade de usos e é comumente encontrada em dados que descrevem valores agregados (ou médios) por caso, por exemplo, o tamanho médio de um sinistro de seguro medido por indivíduo.
As distribuições Lognormal, Weibull e Gama só funcionam para dados não negativos.
As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Use a guia Opções de gráfico para definir os controles para o gráfico de saída.
Tamanho do gráfico: selecione Polegadas ou Centímetros para o tamanho do gráfico e defina os valores de Largura e Altura.
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
Resoluções mais baixas geram um arquivo menor que é melhor para visualização em um monitor.
Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.
Um conjunto de fragmentos de relatório que inclui histograma, estatísticas básicas sumarizadas dos resultados do teste, estatísticas de adequação de ajuste, quantis de dados por distribuição e parâmetros de distribuição.
*D'Agostino, R., Stephens, M.A. (1986) Goodness of Fit Techniques.