Análise preditiva
O Designer inclui um conjunto de ferramentas preditivas que usam o R, uma base de código open-source utilizada para análise estatística e preditiva.
Há ferramentas para a exploração de dados, elementos especializados de preparo de dados para análise preditiva, modelagem preditiva, ferramentas para comparar e avaliar a eficácia de diferentes modelos, ferramentas para agrupar registros e campos de maneira sistemática e ferramentas para ajudar na implantação de soluções de análise preditiva.
As ferramentas preditivas usam a linguagem de programação R. Vá para Opções > Baixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R .
Suporte ao processamento in-DB
Há seis ferramentas preditivas compatíveis com processamento in-DB.
Quando uma ferramenta preditiva compatível com o processamento em banco de dados é colocada na tela com uma ferramenta da categoria No Banco de Dados, a ferramenta preditiva muda automaticamente para sua versão in-DB. Para mudar a versão da ferramenta, clique sobre ela com o botão direito do mouse, selecione "Escolher versão da ferramenta" e escolha uma versão diferente. Consulte Visão geral do processamento em banco de dados para obter mais informações sobre suporte e ferramentas de banco de dados.
Microsoft SQL Server 2016 | Oracle | Teradata | |
---|---|---|---|
Sim | |||
Sim | |||
Sim | |||
Sim | Sim | Sim | |
Sim | Sim | Sim | |
Sim | Sim | Sim |
Ferramentas de análise preditiva
A categoria Investigação de Dados contém ferramentas para entender melhor os dados a serem usados em um projeto de análise preditiva e ferramentas para realizar tarefas especializadas de amostragem. As utilizadas para entender melhor os dados a serem usados em um projeto de análise preditiva incluem ferramentas de visualização e ferramentas que fornecem tabelas de estatísticas descritivas.
As ferramentas que ajudam o usuário a entender melhor os dados com métodos visuais são:
As ferramentas que ajudam o usuário a entender melhor os dados com estatísticas de resumo úteis são:
A categoria Preditivo inclui ferramentas para modelagem preditiva geral de modelos de classificação (campo-alvo categórico) e de regressão (campo-alvo numérico), assim como ferramentas para comparação de modelos e para testes de hipóteses relevantes para modelagem preditiva. O conjunto de ferramentas para modelagem preditiva geral pode ser dividido em modelos estatísticos tradicionais e métodos estatísticos de aprendizagem mais modernos. A ferramenta Pontuação fornece um mecanismo para obter previsões de modelos de ambos os tipos de ferramenta de modelagem preditiva geral.
Uma distinção importante entre os modelos estatísticos tradicionais e os métodos estatísticos de aprendizagem mais modernos é o nível de intervenção direta do usuário no processo de modelagem. Os modelos estatísticos tradicionais exigem um nível muito maior de intervenção e experiência do usuário para desenvolver um modelo com um nível adequado de eficácia preditiva. Especificamente, o usuário deve pré-selecionar os campos preditores importantes e provavelmente precisará aplicar transformações apropriadas aos campos numéricos para capturar efeitos não lineares entre o campo-alvo e os preditores contínuos. A seleção de preditores importantes (ignorando possíveis problemas devido a relações não lineares) pode ser auxiliada por meio do uso da regressão passo a passo para os modelos tradicionais. Em contraste, os métodos estatísticos de aprendizagem modernos usam algoritmos que abordam internamente a seleção de preditores e as possíveis relações não lineares entre o alvo e os preditores numéricos.
Os modelos estatísticos tradicionais diferem uns dos outros com base na natureza do campo-alvo que está sendo previsto. Todos eles se baseiam em modelos lineares de estimativa (generalizados). Embora todos os algoritmos estatísticos de aprendizagem tenham a mesma propriedade de lidar internamente com a seleção de preditores e efeitos não lineares, eles diferem em suas abordagens. Como resultado, nenhum método único é melhor que todos os outros ao considerar o conjunto de problemas que um usuário pode encontrar.
Ferramentas para modelos estatísticos tradicionais
Ferramentas para métodos estatísticos de aprendizagem modernos
Ferramentas para comparação de modelos preditivos e teste de hipóteses
Ferramenta para prever valores para todas as ferramentas de modelagem preditiva geral
Ferramenta para criar visualizações interativas de rede e estatísticas de resumo importantes
Ferramentas para gerar modelos de sobrevivência e estimar o risco relativo e o tempo de sobrevivência médio restrito
As ferramentas da categoria Teste AB ajudam o usuário a realizar experimentos de teste A/B (também conhecidos como teste e aprendizado), como examinar o efeito de uma nova campanha de marketing sobre as vendas ou o efeito de alterar o quadro de pessoal de uma loja. Essas ferramentas podem ajudar a determinar as áreas de mercado para um teste (geralmente para um que envolve publicidade em meios de comunicação de massa, onde todos os residentes de uma área podem potencialmente ser expostos à publicidade), fazendo a correspondência de uma ou mais unidades de controle a cada unidade de tratamento, desenvolvendo medidas de tendência e sazonalidade (nas quais a correspondência entre controles e tratamentos é frequentemente baseada) e realizando a análise dos resultados experimentais. As ferramentas associadas a essa categoria são:
A categoria Série Temporal contém um conjunto de ferramentas para previsão e plotagem de série temporal univariada e regular (em termos do intervalo de tempo dos dados, como um intervalo mensal). Entre elas, estão ferramentas para criar modelos de previsão de suavização exponencial e ARIMA, que podem ser utilizados, por exemplo, em uma previsão de vendas semanais. Ambos os métodos desenvolvem previsões com base em elementos sistemáticos relacionados ao tempo nos valores da variável-alvo. Especificamente, eles extraem elementos de tendência (um movimento ascendente ou descendente na variável-alvo, razoavelmente consistente e a longo prazo) e sazonalidade (padrões cíclicos que se repetem ao longo do tempo).
Para fornecer um exemplo concreto desses elementos, um modelo de série temporal para vendas de tablets provavelmente revelaria uma tendência positiva nas vendas, juntamente com um forte padrão sazonal de aumento de vendas perto do Natal e antes do início do ano letivo. Se nenhuma tendência ou sazonalidade estiver presente na variável-alvo, os valores de previsão provavelmente recairão em uma linha reta com base no valor médio ponderado dessa variável para os valores mais recentes dela. É provável que o usuário não goste muito dessa descoberta, mas ela indica que não há estrutura real nos dados em relação a elementos relacionados ao tempo apenas (tendência e sazonalidade). Nesses casos, métodos de modelagem preditiva mais gerais podem ser mais úteis no desenvolvimento de previsões do que as ferramentas da categoria Série Temporal.
Além de ferramentas para criar previsões, existem outras para ajudar o usuário a comparar a eficácia relativa de diferentes modelos de previsão de série temporal. O conjunto completo de ferramentas de série temporal inclui:
A categoria Agrupamento Preditivo contém ferramentas para agrupar registros ou campos em um número menor de grupos. Aplicações comuns para agrupar registros envolvem criar segmentos de clientes com base em padrões de compra ou criar um conjunto de grupos de lojas. O objetivo final do agrupamento nessas duas áreas é criar um número menor de grupos que permita a personalização de programas e atividades de uma forma que seja viável do ponto de vista comercial.
Por exemplo, um varejista que tenha 500 estabelecimentos em sua rede provavelmente acharia difícil desenvolver um programa de merchandising e pricing específico para cada um dos 500 estabelecimentos. No entanto, se os estabelecimentos forem colocados em um conjunto menor de grupos de lojas (digamos, 10) com base na semelhança dos estabelecimentos com relação aos padrões de vendas, criar 10 programas de merchandising e pricing diferentes é algo que o varejista pode implementar com sucesso. Da mesma forma, muitas empresas precisam analisar tabelas de banco de dados que são muito amplas, com muitos dos campos altamente correlacionados uns com os outros. Nesses casos, lidar com um grande número de medidas altamente correlacionadas complica muito qualquer análise feita com esses dados. Como resultado, pode fazer sentido reduzir o conjunto original de campos em um conjunto menor, com campos compostos que são mais propícios para análise. Em ambos os casos, há a necessidade de reduzir a dimensionalidade dos dados para torná-los acionáveis.
O método mais comum usado para agrupar registros é a análise de cluster. Na verdade, há muitos tipos diferentes de análise de cluster, mas os métodos de cluster mais comumente usados para aplicações comerciais são baseados em algoritmos K-Centroides. O Alteryx fornece ferramentas para ajudar a determinar o número apropriado de clusters (grupos) que devem ser formados, criando o conjunto final de clusters e acrescentando o cluster ao qual um determinado registro pertence (independentemente de o registro ter sido usado para determinar o conjunto) aos dados. Uma ferramenta relacionada (Encontrar Vizinhos Mais Próximos) permite que o usuário forme grupos ad hoc de um determinado tamanho em torno de um ou mais registros específicos. Por exemplo, essa ferramenta fornece ao usuário a capacidade de encontrar os cinco clientes mais parecidos com o cliente "X" com base em comportamento de compra passado. O método disponível para agrupar campos é o de componentes principais.
As ferramentas de análise de cestas de compras (MB) ajudam a determinar quais itens devem ficar juntos em dados de pontos de vendas, ou a determinar a combinação de problemas que tendem a ocorrer simultaneamente em sistemas de relatórios de falhas e de ordem de serviço. As ferramentas nessa categoria determinam o conjunto de "regras" nos dados (como "é mais provável que o defeito A esteja presente no produto quando os defeitos B e C também são observados") e fornecem ferramentas de filtragem para ajudar a restringir a lista de regras possíveis com base em um conjunto de critérios que são associados a regras que parecem mais importantes em termos práticos.
As ferramentas nessa categoria incluem:
A categoria Prescritivo inclui ferramentas que podem ajudar a determinar o melhor curso de ação ou resultado para uma situação específica ou um conjunto de cenários. Ela pode ajudar a potencializar o resultado dos modelos preditivos ao prescrever uma ação ideal.