Ferramenta de regressão linear

A ferramenta de regressão linear cria um modelo simples para estimar valores ou avaliar relações entre variáveis baseadas em uma relação linear.

Os dois tipos principais de regressão linear não são regularizados e regularizados:

Regressão linear não regularizada produz modelos lineares que minimizam a soma de erros quadrados entre os valores reais e previstos da variável de destino dados de treinamento.
A regressão linear regularizada equilibra a mesma minimização de soma de erros quadrados com um termo de penalidade no tamanho dos coeficientes e tende a produzir modelos mais simples que são menos propensos a superadequação.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

R pacotes usados pela regressão linear

Pacote R	Tipo	Descrição do pacote
AlteryxPreditivo	Personalizado	Este pacote fornece funções personalizadas e chama os pacotes Cran e Custom R.
AlteryxRDataX	Personalizado	Este pacote fornece conectividade entre Alteryx e r, bem como uma série de funções para facilitar a interação entre Alteryx e r.
AlteryxRviz	Personalizado	Este pacote foi substituído. Ele fornece funções que impulsionam visualizações interativas para as ferramentas preditivas no Alteryx (série temporal, análise de rede).
Flightdesk	Personalizado	Este pacote facilita a criação de painéis interativos para relatar saídas de modelos preditivos.

Configurar a ferramenta para processamento padrão

Conecte uma entrada

Conecte um fluxo de dados Alteryx ou Xdf do de metadados que inclua um campo de destino de interesse junto com um ou mais possíveis campos de previsão.

Xdf do é o formato MRC/MMLS

Se os dados de entrada forem de um fluxo de dados Alteryx, então a função Open Source R LM e as funções glmnet e CV. glmnet ( do pacote glmnet) são usadas para a estimativa do modelo.

Se os dados de entrada forem provenientes de uma ferramenta de saída Xdf do ou de uma ferramenta de entrada Xdf do, a função rxLinMod RevoScaleR será usada para a estimativa do modelo. A vantagem de usar a função baseada em RevoScaleR é que ele permite que conjuntos de DataSets muito maiores (fora da memória) sejam analisados, mas ao custo de sobrecarga adicional para criar um arquivo Xdf do e a incapacidade de criar alguns dos modelos de saída de diagnóstico que estão disponíveis com as funções Open Source R.

Configure a ferramenta

Nome do modelo: digite um nome para o modelo para identificar o modelo quando ele é referenciado em outras ferramentas. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
Selecione a variávelde destino: selecione os dados a serem previstos. Uma variável de destino também é conhecida como uma resposta ou variável dependente.
Selecione as variáveis do preditor: selecione os dados a serem usados para influenciar o valor da variável de destino. Uma variável de preditor também é conhecida como um recurso ou uma variável independente. Qualquer número de variáveis do preditor pode ser selecionada, mas a variável de destino também não deve ser uma variável de preditor.

As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Clique em Personalizar para modificar as configurações de modelo, validação cruzadae plotagens .

Personalize o modelo

Omitir uma constante de modelo: Selecione para omitir uma constante e ter a melhor linha de ajuste passar através da origem.
Use uma variável de peso para menos quadrados ponderados: selecione uma variável para determinar a quantidade de importância a ser posicionada em cada registro ao criar um modelo de menos quadrados.
Use regressão regularizada: Selecione para equilibrar a mesma minimização de soma de erros quadrados com um termo de penalidade sobre o tamanho dos coeficientes e produzir um modelo mais simples.

Insira o valor de Alpha: selecione um valor entre 0 (regressão de Ridge) e 1 (Lasso) para medir a quantidade de ênfase dada ao coeficiente.
Padronizar variáveis do preditor: Selecione para tornar todas as variáveis do mesmo tamanho baseadas no algoritmo usado.
Use a validação cruzada para determinar parâmetrosde modelo: Selecione para executar validação cruzada e obtenha vários parâmetros de modelo

Número de dobras: selecione o número de dobras para dividir os dados. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
Que tipo de modelo: selecione o tipo de modelo para determinar os coeficientes.

Modelo mais simples
Modelo com menor erro padrão de amostra

Definir semente: Selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros a dobras. Escolhendo a mesma semente cada vez que o fluxo de trabalho é executado garante que os mesmos registros serão na mesma dobra cada vez. O valor deve ser um inteiro positivo.

Personalize a validação cruzada

Use a validação cruzada para determinar as estimativas da qualidade do modelo: Selecione para executar validação cruzada e obtenha várias métricas e gráficos de qualidade de modelo. Algumas métricas e gráficos serão exibidos na saída estática R, e outros serão exibidos na saída interativa i.

Número de dobras: selecione o número de dobras para dividir os dados. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
Número de tentativas: selecione o número de vezes para repetir o procedimento de validação cruzada. As dobras são selecionadas de forma diferente em cada julgamento, e os resultados globais são médias em todos os ensaios. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
Definir semente: Selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros a dobras. Escolhendo a mesma semente cada vez que o fluxo de trabalho é executado garante que os mesmos registros serão na mesma dobra cada vez. O valor deve ser um inteiro positivo.

Personalize as parcelas

Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.
Exibir gráficos: Selecione para exibir gráficos ao usar regressão regularizada.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

O (output): exibe o nome do modelo e o tamanho do objeto na janela de resultados.
R (Report): exibe um relatório sumário do modelo que inclui um resumo e plotagens.
I (interativo): exibe um painel de visualizações interativas para oferecer suporte a mais dados de descoberta e exploração de modelos.

Configurar a ferramenta para processamento em banco de dados

A ferramenta de regressão linear oferece suporte a Oracle, Microsoft SQL Server 2016 e o processamento de banco de dados Teradata. Veja Visão geral do recurso Na base de dados para obter mais informações sobre suporte e ferramentas no banco de dados.

Quando uma ferramenta de regressão linear é colocada na tela com outra ferramenta em-dB, a ferramenta muda automaticamente para a versão em-dB. Para alterar a versão da ferramenta, clique com o botão direito do mouse na ferramenta, aponte para escolher a versão da ferramenta e clique em uma versão diferente da ferramenta. Veja Análise de dados preditiva para obter mais informações sobre o suporte de banco de dados preditivo.

Conecte uma entrada

Conecte um fluxo de dados no banco de dado que inclua um campo de interesse de destino junto com um ou mais possíveis campos de previsão.

Se a entrada for de um SQL Server ou de um fluxo de dados de banco de dados em Teradata, então a função rxLinMod do Microsoft Machine Learning Server (do pacote RevoScaleR) é usada para a estimativa do modelo. Isso permite que o processamento seja feito no servidor de banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server e possam resultar em uma melhoria significativa no desempenho.

Se a entrada for a partir de um fluxo de dados Oracle no banco de dados, então a função de minério. LM da empresa Oracle R (do pacote OREmodels) é usada para a estimativa do modelo. Isso permite que o processamento seja feito no servidor de banco de dados, desde que a máquina local e o servidor tenham sido configurados com a empresa Oracle R e possam resultar em uma melhoria significativa no desempenho.

Para um fluxo de trabalho no banco de dados em um banco de dados Oracle, a funcionalidade completa do objeto de modelo resultante somente ocorre se a ferramenta de regressão linear estiver conectada diretamente a partir de uma ferramenta Connect in-DB com uma única tabela completa selecionada, ou se uma ferramenta de dados de gravação em-DB for usado imediatamente antes da ferramenta de regressão linear para salvar a tabela de dados de estimativa para o banco de dados. A Oracle R Enterprise faz uso da tabela de dados de estimativa para fornecer a funcionalidade completa do objeto de modelo, como calcular intervalos de previsão.

Configuração

Nomedo modelo: cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. A escolha é fornecer um nome ou ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
Selecione a variávelde destino: selecione o campo do fluxo de dados que deseja prever.
Selecione as variáveis do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.

Omitir uma constantede modelo: Verifique este item se desejar omitir uma constante do modelo. Isso deve ser feito se houver uma razão explícita para fazê-lo.
Use pesos de amostragem para estimativa de modelo: clique na caixa de seleção e selecione um campo de peso do fluxo de dados para estimar um modelo que usa peso de amostragem. Um campo é usado como um preditor e a variável de peso, em seguida, a variável de peso aparecerá na chamada de modelo na saída com a seqüência de caracteres "Right_" anexado a ele.
Opções específicas da Oracle: esta opção permite a configuração de opções adicionais somente relevantes para a plataforma Oracle.

Salve o modelo no banco de dados: faz com que o objeto de modelo estimado seja salvo no banco de dados e é recomendado para que os objetos de modelo e tabelas de estimativas vivam juntos em um local centralizado no banco de dados Oracle.

Configuração específica do Teradata: o Microsoft Machine Learning Server precisa de informações de configuração adicionais sobre a plataforma específica Teradata a ser usada – em particular, os caminhos no servidor Teradata para os executáveis binários do R e o local onde os arquivos temporários usados pelo Microsoft Machine Learning Server podem ser gravados. Essas informações precisam ser fornecidas por um administrador Teradata local.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

O (output): exibe o nome do modelo e o tamanho do objeto na janela de resultados.
R (Report): exibe um relatório sumário do modelo que inclui um resumo e plotagens.