Linear Regression Tool Icon

Ferramenta De Regressão Linear

Versão:
2023.1
Last modified: September 25, 2020

A ferramenta de regressão linear cria um modelo simples para estimar valores ou avaliar relações entre variáveis baseadas em uma relação linear.

Os 2 principais tipos de regressão linear não são regularizados e regularizados:

  • Regressão linear não regularizada produz modelos lineares que minimizam a soma de erros quadrados entre os valores reais e previstos da variável de destino dados de treinamento.
  • A regressão linear regularizada equilibra a mesma minimização de soma de erros quadrados com um termo de penalidade no tamanho dos coeficientes e tende a produzir modelos mais simples que são menos propensos a superadequação.

Esta ferramenta utiliza a ferramenta R. Vá para Opções > Baixe ferramentas preditivas e faça login no portal Alteryx Downloads and Licenses para instalar R e os pacotes usados pela ferramenta R. Consulte Baixar e Usar Ferramentas Preditivas.

Pacotes R usados pela regressão linear

Pacote R Tipo Descrição do pacote
AlteryxPreditivo Personalizado Este pacote fornece funções personalizadas e chama os pacotes Cran e Custom R.
AlteryxRDataX Personalizado Este pacote fornece conectividade entre Alteryx e r, bem como uma série de funções para facilitar a interação entre Alteryx e r.
AlteryxRviz Personalizado Este pacote foi substituído. Ele fornece funções que impulsionam visualizações interativas para as ferramentas preditivas no Alteryx (série temporal, análise de rede).
Flightdesk Personalizado Este pacote facilita a criação de painéis interativos para relatar saídas de modelos preditivos.

Configure a ferramenta para processamento padrão

Conectar uma entrada

Conecte um fluxo de dados Alteryx ou Xdf do de metadados que inclua um campo de destino de interesse junto com um ou mais possíveis campos de previsão.

XDF é o formato MRC/MMLS.

Se os dados de entrada forem de um fluxo de dados Alteryx, então a função R lm de código aberto e as funções glmnet e cv.glmnet (do pacote glmnet) são usadas para estimativa do modelo.

Se os dados de entrada vierem de uma ferramenta de saída XDF ou da ferramenta de entrada XDF,a função RevoScaleR rxLinMod será usada para estimativa do modelo. A vantagem de usar a função baseada em RevoScaleR é que ele permite que conjuntos de DataSets muito maiores (fora da memória) sejam analisados, mas ao custo de sobrecarga adicional para criar um arquivo Xdf do e a incapacidade de criar alguns dos modelos de saída de diagnóstico que estão disponíveis com as funções Open Source R.

Configurar a ferramenta

  • Nome do modelo: Digite um nome para o modelo para identificar o modelo quando ele é referenciado em outras ferramentas. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
  • Selecione a variável alvo: Selecione os dados a serem previstos. Uma variável de destino também é conhecida como uma variável de resposta ou dependente.
  • Selecione as variáveis preditoras: Selecione os dados a serem usados para influenciar o valor da variável alvo. Uma variável de preditor também é conhecida como um recurso ou uma variável independente. Qualquer número de variáveis do preditor pode ser selecionada, mas a variável de destino também não deve ser uma variável de preditor. As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Selecione Personalizar para modificar as configurações Modelo, Validação cruzadae Plots.

Personalize o Modelo

  • Omitir uma constante modelo: Selecione para omitir uma constante e ter a melhor linha de ajuste passar pela origem.
  • Use uma variável de peso para quadrados menos ponderados: Selecione uma variável para determinar a quantidade de importância para colocar em cada registro ao criar um modelo de menos quadrados.
  • Use a regressão regularizada: Selecione equilibrar a mesma minimização da soma de erros ao quadrado com um termo de penalidade sobre o tamanho dos coeficientes e produza um modelo mais simples.
    • Digite o valor de alfa: Selecione um valor entre 0 (regressão da crista) e 1 (laço) para medir a quantidade de ênfase dada ao coeficiente.
    • Padronize variáveis preditoras: Selecione para fazer todas as variáveis do mesmo tamanho com base no algoritmo utilizado.
    • Use a validação cruzada para determinar os parâmetros do modelo: Selecione para realizar a validação cruzada e obter vários parâmetros de modelo
      • Número de dobras: Selecione o número de dobras para dividir os dados. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
      • Que tipo de modelo: Selecione o tipo de modelo para determinar os coeficientes.
        • Modelo mais simples
        • Modelo com menor erro padrão de amostra
      • Definir sementes: Selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros a dobras. Escolher a mesma semente cada vez que o fluxo de trabalho é executado garante que os mesmos registros estarão na mesma dobra de cada vez. O valor deve ser um inteiro positivo.

Personalize a Validação Cruzada

  • Use a validação cruzada para determinar estimativas de qualidade do modelo: Selecione para realizar a validação cruzada e obtenha várias métricas e gráficos de qualidade do modelo. Algumas métricas e gráficos serão exibidos na saída estática R, e outros serão exibidos na saída interativa i.
    • Número de dobras: Selecione o número de dobras para dividir os dados. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
    • Número de ensaios: Selecione o número de vezes para repetir o procedimento de validação cruzada. As dobras são selecionadas diferentemente em cada experimentação, e os resultados totais são calculados em média através de todas as experimentações. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
    • Definir sementes: Selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros a dobras. Escolher a mesma semente cada vez que o fluxo de trabalho é executado garante que os mesmos registros estarão na mesma dobra de cada vez. O valor deve ser um inteiro positivo.

Personalize os Plots

  • Resolução do gráfico: Selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
    • A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor.
    • Maior resolução cria um arquivo maior com melhor qualidade de impressão.
  • Gráficos de exibição: Selecione para exibir gráficos ao usar regressão regularizada.

Ver a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O (Saída): Exibe o nome do modelo e o tamanho do objeto na janela Resultados.
  • R (Relatório): Exibe um relatório resumido do modelo que inclui um resumo e parcelas.
  • I (Interativo): Exibe um painel de visualizações interativas para apoiar mais a descoberta de dados e a exploração de modelos.

Configure a ferramenta para processamento no banco de dados

A ferramenta de regressão linear oferece suporte a Oracle, Microsoft SQL Server 2016 e o processamento de banco de dados Teradata. Consulte visão geral do banco de dados para obter mais informações sobre suporte e ferramentas no banco de dados.

Quando uma ferramenta de regressão linear é colocada na tela com outra ferramenta in-DB, a ferramenta muda automaticamente para a versão do in-DB. Para alterar a versão da ferramenta, clique com o botão direito do mouse na ferramenta, aponte para escolher a versão da ferramenta e clique em uma versão diferente da ferramenta. Consulte Predictive Analytics para obter mais informações sobre suporte preditivo no banco de dados.

Conectar uma entrada

Conecte um fluxo de dados no banco de dado que inclua um campo de interesse de destino junto com um ou mais possíveis campos de previsão.

Se a entrada for de um fluxo de dados do SQL Server ou teradata no banco de dados, então a função RxLinMod do Microsoft Machine Learning Server (do pacote RevoScaleR) é usada para estimativa de modelo. Isso permite que o processamento seja feito no servidor de banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server, e pode resultar em uma melhoria significativa no desempenho.

Se a entrada for de um fluxo de dados no banco de dados Oracle, a função Ora R Enterprise ore.lm (do pacote OREmodels) será usada para estimativa de modelo. Isso permite que o processamento seja feito no servidor de banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Oracle R Enterprise, e pode resultar em uma melhoria significativa no desempenho.

Para um fluxo de trabalho no banco de dados em um banco de dados Oracle, a funcionalidade completa do objeto de modelo resultante downstream só ocorrerá se a ferramenta regressão linear estiver conectada diretamente de uma ferramenta Connect in-DB com uma única tabela completa selecionada ou se uma ferramenta gravar dados in-DB for usada imediatamente antes da ferramenta regressão linear para salvar a tabela de dados de estimativa no banco de dados. A Oracle R Enterprise faz uso da tabela de dados de estimativa para fornecer a funcionalidade completa do objeto de modelo, como calcular intervalos de previsão.

Configuração

  • Nome do modelo: Cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. A escolha é fornecer um nome ou ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
  • Selecione a variável de destino: Selecione o campo a partir do fluxo de dados que deseja prever.
  • Selecione as variáveis preditoras: Escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável alvo. As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
  • Omitir uma constante de modelo: Verifique este item se você quiser omitir uma constante do modelo. Isso deve ser feito se houver uma razão explícita para fazê-lo.
  • Use pesos amostrais para estimativa do modelo: Verifique a caixa de seleção e selecione um campo de peso a partir do fluxo de dados para estimar um modelo que usa peso amostral. Um campo é usado como um preditor e a variável de peso, em seguida, a variável de peso aparecerá na chamada de modelo na saída com a seqüência de caracteres "Right_" anexado a ele.
  • Opções específicas oracle: Esta opção permite a configuração de opções adicionais apenas relevantes para a plataforma Oracle.
    • Salve o modelo para o banco de dados: Faz com que o objeto de modelo estimado seja salvo no banco de dados, e é recomendado para que os objetos do modelo e as tabelas de estimativas vivam juntos em um local centralizado no banco de dados Oracle.
  • Configuração específica da Teradata: O Microsoft Machine Learning Server precisa de informações adicionais de configuração sobre a plataforma Teradata específica para ser usada – em particular, os caminhos no servidor Teradata para os executáveis binários de R e o local onde arquivos temporários que são usados pelo Microsoft Machine Learning Server podem ser escritos. Essas informações precisam ser fornecidas por um administrador Teradata local.

Ver a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O (Saída): Exibe o nome do modelo e o tamanho do objeto na janela Resultados.
  • R (Relatório): Exibe um relatório resumido do modelo que inclui um resumo e parcelas.
Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.