
Ferramenta De Regressão Logística
A ferramenta de regressão logística cria um modelo que relaciona uma variável binária de destino (como Sim/Não, passar/falhar) a uma ou mais variáveis do preditor para obter a probabilidade estimada de cada uma das duas respostas possíveis para a variável de destino.Os modelos comuns de regressão logística incluem logit, probit e log-log complementar. Ver Regressão Logística.
Esta ferramenta utiliza a ferramenta R. Vá para Opções > Baixe ferramentas preditivas e faça login no portal Alteryx Downloads and Licenses para instalar R e os pacotes usados pela ferramenta R. Consulte Baixar e Usar Ferramentas Preditivas.
Configure a ferramenta para processamento padrão
Conectar uma entrada
Conecte um fluxo de dados Alteryx ou Xdf do de metadados que inclua um campo de destino de interesse junto com um ou mais possíveis campos de previsão.
Se os dados de entrada forem de um fluxo de dados Alteryx, a função glm de código aberto e as funções glmnet e cv.glmnet (do pacote glmnet) são usadas para estimativa do modelo.
Se os dados de entrada vierem de uma ferramenta de saída XDF ou da ferramenta de entrada XDF,a função RevoScaleR rxLogit será usada para a estimativa do modelo. A vantagem de usar a função baseada em RevoScaleR é que ele permite que conjuntos de DataSets muito maiores (fora da memória) sejam analisados, mas ao custo de sobrecarga adicional para criar um arquivo Xdf do e a incapacidade de criar alguns dos modelos de saída de diagnóstico que estão disponíveis com as funções Open Source R, e ele só permite o uso de uma função de link logit.
Configurar a ferramenta
- Digite o nome do modelo: Digite um nome para o modelo para identificar o modelo quando ele for referenciado em outras ferramentas. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
- Selecione a variável-alvo: Selecione os dados a serem previstos. Uma variável de destino também é conhecida como uma variável de resposta ou dependente.
- Selecione variáveis preditoras: Selecione os dados a serem usados para influenciar o valor da variável alvo. Uma variável de preditor também é conhecida como um recurso ou uma variável independente. Qualquer número de variáveis do preditor pode ser selecionada, mas a variável de destino também não deve ser uma variável de preditor. Colunas que contenham identificadores únicos, como chaves primárias substitutas e teclas primárias naturais, não devem ser utilizadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Selecione Personalizar para modificar as configurações Modelo, Validação cruzadae Plots.
Personalize o Modelo
- Use pesos amostrais na estimativa do modelo: Selecione uma variável para determinar a quantidade de importância para colocar em cada registro ao criar uma estimativa de modelo. Se um valor for usado como um preditor e uma variável de peso, a variável de peso será exibida na chamada de modelo na saída do relatório com a cadeia de caracteres "Right_" anexada a ele.
- Use a regressão regularizada: Selecione equilibrar a mesma minimização da soma de erros ao quadrado com um termo de penalidade sobre o tamanho dos coeficientes e produza um modelo mais simples.
- Digite o valor de alfa: Selecione um valor entre 0 (regressão da crista) e 1 (laço) para medir a quantidade de ênfase dada ao coeficiente.
- Padronize variáveis preditoras: Selecione para fazer todas as variáveis do mesmo tamanho com base no algoritmo utilizado.
- Use a validação cruzada para determinar os parâmetros do modelo: Selecione para realizar a validação cruzada e obter vários parâmetros de modelo
- Número de dobras: Selecione o número de dobras para dividir os dados. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
- Que tipo de modelo: Selecione o tipo de modelo para determinar os coeficientes.
- Modelo mais simples
- Modelo com menor erro padrão de amostra
- Definir sementes: Selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros a dobras. Escolher a mesma semente cada vez que o fluxo de trabalho é executado garante que os mesmos registros estarão na mesma dobra de cada vez. O valor deve ser um inteiro positivo.
- Selecione o tipo de modelo: Selecione o tipo de modelo a ser usado para prever a variável alvo.
- logit
- probit
- registro-registro complementar
Personalize a Validação Cruzada
- Use a validação cruzada para determinar estimativas de qualidade do modelo: Selecione para realizar a validação cruzada e obtenha várias métricas e gráficos de qualidade do modelo. Algumas métricas e gráficos serão exibidos na saída estática R, e outros serão exibidos na saída interativa i.
- Número de dobras: Selecione o número de dobras para dividir os dados. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
- Número de ensaios: Selecione o número de vezes para repetir o procedimento de validação cruzada. As dobras são selecionadas diferentemente em cada experimentação, e os resultados totais são calculados em média através de todas as experimentações. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
- Digite classe positiva para variável-alvo: Algumas das medidas relatadas pela ferramenta em casos de classificação binária (como taxa positiva real) requerem uma classe positiva para ser designada. Para executar a classificação binária, digite uma das duas classes positivas da variável de destino. Se deixado em branco, uma das classes é determinada automaticamente como a classe positiva. Esta opção só está disponível para modelos de classificação.
- Use validação cruzada estratificada: Selecione para que cada dobra tenha a mesma porcentagem de cada classe presente em todo o conjunto de dados. Esta opção só está disponível para modelos de classificação.
- Definir sementes: Selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros a dobras. Escolher a mesma semente cada vez que o fluxo de trabalho é executado garante que os mesmos registros estarão na mesma dobra de cada vez. O valor deve ser um inteiro positivo.
Personalize os Plots
Resolução do gráfico: Selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
- A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor.
- Maior resolução cria um arquivo maior com melhor qualidade de impressão.
Ver a saída
Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
- O (Saída): Exibe o nome do modelo e o tamanho do objeto na janela Resultados.
- R (Relatório): Exibe um relatório resumido do modelo que inclui um resumo e parcelas.
- I (Interativo): Exibe um painel interativo de visuais de suporte que permite zoom, painéis e clique.
Configure a ferramenta para processamento no banco de dados
A ferramenta de regressão logística oferece suporte a Oracle, Microsoft SQL Server 2016 e o processamento de banco de dados Teradata. Consulte visão geral do banco de dados para obter mais informações sobre suporte e ferramentas no banco de dados.
Quando uma ferramenta de regressão logística é colocada na tela com outra ferramenta in-DB, a ferramenta muda automaticamente para a versão do in-DB. Para alterar a versão da ferramenta, clique com o botão direito do mouse na ferramenta, aponte para escolher a versão da ferramenta e clique em uma versão diferente da ferramenta. Consulte Predictive Analytics para obter mais informações sobre suporte preditivo no banco de dados.
Conectar uma entrada
Conecte um fluxo de dados no banco de dado que inclua um campo de interesse de destino junto com um ou mais possíveis campos de previsão.
Se a entrada for de um fluxo de dados do SQL Server ou teradata no banco de dados, então a função RxLogit do Microsoft Machine Learning Server (do pacote RevoScaleR) é usada para estimativa de modelo. Isso permite que o processamento seja feito no servidor de banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server, e pode resultar em uma melhoria significativa no desempenho.
Se a entrada for de um fluxo de dados no banco de dados Oracle, a função Ora R Enterprise ore.lm (do pacote OREmodels) será usada para estimativa de modelo. Isso permite que o processamento seja feito no servidor de banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Oracle R Enterprise, e pode resultar em uma melhoria significativa no desempenho.
Para um fluxo de trabalho no banco de dados em um banco de dados Oracle, a funcionalidade completa do objeto de modelo resultante downstream só ocorrerá se a ferramenta regressão logística estiver conectada diretamente de uma ferramenta Connect in-DB com uma única tabela completa selecionada ou se uma ferramenta Write data in-DB é usado imediatamente antes da ferramenta regressão logística para salvar a tabela de dados de estimativa no banco de dados. A Oracle R Enterprise faz uso da tabela de dados de estimativa para fornecer a funcionalidade completa do objeto de modelo, como calcular intervalos de previsão.
Configurar a ferramenta
- Nome do modelo: Cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. A escolha é fornecer um nome ou ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
- Selecione a variável de destino: Selecione o campo a partir do fluxo de dados que deseja prever.
- Selecione as variáveis preditoras: Escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável alvo. As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
- Omitir uma constante de modelo: Verifique este item se você quiser omitir uma constante do modelo. Isso deve ser feito se houver uma razão explícita para fazê-lo.
- Opções específicas oracle: Esta opção permite a configuração de opções adicionais apenas relevantes para a plataforma Oracle.
- Tipo demodelo : Selecione o tipo de modelo a ser usado para prever a variável alvo.
- logit
- probit
- registro-registro complementar
- Salve o modelo para o banco de dados: Faz com que o objeto de modelo estimado seja salvo no banco de dados, e é recomendado para que os objetos do modelo e as tabelas de estimativas vivam juntos em um local centralizado no banco de dados Oracle.
- Tipo demodelo : Selecione o tipo de modelo a ser usado para prever a variável alvo.
- Use pesos amostrais para estimativa do modelo: Verifique a caixa de seleção e selecione um campo de peso a partir do fluxo de dados para estimar um modelo que usa peso amostral. Um campo é usado como um preditor e a variável de peso, em seguida, a variável de peso aparecerá na chamada de modelo na saída com a seqüência de caracteres "Right_" anexado a ele.
- Configuração específica da Teradata: O Microsoft Machine Learning Server precisa de informações adicionais de configuração sobre a plataforma Teradata específica para ser usada – em particular, os caminhos no servidor Teradata para os executáveis binários de R e o local onde arquivos temporários que são usados pelo Microsoft Machine Learning Server podem ser escritos. Essas informações precisam ser fornecidas por um administrador Teradata local.
Ver a saída
Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
- O âncora: Saída. Exibe o nome do modelo e o dimensionar do objeto na janela de resultados.
- R âncora: Relatório. Exibe um relatório de resumo do modelo que inclui um resumo e plotagens.