Ferramenta de regressão logística
A ferramenta de regressão logística cria um modelo que relaciona uma variável binária de destino (como Sim/Não, passar/falhar) a uma ou mais variáveis do preditor para obter a probabilidade estimada para cada uma das duas respostas possíveis para a variável de destino, logística comum os modelos de regressão incluem logit, probit e log de log complementar. Veja regressão logística.
Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.


Conecte um fluxo de dados Alteryx ou Xdf do de metadados que inclua um campo de destino de interesse junto com um ou mais possíveis campos de previsão.
Se os dados de entrada forem de um fluxo de dados Alteryx, então a função Open Source R GLM e as funções glmnet e CV. glmnet (do pacote glmnet) são usadas para a estimativa do modelo.
Se os dados de entrada forem provenientes Ferramenta Saída XDF ou Ferramenta Entrada XDF, em seguida, o RevoScaleR rxLogit função é usada para a estimativa do modelo. A vantagem de usar a função baseada em RevoScaleR é que ele permite que conjuntos de DataSets muito maiores (fora da memória) sejam analisados, mas ao custo de sobrecarga adicional para criar um arquivo Xdf do e a incapacidade de criar alguns dos modelos de saída de diagnóstico que estão disponíveis com as funções Open Source R, e ele só permite o uso de uma função de link logit.

- Tipo nome do modelo: digite um nome para o modelo para identificar o modelo quando ele é referenciado em outras ferramentas. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
- Selecione a variávelde destino: selecione os dados a serem previstos. Uma variável de destino também é conhecida como uma resposta ou variável dependente.
- Selecione variáveis do preditor: selecione os dados a serem usados para influenciar o valor da variável de destino. Uma variável de preditor também é conhecida como um recurso ou uma variável independente. Qualquer número de variáveis do preditor pode ser selecionada, mas a variável de destino também não deve ser uma variável de preditor.
As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Clique em Personalizar para modificar as configurações de modelo, validação cruzadae plotagens .

- Use pesos de amostragem na estimativa do modelo: selecione uma variável para determinar a quantidade de importância a ser posicionada em cada registro ao criar uma estimativa de modelo. Se um valor for usado como um preditor e uma variável de peso, a variável de peso será exibida na chamada de modelo na saída do relatório com a cadeia de caracteres "Right_" anexada a ele.
- Use regressão regularizada: Selecione para equilibrar a mesma minimização de soma de erros quadrados com um termo de penalidade sobre o tamanho dos coeficientes e produzir um modelo mais simples.
- Insira o valor de Alpha: selecione um valor entre 0 (regressão de Ridge) e 1 (Lasso) para medir a quantidade de ênfase dada ao coeficiente.
- Padronizar variáveis do preditor: Selecione para tornar todas as variáveis do mesmo tamanho baseadas no algoritmo usado.
- Use a validação cruzada para determinar parâmetrosde modelo: Selecione para executar validação cruzada e obtenha vários parâmetros de modelo
- Número de dobras: selecione o número de dobras para dividir os dados. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
- Que tipo de modelo: selecione o tipo de modelo para determinar os coeficientes.
- Modelo mais simples
- Modelo com menor erro padrão de amostra
- Definir semente: Selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros a dobras. Escolhendo a mesma semente cada vez que o fluxo de trabalho é executado garante que os mesmos registros serão na mesma dobra cada vez. O valor deve ser um inteiro positivo.
- Selecione tipode modelo: selecione o tipo de modelo a ser usado para prever a variável de destino.
- logit
- probit
- registro-registro complementar

- Use a validação cruzada para determinar as estimativas da qualidade do modelo: Selecione para executar validação cruzada e obtenha várias métricas e gráficos de qualidade de modelo. Algumas métricas e gráficos serão exibidos na saída estática R, e outros serão exibidos na saída interativa i.
- Número de dobras: selecione o número de dobras para dividir os dados. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
- Número de tentativas: selecione o número de vezes para repetir o procedimento de validação cruzada. As dobras são selecionadas de forma diferente em cada julgamento, e os resultados globais são médias em todos os ensaios. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
- Insira a classe positiva para a variável de destino: algumas das medidas relatadas pela ferramenta em casos de classificação binária (como a taxa positiva verdadeira) requerem uma classe positiva a ser designada. Para executar a classificação binária, digite uma das duas classes positivas da variável de destino. Se deixado em branco, uma das classes é determinada automaticamente como a classe positiva. Esta opção só está disponível para modelos de classificação.
- Use a validação cruzada estratificada: Selecione para que cada dobra tenha a mesma porcentagem de cada classe que está presente no conjunto de dados inteiro. Esta opção só está disponível para modelos de classificação.
- Definir semente: Selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros a dobras. Escolhendo a mesma semente cada vez que o fluxo de trabalho é executado garante que os mesmos registros serão na mesma dobra cada vez. O valor deve ser um inteiro positivo.

-
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
- O (output): exibe o nome do modelo e o tamanho do objeto na janela de resultados.
- R (Report): exibe um relatório sumário do modelo que inclui um resumo e plotagens.
- I (interativo): exibe um painel interativo de suporte a visuais que permite ampliar, focalizar e clicar.

A ferramenta de regressão logística oferece suporte a Oracle, Microsoft SQL Server 2016 e o processamento de banco de dados Teradata. Veja Visão geral do recurso Na base de dados para obter mais informações sobre suporte e ferramentas no banco de dados.
Quando uma ferramenta de regressão logística é colocada na tela com outra ferramenta em-dB, a ferramenta muda automaticamente para a versão em-dB. Para alterar a versão da ferramenta, clique com o botão direito do mouse na ferramenta, aponte para escolher a versão da ferramenta e clique em uma versão diferente da ferramenta. Veja Análise de dados preditiva para obter mais informações sobre o suporte de banco de dados preditivo.

Conecte um fluxo de dados no banco de dado que inclua um campo de interesse de destino junto com um ou mais possíveis campos de previsão.
Se a entrada for de um SQL Server ou de um fluxo de dados de banco de dados em Teradata, então a função rxLogit do Microsoft Machine Learning Server (do pacote RevoScaleR) é usada para a estimativa do modelo. Isso permite que o processamento seja feito no servidor de banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server e possam resultar em uma melhoria significativa no desempenho.
Se a entrada for a partir de um fluxo de dados Oracle no banco de dados, então a função de minério. LM da empresa Oracle R (do pacote OREmodels) é usada para a estimativa do modelo. Isso permite que o processamento seja feito no servidor de banco de dados, desde que a máquina local e o servidor tenham sido configurados com a empresa Oracle R e possam resultar em uma melhoria significativa no desempenho.
Para um fluxo de trabalho no banco de dados em um banco de dados Oracle, a funcionalidade completa do objeto de modelo resultante somente ocorre se a ferramenta de regressão logística estiver conectada diretamente a partir de uma ferramenta Connect in-DB com uma única tabela completa selecionada, ou se uma ferramenta de dados de gravação em-dB é usado imediatamente antes da ferramenta de regressão logística para salvar a tabela de dados de estimativa para o banco de dados. A Oracle R Enterprise faz uso da tabela de dados de estimativa para fornecer a funcionalidade completa do objeto de modelo, como calcular intervalos de previsão.

- Nomedo modelo: cada modelo precisa ser dado um nome para que ele possa ser identificado posteriormente. A escolha é fornecer um nome ou ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
- Selecione a variávelde destino: selecione o campo do fluxo de dados que deseja prever.
- Selecione as variáveis do preditor: escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável de destino.
- Omitir uma constantede modelo: Verifique este item se desejar omitir uma constante do modelo. Isso deve ser feito se houver uma razão explícita para fazê-lo.
- Opções específicas da Oracle: esta opção permite a configuração de opções adicionais somente relevantes para a plataforma Oracle.
- Tipode modelo: selecione o tipo de modelo a ser usado para prever a variável de destino.
- logit
- probit
- registro-registro complementar
- Salve o modelo no banco de dados: faz com que o objeto de modelo estimado seja salvo no banco de dados e é recomendado para que os objetos de modelo e tabelas de estimativas vivam juntos em um local centralizado no banco de dados Oracle.
- Use pesos de amostragem para estimativa de modelo: clique na caixa de seleção e selecione um campo de peso do fluxo de dados para estimar um modelo que usa peso de amostragem. Um campo é usado como um preditor e a variável de peso, em seguida, a variável de peso aparecerá na chamada de modelo na saída com a seqüência de caracteres "Right_" anexado a ele.
- Configuração específica do Teradata: o Microsoft Machine Learning Server precisa de informações de configuração adicionais sobre a plataforma específica Teradata a ser usada – em particular, os caminhos no servidor Teradata para os executáveis binários do R e o local onde os arquivos temporários usados pelo Microsoft Machine Learning Server podem ser gravados. Essas informações precisam ser fornecidas por um administrador Teradata local.
As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
- O âncora: saída. Exibe o nome do modelo e o dimensionar do objeto na janela de resultados.
- relatório. Exibe um relatório de resumo do modelo que inclui um resumo e plotagens.