Ferramenta pesos importância

A ferramenta peso da importância fornece métodos para selecionar um jogo das variáveis a usar-se em um modelo preditivo baseado em como fortemente relacionou cada preditor possível é à variável do alvo de um modelo a ser criado.

O conjunto final selecionado pode ser baseado em tomar o N mais fortemente relacionados preditores para o destino, ou selecionando um nível de peso de corte de importância, e apenas as variáveis que excedem o ponto de interrupção são incluídas em um modelo.

Em desvantagem para esta abordagem é que ele só olha para a força de um possível preditor sobre o alvo em isolamento, ignorando possíveis efeitos de interação e correlação entre os preditores. Apesar dessa limitação, esse tipo de método de filtragem variável é freqüentemente usado na prática.

Há uma série de diferentes medidas de pesos de importância, e a aplicabilidade de um determinado método normalmente depende tanto do tipo de destino quanto do preditor (numérico ou categórico). Uma desvantagem para esta situação é que as medidas utilizadas para determinar a importância relativa dos diferentes preditores possíveis serão diferentes para variáveis numéricas e categóricas. A exceção é o método de relevo, mas seu desempenho não é tão robusto como outros métodos que são específicos para um tipo de destino específico e a combinação de tipo de preditor.

A maioria das medidas são fornecidas pelo pacote FSelector R. Este pacote faz uso de alguns métodos escritos em Java, de modo a usar esta macro, você vai precisar ter um Java 7 Runtime Environment na máquina onde Alteryx está instalado.

Ferramenta Gallery

Esta ferramenta não é instalada automaticamente com o Alteryx designer ou as ferramentas R. Para usar esta ferramenta, baixe-a da Alteryx Analytics Gallery.

Conecte uma entrada

Um fluxo de dados Alteryx que contém a variável de destino desejada e um conjunto de variáveis de preditor potenciais que serão usadas para estimar um modelo preditivo.

Configure a ferramenta

  • Destino contínuo: Selecione esta opção se a variável de destino que você deseja prever for uma variável numérica. Quando você seleciona esta opção, você será solicitado a selecionar o campo de variável de destino dos dados, e se você deseja examinar que possível contínua (numérica) ou categórica (variáveis de cadeia de caracteres com rótulos de categoria) que você deseja considerar. Depois de ter feito essa seleção, você precisará selecionar o conjunto de preditores (do tipo selecionado) que você deseja examinar e uma ou mais medidas de comparação. Para o alvo contínuo e os preditores contínuos as medidas disponíveis são:
    • Correlação de Pearson
    • Correlação de Spearman (ordem de classificação)
    • Relevo, que fornece o algoritmo RRELIEFF. O uso pode selecionar tanto o número de vizinhos próximos (contagem do vizinho) e o tamanho da amostra (tamanho da amostra) usado para calcular a medida RRELIEFF.

    As medidas de peso disponíveis para um alvo contínuo e os preditores categóricos são:

    • Correlação condicional média (Pearson). Esta medida baseia-se no cálculo do nível médio da variável-alvo para cada nível (categoria) das variáveis categóricas e, em seguida, calculando a correlação de Pearson entre os valores reais e os valores médios
    • Relevo, que usa o algoritmo RRELIEFF. O uso pode selecionar tanto o número de vizinhos próximos (contagem do vizinho) e o tamanho da amostra (tamanho da amostra) usado para calcular a medida RRELIEFF.

    As colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Destino categórico: Selecione esta opção se a variável de destino que você deseja prever for uma variável categórica. Quando você seleciona esta opção, você será solicitado a selecionar o campo de variável de destino dos dados, e se você deseja examinar que possível contínua (numérica) ou categórica (variáveis de cadeia de caracteres com rótulos de categoria) que você deseja considerar. Depois de ter feito essa seleção, você precisará selecionar o conjunto de preditores (do tipo selecionado) que você deseja examinar e uma ou mais medidas de comparação. Para o alvo contínuo e os preditores contínuos as medidas disponíveis são:
  • As medidas de peso disponíveis para um alvo categórico e os preditores categóricos são:

    • V Cramer (Chi-Squared)
    • Relevo, que usa o algoritmo RRELIEFF. O uso pode selecionar tanto o número de vizinhos próximos (contagem do vizinho) e o tamanho da amostra (tamanho da amostra) usado para calcular a medida RRELIEFF.

Visualizar a saída

  • D âncora: consiste em uma tabela que fornece o valor de peso da importância selecionada para cada preditor potencial.
  • R âncora: consiste em trechos de relatório que indicam o campo de destino (e seu tipo) e o tipo de campos de previsão potencial junto com a tabela do valor de peso de importância selecionada para cada preditor potencial.