
Ferramenta Pesos Importância
A ferramenta peso da importância fornece métodos para selecionar um jogo das variáveis a usar-se em um modelo preditivo baseado em como fortemente relacionou cada preditor possível é à variável do alvo de um modelo a ser criado.
O conjunto final selecionado pode ser baseado em tomar o N mais fortemente relacionados preditores para o destino, ou selecionando um nível de peso de corte de importância, e apenas as variáveis que excedem o ponto de interrupção são incluídas em um modelo.
Em desvantagem para esta abordagem é que ele só olha para a força de um possível preditor sobre o alvo em isolamento, ignorando possíveis efeitos de interação e correlação entre os preditores. Apesar dessa limitação, esse tipo de método de filtragem variável é freqüentemente usado na prática.
Há uma série de medidas de pesos de importância diferentes, e a aplicabilidade de um determinado método normalmente depende do tipo de destino e da preditora (numérica ou categórica). Uma desvantagem para esta situação é que as medidas utilizadas para determinar a importância relativa dos diferentes preditores possíveis serão diferentes para variáveis numéricas e categóricas. A exceção é o método Relief, mas seu desempenho não é tão robusto quanto outros métodos que são específicos para um tipo de destino específico e uma combinação de tipo de previsão.
A maioria das medidas são fornecidas pelo pacote FSelector R. Este pacote faz uso de alguns métodos escritos em Java, de modo a usar esta macro, você vai precisar ter um Java 7 Runtime Environment na máquina onde Alteryx está instalado.
Esta ferramenta não é instalada automaticamente com o Alteryx designer ou as ferramentas R. Para usar esta ferramenta, baixe-a da Alteryx Analytics Gallery.
Conectar uma entrada
Um fluxo de dados Alteryx que contém a variável de destino desejada e um conjunto de variáveis de preditor potenciais que serão usadas para estimar um modelo preditivo.
Configuração de ferramentas
- Destino contínuo: Selecione esta opção se a variável de destino que você deseja prever for uma variável numérica. Quando você seleciona esta opção, você será solicitado a selecionar o campo de variável de destino dos dados, e se você deseja examinar que possível contínua (numérica) ou categórica (variáveis de cadeia de caracteres com rótulos de categoria) que você deseja considerar. Depois de ter feito essa seleção, você precisará selecionar o conjunto de preditores (do tipo selecionado) que você deseja examinar e uma ou mais medidas de comparação. Para o alvo contínuo e os preditores contínuos as medidas disponíveis são:
- Correlação de Pearson
- Correlação de Spearman (ordem de classificação)
- Relevo, que fornece o algoritmo RRELIEFF. O uso pode selecionar tanto o número de vizinhos próximos (contagem do vizinho) e o tamanho da amostra (tamanho da amostra) usado para calcular a medida RRELIEFF.
- As medidas de peso disponíveis para um alvo contínuo e os preditores categóricos são:
- Correlação condicional média (Pearson). Esta medida baseia-se no cálculo do nível médio da variável-alvo para cada nível (categoria) das variáveis categóricas e, em seguida, calculando a correlação de Pearson entre os valores reais e os valores médios
- Relief, que usa o algoritmo RRELIEFF. O uso pode selecionar tanto o número de vizinhos próximos (contagem do vizinho) e o tamanho da amostra (tamanho da amostra) usado para calcular a medida RRELIEFF.
- As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
- Destino categórico: Selecione esta opção se a variável de destino que você deseja prever for uma variável categórica. Quando você seleciona esta opção, você será solicitado a selecionar o campo de variável de destino dos dados, e se você deseja examinar que possível contínua (numérica) ou categórica (variáveis de cadeia de caracteres com rótulos de categoria) que você deseja considerar. Depois de ter feito essa seleção, você precisará selecionar o conjunto de preditores (do tipo selecionado) que você deseja examinar e uma ou mais medidas de comparação. Para o alvo contínuo e os preditores contínuos as medidas disponíveis são:
- Ganho de informações entropia
- Relação de ganho entropia
- Incerteza simétrica entropia
- Relief, que usa o algoritmo RRELIEFF. O uso pode selecionar tanto o número de vizinhos próximos (contagem do vizinho) e o tamanho da amostra (tamanho da amostra) usado para calcular a medida RRELIEFF.
- As medidas de peso disponíveis para um alvo categórico e os preditores categóricos são:
- V Cramer (Chi-Squared)
- Relief, que usa o algoritmo RRELIEFF. O uso pode selecionar tanto o número de vizinhos próximos (contagem do vizinho) e o tamanho da amostra (tamanho da amostra) usado para calcular a medida RRELIEFF.
Ver a saída
- D âncora: consiste em uma tabela que fornece o valor de peso da importância selecionada para cada preditor potencial.
- R âncora: consiste em trechos de relatório que indicam o campo de destino (e seu tipo) e o tipo de campos de previsão potencial junto com a tabela do valor de peso de importância selecionada para cada preditor potencial.