Classificação de Texto
A ferramenta Classificação de Texto treina e gera um modelo de classificação de texto com base nos seus dados de treinamento. Conecte o modelo à ferramenta Previsão para classificar novos dados de texto.
Requer o Alteryx Intelligence Suite
Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .
Suporte a idiomas
A ferramenta Classificação de Texto é compatível com inglês, francês, alemão, italiano, português e espanhol.
Componentes da ferramenta
A ferramenta Classificação de Texto tem quatro âncoras (duas de entrada e duas de saída):
Âncora de entrada T : use a âncora de entrada T para conectar seus dados de treinamento. Os dados de treinamento devem ter uma coluna com o texto e uma coluna com o rótulo do texto.
Âncora de entrada V : use a âncora de entrada V para conectar texto e rótulos de validação.
Âncora de saída M : use a âncora de saída M para passar o modelo gerado para as próximas etapas. Use seu modelo com a ferramenta Previsão .
Âncora de saída E : use a âncora de saída E para coletar métricas de avaliação do seu modelo.
Configurar a ferramenta
Adicione a ferramenta Classificação de Texto à tela.
Conecte a âncora de entrada T aos seus dados de treinamento. Em seguida, defina as configurações para o Texto de treinamento :
Selecione a Coluna com texto que contém os dados de treinamento.
Selecione a Coluna com rótulos que contém os rótulos para os dados de treinamento.
Conecte a âncora de entrada V aos dados de validação. Em seguida, defina as configurações para o Texto de validação :
Selecione a Coluna com texto que contém os dados de validação.
Selecione a Coluna com rótulos que contém os rótulos para os dados de validação.
Configure as Opções avançadas para que correspondam ao seu caso de uso. Consulte a próxima seção para obter detalhes.
Clique no botão para Executar o fluxo de trabalho.
Importante
Observe que suas colunas devem ser de um tipo de dados de cadeia de caracteres.
Opções avançadas
Escolha o Algoritmo que você deseja usar para o seu modelo:
Modo automático
Naïve Bayes multinomial
SVC linear
Modo automático
Procure um modelo ideal entre os algoritmos de modelo disponíveis. A seleção do Modo automático usa os algoritmos Naïve Bayes multinomial e SVC linear. Para cada modelo, uma pesquisa é feita em uma pequena faixa dos parâmetros correspondentes. O Modo automático gera a combinação ideal de algoritmo e hiperparâmetros. Para ajustar seu modelo, escolha uma das listas suspensas específicas de cada algoritmo.
Naïve Bayes multinomial
O algoritmo Naïve Bayes multinomial é um modelo de classificação probabilística. O classificador de Naïve Bayes cria um modelo que prevê a probabilidade de que um texto pertença a um rótulo. Para criar seu modelo, use dados de treinamento na forma de linhas de texto e seus rótulos associados (também conhecidos como classe ou alvo). O algoritmo pressupõe que todos os recursos são independentes uns dos outros. As vantagens do classificador de Naïve Bayes são que ele é escalável e geralmente tem bom desempenho com um conjunto de treinamento pequeno.
Alpha é um parâmetro de suavização aditivo que você pode usar para controlar a complexidade do modelo. Um valor de 0 indica que não há suavização. Um valor superior a 0 pode melhorar seus resultados se uma palavra nos dados de teste não existir nos dados de treinamento.
A ferramenta procura o melhor modelo com base em um intervalo de valores alpha que você define. Para criar esses valores alpha, insira o intervalo que você deseja pesquisar ( De – Até ) e o Número de etapas dentro desse intervalo.
Exemplo 1
De = 0, Até = 1, Número de etapas = 5 → cria os seguintes valores alpha para o modelo experimentar: [0; 0,25; 0,5; 0,75; 1].
Exemplo 2
De = 0, Até = 1, Número de etapas = 2 → cria os seguintes valores alpha para o modelo experimentar: [0; 1].
A Validação cruzada é uma técnica de reamostragem que usa diferentes porções (conhecidas como partições ou folds) de seus dados para treinamento e validação do modelo. Escolha quantas partições (folds) usar durante a validação cruzada.
A necessidade de converter texto bruto em dados numéricos é uma etapa necessária para a classificação de texto. Essa etapa de vetorização permite que o modelo interprete seus dados. Para esta ferramenta, usamos a técnica de vetorização "Frequência do termo – Frequência inversa de documentos (TF-IDF)". Estas são as configurações da TF-IDF:
Analisador
Escolha criar recursos a partir de palavras ( palavra ) ou caracteres ( caractere ) com base em seu texto de entrada.
Mín. Frequência de documentos
Insira a frequência mínima para os termos permitidos em seus dados de texto. A ferramenta não adicionará termos abaixo dessa frequência ao vocabulário do algoritmo.
SVC linear
O modelo SVC linear pertence à classe das máquinas de vetores de suporte. Você pode aplicar esse algoritmo a dados com duas (binário) ou mais classes. Uma vez ajustado aos seus dados, o modelo encontra o hiperplano que melhor divide os dados nas categorias corretas. O SVC linear é eficaz em espaços de alta dimensão, como texto. No entanto, ele pode ser lento quando aplicado a um conjunto grande de dados de treinamento.
Escolha a norma usada na penalização. Observe que a norma L2 (também conhecida como norma euclidiana ) é o padrão usado na classificação de vetores de suporte. A norma L1 resulta em vetores de coeficiente esparsos.
Escolha uma função de perda. Hinge (também conhecida como "perda de articulação") é a escolha padrão para este algoritmo.
C é um parâmetro de regularização. Deve ser superior a 0. Valores grandes de C correspondem a uma menor regularização e um modelo que tenta se ajustar demais aos dados de treinamento. Em contraste, valores pequenos de C correspondem a uma regularização maior.
A ferramenta procura o melhor modelo com base em um intervalo de valores C que você define. Para criar esses valores C, insira o intervalo de log em que deseja pesquisar ( De – Até ) e o Número de etapas dentro desse intervalo.
Exemplo 1
De = -3, Até = 2, Número de etapas = 6 → cria os seguintes valores C para o modelo experimentar: [0,001; 0,01; 0,1; 1; 10; 100].
Exemplo 2
De = 0, Até = 1, Número de etapas = 2 → cria os seguintes valores C para o modelo experimentar: [0; 10].
A Validação cruzada é uma técnica de reamostragem que usa diferentes porções (conhecidas como partições ou folds) de seus dados para treinamento e validação do modelo. Escolha quantas partições (folds) usar durante a validação cruzada.
A necessidade de converter texto bruto em dados numéricos é uma etapa necessária para a classificação de texto. Essa etapa de vetorização permite que o modelo interprete seus dados. Para esta ferramenta, usamos a técnica de vetorização "Frequência do termo – Frequência inversa de documentos (TF-IDF)". Estas são as configurações da TF-IDF:
Analisador
Escolha criar recursos a partir de palavras ( palavra ) ou caracteres ( caractere ) com base em seu texto de entrada.
Mín. Frequência de documentos
Insira a frequência mínima para os termos permitidos em seus dados de texto. A ferramenta não adicionará termos abaixo dessa frequência ao vocabulário do algoritmo.