Skip to main content

Icon for the Image Recognition Tool Reconhecimento de Imagem

Use a ferramenta Reconhecimento de Imagem para criar um modelo de machine learning que classifique imagens por grupo. Você pode usar seus próprios dados e rótulos para treinar um novo modelo ou usar um dos modelos pré-treinados que fornecemos.

Requer o Alteryx Intelligence Suite

Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .

Componentes da ferramenta

A ferramenta Reconhecimento de Imagem tem cinco âncoras (duas de entrada e três de saída):

  • Âncora de entrada T : use a âncora de entrada T para inserir os dados que você deseja usar para treinamento.

  • Âncora de entrada V : use a âncora de entrada V para inserir os dados que você deseja usar para validação.

  • Âncora de saída M : use a âncora de saída M para passar o modelo gerado para as próximas etapas.

  • Âncora de saída E : use a âncora de saída E para visualizar métricas de avaliação do modelo. As métricas incluem informações sobre a precisão, recall e acurácia de cada rótulo de classificação.

  • Âncora de saída R : conecte a âncora de saída R a uma ferramenta Navegar para visualizar o relatório do modelo. O relatório inclui gráficos de acurácia e perda após cada época. Use esses gráficos para visualizar se a ferramenta treinou suficientemente o modelo.

Importante

As imagens a serem passadas pela ferramenta Reconhecimento de Imagem devem estar no formato de arquivo BLOB.

Configurar a ferramenta

Para usar esta ferramenta...

  1. Arraste a ferramenta para a tela.

  2. Conecte aos dados que têm as imagens que você deseja treinar o seu modelo para reconhecer. Observe que o tamanho máximo de imagem é 512 x 512 pixels.

  3. Insira suas Imagens de treinamento especificando o  Campo de imagem e os  Rótulos de imagem .

  4. Insira suas  Imagens de validação especificando o  Campo de imagem  e os  Rótulos de imagem .

  5. Clique no botão para Executar o fluxo de trabalho.

Opções

Uma época é uma passagem única (para frente e para trás) de todos os dados em um conjunto de treinamento por meio de uma rede neural. As épocas estão relacionadas às iterações, mas não são a mesma coisa. Uma iteração é uma única passagem de todos os dados em um lote do conjunto de treinamento.

Aumentar o número de épocas permite que o modelo aprenda com o conjunto de treinamento por um período maior. No entanto, isso também aumenta o custo computacional.

Você pode aumentar o número de épocas para ajudar a reduzir o erro do modelo. No entanto, em algum momento, o nível da redução de erro pode não compensar o custo computacional gerado. Além disso, aumentar demais o número de épocas pode causar problemas de sobreajuste. Por outro lado, quando não usamos épocas suficientes, pode haver o problema oposto, um subajuste.

Modelos pré-treinados são modelos que contêm métodos de extração de recursos com parâmetros já definidos. Modelos com mais parâmetros tendem a ser mais precisos, porém, mais lentos e caros em termos computacionais. O oposto vale para modelos com menos parâmetros: eles tendem a ser menos precisos, porém, mais rápidos e baratos em termos computacionais.

Veja a seguir explicações simplificadas sobre os modelos pré-treinados incluídos na ferramenta. Lembre-se de que o desempenho desses modelos depende muito dos seus dados, portanto, os resumos nem sempre serão verdadeiros.

  • O modelo VGG16 tende a ser o mais preciso, o mais lento e o mais caro em termos computacionais. Tamanho mínimo de imagem: 32 × 32 pixels.

  • O modelo InceptionResNetV2 tende a equilibrar precisão, velocidade e custo computacional, pendendo para a precisão. Tamanho mínimo de imagem: 75 × 75 pixels.

  • O modelo Resnet50V2 tende a equilibrar precisão, velocidade e custo computacional, pendendo para mais velocidade e menos custo. Tamanho mínimo de imagem: 32 × 32 pixels.

  • O modelo InceptionV3 tende a ser o menos preciso (apesar de ainda ser bastante preciso), o mais rápido e o mais barato em termos computacionais. Tamanho mínimo de imagem: 75 × 75 pixels.

Cada um desses modelos foi treinado em um conjunto de dados que continha mais de 14 milhões de imagens com mais de 20.000 rótulos.

Com um modelo pré-treinado, você não precisa treinar toda uma rede neural usando suas próprias imagens. Ao escolher usar um modelo pré-treinado, você pressupõe que os parâmetros da sua entrada correspondem ao que esse modelo espera. Assim, você não precisa criar um modelo que faria o mesmo que o pré-treinado (e poderia até apresentar desempenho inferior). Como muitos dos recursos em imagens tendem a ser os mesmos usados durante o treinamento dos modelos, na maioria dos casos, é seguro supor que um modelo pré-treinado funcionará com a sua entrada.

Use um modelo pré-treinado quando tiver imagens com recursos que correspondem ao que esse modelo espera e quiser evitar ter que treinar seu próprio modelo.

Um lote é um subconjunto do conjunto inteiro de dados de treinamento.

Diminuir o tamanho do lote permite escalonar quantos dados passam por uma rede neural em determinado momento. Isso permite que você treine modelos sem ocupar tanta memória quanto ocuparia se estivesse passando todos os dados pela rede neural de uma só vez. A criação de lotes pode acelerar o treinamento. No entanto, dividir seus dados em lotes também pode aumentar o erro do modelo.

Separe seus dados em lotes caso sua máquina não consiga processar todos os dados de uma vez ou caso você queira reduzir o tempo de treinamento.