Skip to content
Ludmila Dias edited this page Jan 12, 2024 · 3 revisions

Visual Transformers

Os Visual Transformers são um tipo de arquitetura de rede neural que aplicam o conceito de transformers, originalmente desenvolvido para processamento de linguagem natural, a dados visuais. Essa abordagem tem se mostrado eficaz em várias tarefas de visão computacional, como classificação de imagens e detecção de objetos. Os transformers são uma classe de modelos de aprendizado de máquina que se destacam por sua capacidade de capturar relações de longo alcance entre elementos de uma sequência. Eles são compostos por uma série de camadas de atenção, onde cada elemento da sequência pode interagir com todos os outros elementos, permitindo que o modelo aprenda dependências complexas. Ao aplicar os transformers à visão computacional, os Visual Transformers substituem as camadas convolucionais tradicionais das redes neurais convolucionais (CNNs) pela camada de atenção dos transformers. Isso permite que o modelo capture relações espaciais globais entre os pixels de uma imagem, em vez de depender apenas de janelas locais de convolução.

imagem

Clone this wiki locally