Home

Visual Transformers

Os Visual Transformers são um tipo de arquitetura de rede neural que aplicam o conceito de transformers, originalmente desenvolvido para processamento de linguagem natural, a dados visuais. Essa abordagem tem se mostrado eficaz em várias tarefas de visão computacional, como classificação de imagens e detecção de objetos. Os transformers são uma classe de modelos de aprendizado de máquina que se destacam por sua capacidade de capturar relações de longo alcance entre elementos de uma sequência. Eles são compostos por uma série de camadas de atenção, onde cada elemento da sequência pode interagir com todos os outros elementos, permitindo que o modelo aprenda dependências complexas. Ao aplicar os transformers à visão computacional, os Visual Transformers substituem as camadas convolucionais tradicionais das redes neurais convolucionais (CNNs) pela camada de atenção dos transformers. Isso permite que o modelo capture relações espaciais globais entre os pixels de uma imagem, em vez de depender apenas de janelas locais de convolução.

imagem

Videos

Transformers, explained: Understand the model behind GPT, BERT, and T5

Robust Perception with Vision Transformer SegFormer
- Detecção de objetos com câmeras de evento
  
  Recurrent Vision Transformers for Object Detection with Event Cameras (CVPR 2023)
Conteúdo de Artigos

VOLO: Vision Outlooker for Visual Recognition

Recent Advances in Vision Transformer: A survey and outlook of recent work

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Home

Clone this wiki locally