-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Visual Transformers
Os Visual Transformers são um tipo de arquitetura de rede neural que aplicam o conceito de transformers, originalmente desenvolvido para processamento de linguagem natural, a dados visuais. Essa abordagem tem se mostrado eficaz em várias tarefas de visão computacional, como classificação de imagens e detecção de objetos. Os transformers são uma classe de modelos de aprendizado de máquina que se destacam por sua capacidade de capturar relações de longo alcance entre elementos de uma sequência. Eles são compostos por uma série de camadas de atenção, onde cada elemento da sequência pode interagir com todos os outros elementos, permitindo que o modelo aprenda dependências complexas. Ao aplicar os transformers à visão computacional, os Visual Transformers substituem as camadas convolucionais tradicionais das redes neurais convolucionais (CNNs) pela camada de atenção dos transformers. Isso permite que o modelo capture relações espaciais globais entre os pixels de uma imagem, em vez de depender apenas de janelas locais de convolução.
-
Videos
Transformers, explained: Understand the model behind GPT, BERT, and T5
Robust Perception with Vision Transformer SegFormer
-
Detecção de objetos com câmeras de evento
Recurrent Vision Transformers for Object Detection with Event Cameras (CVPR 2023)
-
-
Conteúdo de Artigos
VOLO: Vision Outlooker for Visual Recognition
Recent Advances in Vision Transformer: A survey and outlook of recent work
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers