Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Contextual Instance Decoupling for Robust Multi-Person Pose Estimation #1

Open
eehoeskrap opened this issue Feb 2, 2023 · 0 comments
Labels
2022 Year CVPR Computer Vision and Pattern Recognition HPE MPPE Multi-Person Pose Estimation

Comments

@eehoeskrap
Copy link
Owner

eehoeskrap commented Feb 2, 2023

개요

CVPR 2022에 게재된 "Contextual Instance Decoupling for Robust Multi-Person Pose Estimation" 논문은 Crowded scene 환경에서 여러명의 pose를 추정하기 위해 CID(Contextual Instance Decoupling)이라는 새로운 파이프라인을 제안합니다.

person bounding box에 의존하여 사람을 구분하는 대신 이미지에서 사람을 multiple instance-aware feature map으로 분리합니다.bounding box 기반 방식과 비교하였을 때, bounding box 크기 보다 더 큰 scale에서 context cue를 탐색할 수 있기 때문에 crowd 환경에서 다른 사람으로부터 헷갈렸던 추론 결과를 개선시키게 됩니다. 실험결과에 따르면, CrowdPose 데이터세트에서 비교적 최근 발표되었던 방법들인 DETR, CenterAttention, JC-SPPE 방법 보다 나은 결과를 달성한다고 하네요.

이 논문에서 새로운 파이프라인이라고 표현 하였는데, 기존의 방식과 어떤 점이 다른지 살펴보면 좋을 것 같습니다.

image

MPPE(Multi-Person Pose Estimation)에서는 다양한 파이프라인이 존재합니다.

(a) top-down 방식 : bounding box를 이용하여 사람들을 crop 한 뒤에 heatmap 방식을 이용하여 추론
(b) bottom-up 방식 : 모든 키포인트들을 검출한 뒤 다른 사람이라고 grouping 하는 방법
(c) single-stage 방식 : 샘플링된 feature vector를 기반으로 키포인트 좌표를 직접 regression 하는 방법
(d) CID 방식 : instance-aware feature map을 생성한 다음 각 사람으로부터 heatmap을 추론하는 방법

본 논문에서 제안하는 CID 방식은 top-down 방식의 detection error, bottom-up 방식의 keypoint localization error, single-stage 방식의 long distance regression error에 대한 문제를 극복 할 수 있다고 하네요.

그렇다면, 각 사람의 instance를 어떻게 분리해냈을까요?

image

IIA(Instance Information Abstraction)

위 그림과 같이 IIA(Instance Information Abstraction)를 통해 각 사람을 나타내는 location 과 feature를 추출합니다. 이 때 center point를 기반으로 중심점을 추정하며, 이와 같은 방법을 쓰면 비슷한 외모를 지니더라도 location 정보가 포함되니 구별 해낼 수 있다고 하네요. IIA는 아래와 같이 수식으로 나타낼 수 있습니다. 수식에서 F는 사람의 특징을 나타내는 representative feature 이고, I는 i번째 사람에 대한 위치 정보를 담고있으며, 이는 GFD를 통해 original feature map F를 m instance-aware feature map으로 decouple하는 attention mechanism을 따르게 됩니다.

image

image

GFD(Global Feature Decoupling)

GFD에서는 original feature map을 변경하여 instance-aware feature를 생성하며, 각 feature map은 사람의 heatmap과 keypoint를 각각 추정하게 된다고 합니다. 즉, original global feature map에서 person cue를 분리하도록 설계되고, 이는 spatial-wise 및 channel-wise 를 고려하여 decoupling을 수행하게 됩니다. 쉽게 말해서 사람을 feature map의 공간적 위치 및 채널 측면에서 분리해내는 것입니다. Spatial recalibration 및 Channel recalibration이 이루어지게 되는데, Spatial recalibration은 feature map에서 i번째 사람을 공간상에서 강조하기 위해 foreground에 있는 특징의 가중치를 높이고, 다른 사람들에 대한 특징의 가중치는 저하시킵니다. 즉, GFD는 각 사람의 foreground를 나타내는 spacial mask를 생성하고, i번째 사람에 대한 spatial recalibration을 수행합니다. Channel recalibration은 다른 채널로 사람을 분리하기 위해 수행됩니다.

image

위 수식에 있는 첫번째 항의 F는 i번째 사람에 대한 decoupled feature map입니다. 이는 heatmap module에 feed 될 수 있으며, i 번째 사람에 대한 keypoint heatmap H를 얻게 됩니다.

실험결과

그렇다면 속도 면에서는 어떨까요? SOTA 방법들에 비해 비슷한 크기의 메모리를 사용하며, 더 빠른 추론 속도를 제공한다고 합니다. instance가 늘어나면 늘어날수록 리소스가 많이 들줄 알았는데 center point에 대한 instance를 계산하니까 속도가 빠른 편 같네요.

image

COCO 데이터세트에서 평가한 결과는 아래와 같습니다. top-down, bottom-up, single-stage 방법과 비교했을때 SOTA 성능을 달성하네요.

image

Paper : https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_Contextual_Instance_Decoupling_for_Robust_Multi-Person_Pose_Estimation_CVPR_2022_paper.pdf
GitHub : https://github.com/kennethwdk/CID

@eehoeskrap eehoeskrap added CVPR Computer Vision and Pattern Recognition 2022 Year HPE MPPE Multi-Person Pose Estimation labels Feb 2, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
2022 Year CVPR Computer Vision and Pattern Recognition HPE MPPE Multi-Person Pose Estimation
Projects
None yet
Development

No branches or pull requests

1 participant