Abstract

3D humans pose 를 예측할때 나타나는 depth ambiguity, self- occlusion은 아직도 해결하지 못하고 있는 난제다. 이를 해결하기위해 spatial-temporal representation을 학습해 의미있는 Multi-Hypothesis를 예측하는 MHFormer를 제안한다. 효과적으로 multi-hypothesis를 modeling하고 각 hypothesis끼리 relationship을 강하게 하기 위해 3개의 테스크로 나누어 진행한다.

multiple initial hypothesis의 representation을 생성한다
각 hypothesis가 서로 커뮤니케이션하고 single converged representation으로 한대 합쳐질 수 있게 모델링
각 hypothesis의 커뮤니케이션을 학습하고 multi hypothesis feature를 aggregate하여 3d pose를 합성

Introduction

<aside> 🤔 문제정의 : 무엇을 해결하려고 하는가

</aside>

Depth Ambiguity, self occlusion 등 3D human pose estimation에서 기본적으로 문제가 되어오던 이슈들에 대한 해결을 원한다. 2D monocular image에서는 직관적으로 흔히 일어날 수 있는 문제다.

<aside> 🤔 어떻게 해결한다?

</aside>

Untitled

이를 여러방면에서 살펴보는 것 → Multi hypothesis를 생성해서 예측하고 이를 aggregate해서 해결하겠다는 것

Multi hypothesis를 잘 생성하려면 다양한 포즈에 대한 sptio-temporal representation을 잘 학습해야한다.

Figure 2에 보이는 것 처럼 3개의 stage로 진행하면서 이를 학습해간다.

Multi-Hypothesis Generation(MHG)
1. 사람 관절의 본질적인 구조 정보를 모델링하고 spatial한 부분에서 여러 단계의 feature를 생성하도록 한다.
2. 여러 단계의 feature는 이어질 multi hypothesis의 initialize라고 보게 된다.
Self-Hypothesis Refinement(SHR)
1. SHR은 모든 single hypothesis feature에 대해 refine한다.
2. 이는 두 가지의 block으로 구성되어 있는데,
  1. Multi-Hypothesis Self-Attention(MH-SA) : self-hypothesis communication을 할 수 있도록 single hypothesis의 종속성을 독립적으로 모델링하고 스스로 hypothesis끼리도 communication해 feature를 강화한다.
  2. Hypothesis-mixing MLP : 각 hypothesis가 서로 정보를 교환할 수 있게 mixing 해주는 MLP
3. 이 과정을 Multi-hypothesis가 합쳐지고 또 다시 나누어져 다음 step으로 향한다.