<aside> 💡 Multi-Hypothesis Transformer for 3D Human Pose Estimation
</aside>
3D humans pose 를 예측할때 나타나는 depth ambiguity, self- occlusion은 아직도 해결하지 못하고 있는 난제다. 이를 해결하기위해 spatial-temporal representation을 학습해 의미있는 Multi-Hypothesis를 예측하는 MHFormer를 제안한다. 효과적으로 multi-hypothesis를 modeling하고 각 hypothesis끼리 relationship을 강하게 하기 위해 3개의 테스크로 나누어 진행한다.
<aside> 🤔 문제정의 : 무엇을 해결하려고 하는가
</aside>
Depth Ambiguity, self occlusion 등 3D human pose estimation에서 기본적으로 문제가 되어오던 이슈들에 대한 해결을 원한다. 2D monocular image에서는 직관적으로 흔히 일어날 수 있는 문제다.
<aside> 🤔 어떻게 해결한다?
</aside>
이를 여러방면에서 살펴보는 것 → Multi hypothesis를 생성해서 예측하고 이를 aggregate해서 해결하겠다는 것
Multi hypothesis를 잘 생성하려면 다양한 포즈에 대한 sptio-temporal representation을 잘 학습해야한다.
Figure 2에 보이는 것 처럼 3개의 stage로 진행하면서 이를 학습해간다.
Multi-Hypothesis Self-Attention(MH-SA)
: self-hypothesis communication을 할 수 있도록 single hypothesis의 종속성을 독립적으로 모델링하고 스스로 hypothesis끼리도 communication해 feature를 강화한다.Hypothesis-mixing MLP
: 각 hypothesis가 서로 정보를 교환할 수 있게 mixing 해주는 MLP