๋ ผ๋ฌธ์ ๊ฐ์ - ์ง๋ ๊ธ ์ฐธ๊ณ
[CVPR 22'] Dressing in the Wild by Watching Dance Video - 1
https://arxiv.org/abs/2203.15320 Dressing in the Wild by Watching Dance Videos While significant progress has been made in garment transfer, one of the most applicable directions of human-centric image generation, existing works overlook the in-the-wild im
inseon.tistory.com
1. Conditional Person Segmentation
๊ธฐ์กด์ pose transfer๋ฅผ garment transfer๋ก directํ๊ฒ ์ฌ์ฉํ๋ ๊ฒ์ overfitting์ ์ทจ์ฝํ๋ค. ์ฆ, ํน์ pose์ ์ท์ ํํ๋ง์ผ๋ก ๋ค๋ฅธ ์ฌ๋ฌ pose ์์์์ ์ท์ ํํ๋ฅผ generalize ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ท์ ๋ถ๋ถ๋ค์ texture๋ ํํ๋ฅผ ์์ธกํ๊ธฐ ์ด๋ ค์ธ ์ ๋๋ก ๋ค์ํ๋ค.
์ด๋ฅผ ์ํด multi-pose images๋ฅผ ์ฌ์ฉํ๋ฉฐ Conditional Segmentation Network(CSN)์ ์ฌ์ฉํ๋ค.
(1) Rs+Ss
Ss๋ 20-channel์ source person segmentation์ด๋ค. ์ด๋ source image Is์ 'Look into person: Joint body parsing & pose estimation network and a new benchmark' ๋ ผ๋ฌธ์ method๋ฅผ ์ ์ฉํด์ ๊ตฌํ๋ค.
Rs๋ 3-channel์ RGB ์ด๋ฏธ์ง, Ss๋ฅผ ๋ฐ์ด๋๋ฆฌํํ์ฌ ์ป์ 1-channel์ ๋ง์คํฌ ์ด๋ฏธ์ง, ์ ํฉํ SMPL ๋ฉ์ฌ์ 2D UV space์ธ 3-channel์ densepose, OpenPose๋ก RGB ์ด๋ฏธ์ง์ pose estimation์ ์ํํ 18-channel์ body-joints๋ฅผ ํฌํจํ๋ค.
(2) Dt+Jt
์ด ์ ๋๋ฉด ๋ ๊ฒ ์๋๊ฐ ์ถ๊ธฐ๋ ํ๋ฐ, ์ ์๋ Jt๋ก๋ถํฐ ๊ณง๋ฐ๋ก ์์ธก๋๊ธฐ ์ด๋ ค์ด ๋ช ํํ์ง ์์ target shape๋ฅผ ์์ธกํ๊ธฐ ์ํด์ ๋ถ๋ฆฌ๋ encoder ํ๋๋ฅผ ๋ ์ฌ์ฉํ๋ค.
์ด encoder์์๋ dense ํํ์ pose์ธ Dt์ ๊ทธ์ ๋์ํ๋ body joints Jt๊ฐ paired๋์ด ํ์ตํ๋ค.
์ด๋ฅผ ํตํด ์ค์ํ, feature๋ Residual block ๊ธฐ๋ฐ์ FCN(Fully Connected Network)๋ก ํ์ต๋๊ณ , ๋ค๋ฐ๋ผ ์๋ decoder๋ก target person mask์ธ Mt์ segmentation layout์ธ St๋ฅผ ์ป์ ์ ์๋ค.
2. Pixel Flow Estimation
'Clothflow: A flow-based model for clothed person generation'์์ ์ฆ๋ช ํ ๊ฒ์ฒ๋ผ pixel-flow๋ images๋ผ๋ฆฌ์ texture ์ผ์น๋๋ฅผ ํ์ธํ๊ธฐ ๋๋ฌธ์ ์ด๋ค ์ข ๋ฅ์ ์ท์๋ ๊ฐ๊ฑดํ ์ฑํฅ(agnostic)์ ๊ฐ์ง๊ณ ์๋ค.
์ด๊ฒ์ ์๊ฐ์ ๋ฐ์, ์ ์๋ PixelFlow Network(PFN)์ ์ฌ์ฉํ์ฌ target frame์ ์ด๋๊ฐ source frame์ ํน์ ๋ถ๋ถ์ผ๋ก mapping๋์ด์ผํ ์ง ์์ธกํ๋ค.
์ด PFN์ input์ CSN์ ๊ฒ๊ณผ ๋น์ทํ์ง๋ง, CSN์ output์ธ segmentation result๋ฅผ ์ถ๊ฐ๋ก ๋ฐ๋๋ค.
๊ทธ๋ฆฌ๊ณ ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋์ผํ encoder ๋ ๊ฐ๋ฅผ ์ฌ์ฉํ๋๋ฐ, ์ด๋ค์ input groups๋ก๋ถํฐ apprearance์ structure features๋ฅผ ์ถ์ถํ๋ค. multi-view ์ด๋ฏธ์ง๋ค์ ๊ทธ ํฌ๊ธฐ๋ฅผ ์ค์ธ ํ(downsampling) feature๋ก ์ถ์ถํ๊ณ , ์ด๋ฅผ ํฉ์ณ(concatenate) pixel ๋ณ๋ก(pixel-wise) ๋์์ ์ ์ฐพ๋๋ค.
ํ์ง๋ง, ์์ ๋ชจ๋ธ ๊ตฌ์กฐ(vanilla pipeline)์์๋ in-the-wild ๋ฐ์ดํฐ์์ ์์ฃผ ๋ํ๋๋ ์ด๋ฏธ์ง์ ์์ค(deformation, ๋ฌผ์ฒด์ ๊ฐ๋ฆฌ๊ฑฐ๋, ์์ด ๋ชธํต์ ๊ฐ๋ฆฌ๋ ๊ฒ๊ณผ ๊ฐ์ ์์๊ฐ ์๋ค.)์ด ์๋ ์ํฉ์์ ์ฐ๋ฆฌ๊ฐ ๋ค๋ฃจ๊ธฐ ์ด๋ ค์ด(intractable) ๊ณผ์ ์ผ๋ก feature ๊ฐ ๊ณฑ์ฐ์ฐ์ ๊ฑฐ์ณ ์ธ๊ณต์ ์ธ ๋ถ๋ถ(artifacts)์ ์์ฑํ๋ค.
์ด๋ฐ ๋ฐฉ์์ผ๋ก ์์ฑ๋๋ feature๋ฅผ ๋ ์ ๋ค๋ฃจ๊ธฐ ์ํด์ feature ์๊ด๊ด๊ณ๋ฅผ ๋ถ์ํ๋(correlation) ๋ ์ด์ด์ธ FlowNet-Corr๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ 'Flownet: Learning optical flow with convolutional networks'์์ ์๊ฐ๋์๋ค. ์ด ๋ ์ด์ด๋ ์ฝ๊ฐ ์ด๊ธ๋๋(discrepant) features์ ๋ํด images๋ค์ ํน์ง mapping์ด ์ ๋์๋์ง ์ ์๋ฅผ ๋งค๊ธฐ๋ ๋ฐฉ์์ผ๋ก network์ ๋ฐ์๋๋ ์กฐ๊ฑด์ ๊ฐํ๊ฒ ์ ํํ๋ค.
๋๋ถ์ด, ๋ ผ๋ฌธ์์ skip-connect๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต ์๋๋ฅผ ๋์๋ค. PFN ๊ณผ์ ์ผ๋ก, decoder๋ ๋ ๊ฐ์ง ๋ณ๋ชฉ feature์ ๊ฒฐํฉ ํ ์๋ฅผ input์ผ๋ก ์ป์ ์ ์๊ณ , ์๋ณธ ์ด๋ฏธ์ง ์ฌ์ด์ฆ์ ํฌ๊ธฐ๋ฅผ ๋ง์ถ๊ธฐ ์ํด ๋ถ์กฑํ ํด๋์ค์ ๋ฐ์ดํฐ๋ฅผ ์ค๋ณตํ์ฌ(upsample), ๋ ์ด์ด๋ณ output ๋ฒกํฐ(flow)๋ฅผ ์ ์ ํ๋ค. ์ฆ, ๊ฐ๊ฐ์ decoding layer๊ฐ ์์ธกํ ๋ฒกํฐ ์ ๋ณด(flow map)๋ bilinear interpolation ๋ฐฉ์์ผ๋ก upsampling๋๊ณ , ์ด๋ ๋ค์ ๋ ์ด์ด์ ์์ธก flow์ ๊ฒฐํฉ๋์ด ์์ธก ๊ฒฐ๊ณผ๊ฐ ์ ์ ๋๋ค.
target, source images๋ฅผ different time instance์ ๊ฐ์ ์ฌ๋์ผ๋ก ์ค์ ํ์ฌ, mapped texture๊ณผ ground truth๋ฅผ ๋ชจ๋ ํ๋ณดํ ์ ์์ผ๋ฏ๋ก self-supervisedํ ์ ์๋ค.
pixel๋ณ๋ก, flow๋ฅผ ์์ธกํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ธ ClothFlow์ ์ด ์ฐ๊ตฌ์ ์ฐจ์ด์ ์ ์ ์๋ ์ธ ๊ฐ์ง๋ก ์ค๋ช ํ๋ค.
(1) rigid densepose Dt๋ฅผ ์ ๋ ฅ๊ฐ์ผ๋ก ํ์ฌ ๋ฒกํฐ๋ค์ ๋์ ์์ ๋๋ฅผ ์คํํ์๋ค. ์ด๋ ํนํ ๋ชธ์ ๋ฌ๋ผ๋ถ์ ์ท์ ๋ ๋๋ง์ ํ์ง์ ๋์๋ค.
(2) ๋ณธ wFlow ์ฐ๊ตฌ์์ correlation ๋ ์ด์ด๋ ๋ช ์์ ์ธ feature matching guidance๋ก ์ฌ์ฉ๋๋ ๋ฐ๋ฉด, ClothFlow๋ ์ข ์ ๋ฒกํฐ๋ฅผ ์ ์ ํ๋ ๋ฐฉ์์ผ๋ก ์์์ ์ธ guidance๋ก ์ฌ์ฉํ๋ค. ์์์ ์ธ ์ฌ์ฉ ๋ฐฉ์์ ์ด๋ฅผ ์์ ํ๋ ๋ฑ์ ๋ณ๊ฒฝ์ด ์ด๋ ต๋ค.
(3) ClothFlow์ ๊ฒฝ์ฐ, feature๊ฐ ์ ๋ง์ถฐ์ง์ง ์์ ๊ฒฝ์ฐ ๋ฒกํฐ ๊ณต๊ฐ์ ์ ์์ผ๋ก์จ ํด๊ฒฐํ๋ ค ํ๋ฉฐ, ๋ณธ ์ฐ๊ตฌ์์ ์ด ๋ฐฉ๋ฒ์ ์ฑํ๋์ง ์์๋ค. ์ ์์ ๋ฐ๋ฅด๋ฉด, ์ด ๋ฐฉ์์ ์ด๊ธฐ ์์ธก์ด ๋ถ์ ํํ ๊ฒฝ์ฐ ์๋ฌ๊ฐ ๋์ ๋ ์ ์๋ค๋ ์ํ์ฑ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๋ณธ ์ฐ๊ตฌ์์ ์ฌ์ฉํ Dance50k๋ผ๋ ํ๋ถํ ์ ๋ ฅ ๋ฐ์ดํฐ๋ก ๊ตณ์ด ์ด ๋ฐฉ๋ฒ์ ์ฑํํ ์ด์ ๊ฐ ์์ด์ก๋ค๊ณ ํ๋ค.
3. Garment Transfer with wFlow
์ด ๋จ๊ณ๋ (1) wFlow๋ผ๋ ์๋ก์ด(novel) ๋ฒกํฐ๋ฅผ ํ๋ํ๊ณ , ์ดํ (2) Garment Transfer Network(GFN)๊ณผ (3) ๋ชฉ์ ํจ์, ์ฆ loss function(objective function)์ ๊ตฌ์ฒด์ ์ธ ๊ฐ๋ฐ ๊ณผ์ ์ ์ดํด๋ณผ ๊ฒ์ด๋ค.
wFlow๋ ์ ๋จ๊ณ์์ ์ป์ pixel flow๋ฅผ 3D SMPL์ vertex ๋ฒกํฐ์ ํฌ์ ํ๋ฉด, ์ด๋ ๊ฒ ํผํฉ๋(blended) ๋ฒกํฐ๋ ์ด๋ํ์ ์์๊ฐ ๊ณ ๋ ค๋์ด in-the-wild ๋ฐ์ดํฐ์ ์ฌ๋ฌ ์์ง์์ ๋ ์ ๋ง๊ฒ ์์ง์ผ ์ ์๋ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์๋ค. ์ด๋ฌํ ํน์ฑ์ ๋ง๊ฒ wFlow๋ wild + Flow ์ ์ด๋ฏธ๋ฅผ ๋ด๊ณ ์๋ค.
(1) wFlow
๋จผ์ , SMPL ๋ฉ์ฌ์ source image์ target image๋ฅผ ๊ฐ๊ฐ ๋ง์ถ์ด fitted mesh๋ฅผ ๋ง๋ค๊ณ ์ด๋ฅผ ๋ค์ ๊ฐ๊ฐ์ densepose representation ํฌ์ฌํ์ฌ 2D UV space, ์ฆ 2D ์ด๋ฏธ์ง๋ก ๋ง๋ ๋ค.
๊ทธ๋ฆฌ๊ณ ๋์ผํ SMPL์ ์ฌ์ฉํ์ฌ mesh topology(์ฐ๊ฒฐ, ์์์ํ์ ๊ฐ๋ )์ ๋์ผํ๋ฏ๋ก source์ target์ densepose ์ฌ์ด์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ์ฌ vertex flow๋ฅผ ๊ตฌํ๋ค = Fv (optical flow์ ๊ฐ๋ ๊ณผ ์ ์ฌํ ๊ฒ ๊ฐ๋ค.)
์์ ๊ณผ์ ์ผ๋ก ๊ตฌํ ์์๋ค๋ก wFlow์ธ Fw๋ฅผ ๋์ถํ๋ฉฐ, wFlow๋ฅผ ๊ตฌํ๋ ์์ ๋ ๊ฐ์ง ์ ์ฉํ ํน์ฑ์ ๊ฐ์ง๊ณ ์๋ค.
์ฒซ ๋ฒ์งธ๋, vertex flow๊ฐ ๋์ ์ฐ์ ์์๋ฅผ ๊ฐ์ง๋ฉฐ ํํ๊ฐ ๋น๊ต์ ๊ตณ์ด์๋ ์ ์ฒด ๋ถ์์ texture์ ์ ํ๋๋ฅผ ๋์ธ๋ค.
๊ทธ๋ฆฌ๊ณ ๋ ๋ฒ์งธ๋, ์ค์นดํ, ๋๋ ์ค์ ๊ฐ์ ์์ ๋ก์ด ํํ์ ์ท์ด ์ผ๊ทธ๋ฌ์ง ๋ pixel flow์ ์ฐ์์ฑ์ด ๋๋ฌ๋๋ค.
์คํ์ ํตํด ์ด ์ค ์ด๋ ํ ๊ฐ์ง๋ง ์ฌ์ฉํ์ ๋๋ณด๋ค ๋ ๊ฐ์ง ๋ชจ๋๋ฅผ ์ฌ์ฉํ์ ๋ ์ฑ๋ฅ์ด ๋ ์ข๋ค๋ ๊ฒ์ ์ ์ฆํ ์ ์์๋ค๊ณ ํ๋ค.
(2) Garment Transfer Network (GTN)
์์ ๊ทธ๋ฆผ์ฒ๋ผ GTN์, GB, GS, GY ์ธ ๊ฐ์ง์ generator๋ฅผ ๊ฐ์ง๊ณ ์๋๋ฐ ์ด๋ค์ ๋ชจ๋ UNet-like generators์ด๋ค.
UNet-like generator๋, discriminator๊ฐ UNet ๊ธฐ๋ฐ์ธ ๊ฒ์ผ๋ก UNet์ image segmentation, ์ฆ ํฝ์ ๋จ์๋ก ๋ถ๋ฅ(classification)์ ์ํํ๋ฉฐ ํนํ ๋งค์ฐ ์ ์ ์์ ํ์ต ๋ฐ์ดํฐ๋ก ์ ํํ ์ด๋ฏธ์ง ์ธ๊ทธ๋ฉํ ์ด์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
๋ฐ๋ผ์, UNet-like generator๋ ํ๊ฐ์๊ฐ ํฝ์ ๋จ์๋ก real-fake ์ ์๋ฅผ ์ ๊ณตํ์ฌ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก GAN์ ์ฑ๋ฅ์ ๋์ธ ๋ชจ๋ธ์ด๋ค.
[U-Net] U-Net ๊ตฌ์กฐ
์ด๋ฏธ์ง ์ธ๊ทธ๋ฉํ ์ด์ (image segmentation)์ ์ด๋ฏธ์ง์ ๋ชจ๋ ํฝ์ ์ด ์ด๋ค ์นดํ ๊ณ ๋ฆฌ(์๋ฅผ ๋ค๋ฉด ์๋์ฐจ, ์ฌ๋, ๋๋ก ๋ฑ)์ ์ํ๋์ง ๋ถ๋ฅํ๋ ๊ฒ์ ๋งํ๋ค. ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํด ๋จ์ผ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ์์ธกํ๋
pasus.tistory.com
G_B๋ Background์ ์์ค๋ถ๋ฅผ ๋ณต์ํ๋ฉฐ, G_S๋ source๋ฅผ, G_T๋ pose transfer๋ ์ด๋ฏธ์ง์ ์ท์ ํฉ์ฑํ๋ค. ์ด๋ฌํ pipeline์ 'Liquid warping gan: A unified framework for human motion imitation, appearance transfer and novel view synthesis'์ ๋๋ถ๋ถ ์ ์ฌํ์ง๋ง, wFlow๋ก ํ๋ํ๋ํ ํํ์ ์ท์ ๋ ์ถฉ์คํ๊ฒ ์์ฑํ๋ค๋ ํน์ง์ ๊ฐ์ง๊ณ ์๋ค.
๋ค์ ํฌ์คํธ์์, output์ ํ์ง์ ๊ฐ์ ํ๋ Cyclic Online Optimization๊ณผ ์ด๋ฒ ํฌ์คํธ์์ ๋ค ๋ค๋ฃจ์ง ๋ชปํ ๋ด์ฉ๋ค, GTN์ด Liquid warping gan์์ ์ด๋ค ๋ถ๋ถ์ด ๋ค๋ฅธ์ง, ๊ฐ์ ํ์๋์ง, ๊ทธ๋ฆฌ๊ณ GTN์ loss function์ ๋ํด ๋ค๋ฃจ๊ฒ ๋ค.
'๐ค ์ธ๊ณต์ง๋ฅ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Kaggle] Intro to Machine Learning ์๊ฐ ํ๊ธฐ + ๋ด์ฉ ์์ฝ (0) | 2023.10.26 |
---|---|
[์ฐ๊ตฌ์ผ์ง] ๊ธฐ์กด Topic Modeling์ ํ๊ณ (2) | 2023.10.10 |
[์ฐ๊ตฌ์ผ์ง] K-means VS HDBSCAN (0) | 2023.10.09 |
[NIPS 17'] Attention is All You Need ์๋ฌด๊ฒ๋ ๋ชจ๋ฅด๋ ์ํ์์ ์ดํดํ๊ธฐ - 1 (2) | 2023.08.14 |
[CVPR 22'] Dressing in the Wild by Watching Dance Video - 1 (0) | 2023.08.04 |