https://arxiv.org/abs/2203.15320
Dressing in the Wild by Watching Dance Video๋ ํฑํก์ ์๋น์คํ๊ณ ์๋ ByteDance, ์ค๊ตญ์ ์ค์ฐ ๋ํ๊ต์์ ๊ณต๋ ์ฐ๊ตฌํ ๋ ผ๋ฌธ์ด๋ค.
์ด ๋ ผ๋ฌธ์ source image I์ shirts, pants, formal dresses, skirts, down jackets๊ณผ ๊ฐ์ ์๋ฅ๋ฅผ ์์์ ํน์ pose์ synthesizeํ๋ garment transfer ์ฐ๊ตฌ์ด๋ค.
๊ธฐ์กด garment transfer ์ฐ๊ตฌ์์ ๋ถ์กฑํ๋ ์ ์
1. in-the-wild imagery์ ์ ์ฉํ ์, ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค๋ ๊ฒ์ด๋ค.
์๋ฅผ ๋ค์ด, 1) garment-person mis-alignment ๋๋ 2) noticable degradation in fine texture details์ ๊ฐ์ ๋ฌธ์ ๋ค์ด๋ค.
์ด ๋ ผ๋ฌธ์ด ํด๊ฒฐํ๊ณ ์ ํ๋ in-the-wild imagery์ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
1. loose garment: ์ค์ปคํธ, ๋๋ ์ค์ ๊ฐ์ด ๋ชธ๊ณผ ๋จ์ด์ง ์ท์ ์ข ๋ฅ
2. challenging poses: ํ์งฑ์ ๋ผ๊ฑฐ๋, ๋ฌด๋ฆ์ ๊ตฌ๋ถ๋ฆฌ๋ ๋ฑ ์ท์ ํํ์ ๋ง์ ์ํฅ์ ์ฃผ๋ ํฌ์ฆ๋ค
3. cluttered backgrounds: ์ด์์ ํ ๋ฐฐ๊ฒฝ
์ ์๋ค์ ํน์ดํ ํ์๋ค์ ๋ฐ๊ฒฌํ๋ค. loose garments์์๋ pixel flow๊ฐ, hard poses์๋ vertex flow๊ฐ ๋ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ ๊ฒ์ด๋ค.
์ฌ๊ธฐ์ pixel flow๋ RGB ๊ฐ์ ๊ฐ์ง ์ ๋ค์ ์ฐ๋์ ํตํด, vertex flow๋ ์ ์ ๋ค์ ์ฐ๊ฒฐ์ ํตํด ๋ฌผ์ฒด๋ฅผ ์๊ฐํํ๋ ๋ฐฉ๋ฒ์ด๋ค. → ๋ถ์ ํํ ์ ๋ณด์ผ ์ ์๋ค.
pixel flow์ vertex flow์ ์ฅ์ ์ ํฉ์ณ wFlow๋ผ๊ณ ํ๋ garments๋ฅผ in-the-wild context๋ก ๋ณํํ๋ generative network๋ฅผ ๋ง๋ค์ด๋ด์๋ค.
์ด ๋ ผ๋ฌธ์ ๋ ๋ค๋ฅธ Aha moment๋ ์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ์ training์ ์ํด paried images๋ฅผ ์ฌ์ฉํด์ผํ์ง๋ง, ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ธฐ ์ํ laboriousness๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ์ผ๋ก, large-scale video dataset (Dance50k)๋ฅผ ํ์ฉํ์๋ค. Dance50k์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ 1) self-supervised cross-frame training ์ 2) online cycle optimizaion ๋ก ํ์ต ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ๊ฐ๊ณตํ์์ผ๋ฉฐ, ๋ค์์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ ๋ค์์ ๋ ๋ค๋ฃจ๋๋ก ํ๊ฒ ๋ค.
์์ ๋ ๊ฐ์ง ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ํตํด in-the-wild images๋ฅผ ๋น์ผ paired datasets ์์ด ์กด์ฌํ๋ large scale ๋ฐ์ดํฐ๋ก ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ด ๋ ผ๋ฌธ์ ์ค์ํ ์ฑ๊ณผ์ด๋ค.
๊ธฐ์กด garment transfer ์ฌ๋ก ๋ถ์
๊ธฐ์กด์ ์ฐ๊ตฌ๋ค์ in-shop garment๋ฅผ target person์ ๋ํด 1) pixel flow ๋๋ 2) TPS transformation ๋ฐฉ์์ผ๋ก fitting ์์ผฐ๋ค.
๋ํ ์ฃผ๋ก, paired dataset์ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ์๋๋ฐ, ํ์ต ๋ฐ์ดํฐ๋ก ๊ฐ๊ณตํ๊ธฐ ์ํด ๋ง์ ๋ ธ๋์ด ํ์ํ๊ณ , ๋ฐ๋ผ์ scalableํ์ง ๋ชปํ๋ค. (paired dataset ์์: ์ท์ ์ ์ ์ฌ๋๊ณผ, ํด๋น ์ท์ ์ด๋ฏธ์ง๋ค)
transformation: Linear transformation์ด ์ ํ ๋ณํ์ด๋ฏ, ํน์ ํ ๊ฒฝํฅ์ผ๋ก ์์์ ๊ด๊ณ์ฑ์ ๊ฐ์ง๊ณ ๋ณํ๋๋ ๊ฒ์ด๋ค. ๊ฒฝํฅ์ฑ์ด ์๋ค๊ธฐ๋ณด๋ค ์ผ๊ทธ๋ฌ์ง๋ ๊ฒ์ deformation์ด๋ผ๊ณ ์นญํ๋ค.
๋ ํนํ approach๋ฅผ ์ํํ ์ฐ๊ตฌ ์ค ํ๋๋ 2D pixel flow๋ฅผ 3D SMPL์ vertex flow๋ก ์ ํํ์๋ค. ์ด๋ person-to-person garment์์ ๋ณต์กํ ํฌ์ฆ๋ฅผ ๊ฐ์ง๊ฑฐ๋ self-occlusion (๊ฐ์ฒด๊ฐ ์์ ์ ์ผ๋ถ๋ถ์ ๊ฐ๋ฆฐ ์ํ)์์๋ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค.
ํ์ง๋ง, loose garment์ ๊ฐ์ด 3D SMPL์ ์ผ๋ถ๋ก ๋ชจ๋ธ๋ง๋ ์ ์๋ ์ท๋ค์ ์ทจ์ฝํ ๊ฒฝํฅ์ด ์์๋ค.
1. VITON, CP-VTON: ๋ ๋ ผ๋ฌธ ๋ชจ๋, TPS-based deformation module์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ๋ณํํ ํ, texture fusion module๋ฅผ ์ฌ์ฉํ๋ค. TPS๋ Thin Plate Spline์ผ๋ก, ์ฌ๊ธฐ์ Spline์ ์์ ๊ณก์ ์ ์ฐ๊ฒฐํ ํํ์ ๊ณก์ ์ผ๋ก, OCR์์ ๊ณก์ ์ผ๋ก ์ ํ์๋ ๊ธ์จ์ ์ธ์์ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด ์ง์ ์ผ๋ก ๋ณํํ๋ ๊ฒ์ฒ๋ผ 2D ์ด๋ฏธ์ง์ ํํ ๋ณํ์ ์ฌ์ฉ๋๋ค.
2. VTNFP, ACGPN: ์์ ๋ฐฉ๋ฒ๋ก ์ฒ๋ผ warping, source๋ฅผ ๋คํธ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง๋ง, ๊ฑฐ๊ธฐ์ ๋์๊ฐ ์ท + ์ฌ๋ ํฉ์ฑ์ ๊ฐ์ด๋๋ก์จ human parsing์ ์ํํ๋ค. ์ด๋ฅผ ํตํด ์ท-ํผ๋ถ ๋ฒ์์์ ๋ ์ ๋ฐํ ๋ฌ์ฌ๊ฐ ๊ฐ๋ฅํ์๋ค.
3. PF-AFN: ์ฌ๋์ parsing ์์ ์์ด student model ๋ฐฉ์์ผ๋ก appearance flow๋ฅผ ๋ถ๋ฆฌํ๋ค.
student model: ํฌ๊ธฐ๊ฐ ํฌ๊ณ ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ teacher model๋ผ๊ณ ํ๋ค๋ฉด, GAN๊ณผ ๊ฐ์ด teacher model์ด ์๋ก์ด ๋ชจ๋ธ์ ํ์ต์ํค๊ณ ๊ฒ์ฆํ์ฌ ์์ ์ ์ง์์ ํ์ต์ํค๊ณ , ์ด๋ฅผ ํตํด ์๋์ ์ผ๋ก ๊ฒฝ๋ํ๋ student model์ ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ค.
๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด
๋ ผ๋ฌธ์ flow-based model์ด ๊ฐ์ ์ฌ๋์ multi-pose images ํ์ตํ๋ค๋ฉด, ์ด๋ฅผ ๋ค๋ฅธ ์ฌ๋ ๊ฐ์ garment transfer ์์ protected body parts region์ network๋ฅผ ์ ์ฉํ ์ ์์ด ํจ๊ณผ์ ์ผ ๊ฒ์ด๋ผ๋ ๊ฒ์ด๋ค.
์ฌ๊ธฐ์ flow๋ Flow based Generative Models์์ ๋์จ ๋ง๋ก, ์์ฑ GAN, VAE์ ๊ฐ์ gernerative AI์ ํ ์ข ๋ฅ์ด๋ค.
GAN: ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์์ฑ์์, ์ง์ง์ ๊ฐ์ง๋ฅผ ๊ตฌ๋ถํ๋ ๊ตฌ๋ถ์๋ฅผ ๊ฒฝ์ํด ํ์ต์์ผ ๋ ์ฌ์ค์ ์ธ ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ generative AI ์ ์ ๋ฐฉ๋ฒ
VAE: AE๋ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ผ๋ก ์์ถํ๊ณ (Encoder) ์ด๋ฅผ ๋ค์ ๊ณ ์ฐจ์์ผ๋ก ๋ณต์ํ๋(Decoder) ๋ชจ๋ธ์ด๋ค. VAE๋ ์์ถ๋ ๋ฒกํฐ z๋ฅผ Gaussian Distribution๊ณผ ๊ฐ์ ํ๋ฅ ๋ถํฌ์ ๊ทผ์ฌ์ํจ ๋ค์, ์ด๋ฅผ Decoder๋ก ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ณ ์ ํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก ํด๋น ํ๋ฅ ๋ถํฌ๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๊ท ๊ณผ ํ์คํธ์ฐจ๊ฐ ์ ์ ์ด๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ ฅํ๋ฉด ๊ทธ๋ด๋ฏํ ๋ฐ์ดํฐ๊ฐ ์์ฑ๋๋ค.
Model Pipeline
1. source๋ฅผ person segmentation network์ query๋ฅผ ๋ณด๋ด segmented data๋ฅผ ์ป๋๋ค. ์ด data์๋ source์ garment ๋ถ๋ถ๊ณผ pose๊ฐ ๋ด๊ฒจ์๋ค.
2. pixel-wise, ๊ฐ pixel ๋ณ๋ก source image์ query images๋ฅผ ๋์ํ๋ค.
3. 3D SMPL vertex์ pixel flow๋ฅผ ๊ณ์ฐํ์ฌ image plane์ ์ฃผ์ ํ๊ณ , ์ ์ํ์๋ wFlow๋ฅผ ๋ง๋ ๋ค. ์ด๋ฅผ ํตํด ๋คํ๋ฆฐ ์ท์ด source ์ท์ผ๋ก๋ถํฐ ์ป์ ์ ์๋ค.
4. skip-conneted ๊ฐ ์ผ๋ถ ์์ค๋ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ์ฌ protected person regions์ leverageํ๋ค. ์ฌ๋ ๋ถ๋ถ์ garment systhesis๊ฐ ์์ฑ๋์๋ค.
5. ๋ง์ง๋ง์ผ๋ก background image์ fuse, ์ตํํ๋ค.
6. ์ถ๊ฐ์ ์ผ๋ก training data์ ์ท์ด ์ผ๋ถ๋ง ๋ณด์ด๊ฑฐ๋, ์ ๋ณด์ด์ง ์์์ ๋ ์ด๋ฅผ cylcic online optimization์ ์ค์ํ์ฌ ๊ฒฐ๊ณผ๋ฌผ์ ํ์ง์ ํฅ์์์ผฐ๋ค.
→ Procedure of Model Implementation: ๋ชจ๋ธ์ ์์ธํ ๊ตฌํ ๊ณผ์ ์ ๋ค์ ํฌ์คํ ์์... ๐ค
'๐ค ์ธ๊ณต์ง๋ฅ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Kaggle] Intro to Machine Learning ์๊ฐ ํ๊ธฐ + ๋ด์ฉ ์์ฝ (0) | 2023.10.26 |
---|---|
[์ฐ๊ตฌ์ผ์ง] ๊ธฐ์กด Topic Modeling์ ํ๊ณ (2) | 2023.10.10 |
[์ฐ๊ตฌ์ผ์ง] K-means VS HDBSCAN (0) | 2023.10.09 |
[NIPS 17'] Attention is All You Need ์๋ฌด๊ฒ๋ ๋ชจ๋ฅด๋ ์ํ์์ ์ดํดํ๊ธฐ - 1 (2) | 2023.08.14 |
[CVPR 22'] Dressing in the Wild by Watching Dance Video - 2 (0) | 2023.08.08 |