๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ฌ๋ฏธ์๋ ์ดํ๋ฆฌ์ผ์ด์ ์ ์ ์ํ๋ ค๊ณ ํ๋ค.
๋ฌธ๋ ๋ ์ค๋ฅธ ์์ด๋์ด์ธ๋ฐ, ํ๋ก์ ํธ ์์ ์์ ์ด ์์ด๋์ด๋ฅผ ์ฃผ์ ๋ก ํ์ ๋ง๋ค๊ฒ ๋์๋ค.
๊ธฐํํ ์ดํ๋ฆฌ์ผ์ด์ ์ ๋ชจ๋ธ์ด ์ค๋๋ ฅ ์๋ ๋ต๋ณ์ ๋ด๋ ๊ฒ์ด ์ค์ํ์ฌ, ML-intensive application๋ผ๊ณ ํ ์ ์๋ค.
์๋ ๋งํฌ๋ก ์ฒจ๋ถํ Andrew Ng์ ์์์ฒ๋ผ, ML์์ data์ model(code)์ ๋น์ค์ ๋๋ฑํด์ง๊ฑฐ๋ data๊ฐ ๋ ์ค์ํ๊ฒ ๋ค๋ฃจ์ด์ง๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ด๋ฆฌํ๊ณ ์ถ์๋ค.
https://www.youtube.com/watch?v=TU6u_T-s68Y
ํนํ,
1. ๋ฐ์ดํฐ ์์ง๋์ด๋ง, ๋ชจ๋ธ๋ง์ ๋งก์ ํ์๋ค์ด ๋์ผํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ฉด ์ข๊ฒ ๋ค.
2. git์ผ๋ก code versioning์ ํ๋ฏ, data๋ ๋ณํ ๊ณผ์ ์ ์ถ์ ํ๊ณ ์ถ๋ค.
์์ ๋ ๊ฐ์ง ๋์ฆ๊ฐ ์์๋ค.
์คํ ์ธํ ์ ์ํด data validation, parallel computing(DACS)์ ๊ฐ์ด ์ฌ๋ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ค์ ๊ธฐ๋ฅ์ ์์๋ณด๋ฉฐ, ์ํ๋ ๊ธฐ๋ฅ๊ณผ ๊ตฌ๋ถํ๊ณ data ์ฒ๋ฆฌ์ ๋ํด ๋ฐฐ์ ๋ค. ๊ธฐ์ ์ฉ ์๋น์ค์ ๊ฒฝ์ฐ์๋ ์ ๋ฃ ์๊ธ์ ๋ง ๊ฐ์ถ์ด์ง ๊ณณ๋ค๋ ๋ง์์ ๋ฌด๋ฃ๋ก ์ฌ์ฉํ ์ ์๊ณ , ์คํ ๋ฆฌ์ง ์ฉ๋๋ ๋ฉ๋๊ฐ๋ฅํ ์์ค์ผ๋ก ๋๊ปด์ง ๋ฐฉ์์ผ๋ก ๋ ๊ฐ์ง๋ฅผ ์ถ๋ ธ๋ค.
1. git-lfs
๊ณ์ ๋น 2GB์ ์ฉ๋์ ๊ฐ์ง๋ฉฐ, 100MB ์ด์์ ๋ฐ์ด๋๋ฆฌ ์๋ฃ(์ด๋ฏธ์ง, ์์)์ ๋์์ผ๋ก ๋ง๋ค์ด์ง ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ด๋ค.
.gitattributes ํ์ผ์ ํตํด git-lfs๋ก ๊ด๋ฆฌํ๊ณ ์ ํ๋ ํ์ผ์ ํ์ฅ์๋ ํ์ผ๋ช ์ ์ ์ํ ์ ์๋ค.
2. DVC + Google Drive
DVC๋ data version control์ ์ํ ์คํ์์ค๋ก, .dvc ํ์ผ์ ํตํด ์ธ๊ณต์ง๋ฅ ํ์ต ๊ณผ์ ์์ ๋ฐ์ดํฐ ๋๋ ๋ชจ๋ธ๊ณผ ๊ฐ์ด ๋ฐ๋๋ ์์๋ค์ remote storage์ ์ ์ฅํจ๊ณผ ๋์์ git์ผ๋ก code์ ํจ๊ป ๋ฒ์ ๊ด๋ฆฌ๋ฅผ ํ ์ ์๋๋ก ๋๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ด๋ค.
์ด ์ค, DVC๋ฅผ ์ฌ์ฉํ๊ธฐ๋ก ํ ๊ฒ์ Google Drive์ 40,0000๊ฐ์ ์์๋ฅผ ์ ์ฅํ ์ ์๋ ์ถฉ๋ถํ ๊ณต๊ฐ์ด ์์๊ณ , DVC๊ฐ Google Drive์๋ ์ฐ๋์ด ๋๋ค๋ ๊ฒ์ด ์ฃผํจํ์๋ค. ๊ทธ๋ฆฌ๊ณ Google Drive์ colab์ ์ฐ๋์ฑ์ด ์ฐ์ํ๊ณ , colab์์ GPU ๋ฆฌ์์ค๋ ์ด๋์ ๋ ๋ท๋ฐ์นจ์ด ๋๊ธฐ์ ๋์ฑ DVC๋ฅผ ์ ํํ ์๋ฐ์ ์์๋ค.