์๊ฐ ๊ณ๊ธฐ ๐ซ
์ต๊ทผ ์ค์ค๋ก ๋๋์๋ณด์์ ๋, ๋ ผ๋ฌธ ์ดํดํ๊ธฐ / ์ธ๊ณต์ง๋ฅ ์ํ์ ์๋ฆฌ ์ดํดํ๊ธฐ / ์ฝ๋ ๋น ๋ฅด๊ฒ ์ตํ์ ์ฌ์ฉํ๊ธฐ ์ด๋ฐ ๋ฅ๋ ฅ์ ๊ธฐ๋ฅธ ๋ฐ๋ฉด, ์ธ๊ณต์ง๋ฅ์ ๊ธฐ์ด๊ฐ ๋ถ์กฑํ๋ค๋ ์๊ฐ์ด ๋ง์ด ๋ค์๋ค.
ํญ์๋ฆฌ๋ฅผ ํฌ๊ณ ๋ฉ์ง๊ฒ ๋ง๋ค๋๋ผ๋, ์๋์ ์์ ๊ตฌ๋ฉ ํ๋๊ฐ ์์ผ๋ฉด ๋ฌผ์ด ์๋ฏ์ด ๊ธฐ์ด์ ๋ํ ๋ถ์กฑํจ์ ๋ง์ด ๋๊ผ๋ค.
์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด Kaggle์ competition, learning์ ํตํด ์ง์์ ์ผ๋ก ๊ณต๋ถํ๊ธฐ๋ก ๋ง์ ๋จน์๋ค.
Kaggle ๊ฐ์ ํ๊ธฐ ๐
์์ ๊ฐ์ด ํ์ต ์ฝ์ค๋ ์ค๋ช ๋ถ๋ถ์ธ Tutorial๊ณผ ์ค์ต ๋ถ๋ถ์ธ Exercise๋ก ๊ตฌ์ฑ๋์ด ์๋๋ฐ,
ํ์ต ์ฝ์ค์ ์ฃผ์ ๋ฅผ ์ค๋ช ํ๊ธฐ ์ํ ์คํ ๋ฆฌํ ๋ง์ด ์ ๊ฐ์ถ์ด์ ธ ์์ด ์ดํดํ๊ธฐ์ ์ข์๊ณ ๋ค๋ฅธ ์ฌ๋์๊ฒ ๋ฐฐ์ด ๊ฒ์ ์ค๋ช ํ ๋์๋ ๋งค์ฐ ์ ์ฉํ ์์ด๋์ด๋ฅผ ๋ง์ด ๋ฐฐ์์ ์ข์๋ค.
๋ด์ฉ ์์ฝ โ๏ธ
DecisionTree ๋ชจ๋ธ์ ์์๋ก ํ์ฌ, ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๊ณต๋ถํ๋ค.
DecisionTree๋, ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด root๋ก๋ถํฐ ์ ์ ํ ๊ธฐ์ค์ผ๋ก๋ถํฐ ๋ ๊ฐ์ ๊ตฐ์ ๋๋๊ณ ์ด๋ฅผ ๋ฐ๋ณตํ์ฌ ๊น์ด๊ฐ n์ผ ๋, ์ด 2์ n์ ๊ณฑ๋งํผ์ division์ ๊ฐ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ด๋ค.
๊ฐ์๋ Pandas์ dataframe ์๋ฃํ์ ๋ฐํ์ผ๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ์ํ๊ณ , scikit-learn์ ๋ชจ๋์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ์ ์ํ๋๋ฐ, in-sample ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด validation set์ด ํ์ํ๊ณ ๋ชจ๋ธ์ ๊ฐ์ ํ๊ธฐ ์ํด loss๋ฅผ ์ ์ํ์ฌ ์ฌ๋ฌ ์คํ์ ๊ฑฐ์ณ ์ ์ ํ parameter๋ฅผ ์ ํ๋ ๋ชจ๋ธ์ ๊ตฌ์ถ ๊ณผ์ ์ ํ์ตํ๋ค.
๋์๊ฐ ๋จ์ผ DecisionTree๊ฐ ์๋๋ผ ๋ค์ค DecisionTree๋ฅผ ์ฌ์ฉํ ํ, ๊ฒฐ๊ณผ๊ฐ์ average์ ๊ฐ์ ๋ํ๊ฐ์ ์ฌ์ฉํ๋ RandomForest ๋ฐฉ์์ ํ์ฉํ์ฌ, ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋ณ๊ฒฝ๋ง์ผ๋ก ์ผ๋ฐ์ ์ผ๋ก ๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋๋ก ํ ์ ์๋ค๋ ๊ฒ์ ๋ณด๊ณ , ์ํคํ ์ฒ์ ์ค์์ฑ๋ ์ ์ ์๊ฒ ๋๋ค.
Kaggle์๋ Intro to Machine Learning ๊ฐ์ ์ธ์๋ Intermediate์ Deep Learning ๊ฐ์๋ ๋ง๋ จ๋์ด ์๋ค.
๋ ๐ซก