๊ฒฐ์ธก์น: ์ธก์ ๋์ง ์์ ์์น, ๋ฌด์ธ๊ฐ์ ์ด์ ๋ก ์ธํด ์ธก์ /๊ธฐ๋ก๋์ง ์์ ์์น๋ฅผ ๋งํ๋ค. ๋ณธ ํฌ์คํ ์์๋ ์ธ๊ณต์ง๋ฅ ํ์ต ๋ฐ์ดํฐ์ ์ ๊ฒฐ์ธก์น๋ฅผ ๋ค๋ฃจ๊ณ ์ ํ๋ค.
์ผ๋ฐ์ ์ผ๋ก ๊ฒฐ์ธก์น๋ np.nan ์ผ๋ก ํ๊ธฐ๋๋ค.
np.nan์ด ์ด๋ง๋ค ์ผ๋ง๋ ํ์ธํ๊ธฐ ์ํด์ df.info()๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๊ฒฐ๊ณผ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
์๋จ์ ํ๋ฅผ ๋ณด๋ฉด, 18๋ฒ์งธ ์ด์ธ "TotalCharges"์ 11๊ฐ์ null ๊ฐ์ด ์๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
๊ทธ๋ฐ๋ฐ, ์ด๊ฒ ๊ฒฐ์ธก์น์ ์ ๋ถ์ผ๊น? ๐
1. number ๊ฒฐ์ธก์น ์ฐพ์๋ด๊ธฐ
์ฒซ ๋ฒ์งธ๋ก, df.describe()์ ์คํํ๋ค.
์ด ํจ์๋ ์ซ์ ๊ณ์ด์ ๋ฐ์ดํฐ๋ค์ ํ๊ท , ํธ์ฐจ, ์ค์๊ฐ ๋ฑ์ ์๋ ค์ฃผ๋๋ฐ EDA(Exploraatory Data Analysis)์ ์ธ ๊ด์ ์ด ํ์ํ๋ค. tenure๋ ํต์ ์ฌ ์๋น์ค์ ๊ฐ์ ๊ธฐ๊ฐ์ ๋งํ๋๋ฐ, min๊ฐ์ด 0์ด๋ค. ๊ฐ์ ๊ธฐ๊ฐ์ด 0์ธ ๊ฒ์ด ์ด์ํ๊ฒ ๋๊ปด์ง์ง ์๋๊ฐ?
๋๋ถ์ด ์ค์๊ฐ๋ณด๋ค ํ๊ท ๊ฐ์ด ์์ ๊ฒ๋ ์๋์ ์ผ๋ก ์์ ๊ฐ๋ค์ด ๋ง์ด ๋ถํฌํ๊ณ ์๋ค๋ ์๋ฏธ์ด๊ธฐ์ ์ด๋ฌํ ์จ์ด์๋ ๊ฒฐ์ธก์น๋ฅผ ์์ฌํ ํ์๊ฐ ์๋ค๊ณ ํ๋ค. (ํ๋ก์ ํธ๋ก ๋ฐฐ์ฐ๋ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๊ฐ์ข ๋ฐ๋ก๊ฐ๊ธฐ)
2. string(object) ๊ฒฐ์ธก์น ์ฐพ์๋ด๊ธฐ
๋ ๋ฒ์งธ๋ก, ๋ฌธ์ ์๋ฃํ์ธ ์ด์ ๊ฒฐ์ธก์น๊ฐ ์๋์ง ์ฐพ์๋ณธ๋ค.
์ฐ์ , ์๋ฃํ์ธ object์ธ column name๋ค์ listํ ํ๋ค.
๊ทธ๋ฆฌ๊ณ ํด๋น column name์ ์ํํ๋ฉด์ unique()๋ฅผ ์ฌ์ฉํ์ฌ, ๊ฐ ์ด๋ง๋ค ํน์ด๊ฐ๋ค์ ์ถ๋ ฅํ๋ค.
์ด๋ฅผ ํตํด ํด๋น ์ด์ ๋น๋ฌธ์์ด์ด ์๊ฑฐ๋, ๊ฒฐ์ธก์น๋ก ๋ณด์ด๋ ๋ฐ์ดํฐ๊ฐ ์๋ค๋ฉด number์ ๊ฒฝ์ฐ์์์ฒ๋ผ replace์ dropna() ๋ฑ์ผ๋ก ์ฒ๋ฆฌํด์ค ์ ์๋ค.
๋์น ์ ์๋ ๊ฒฐ์ธก์น๊ฐ ์๋ค๋ ๊ฒ, ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ํ์ธํ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ํฅ๋ฏธ๋กญ๋ค ๐