์์ ํ ํฝ์ผ๋ก ๋ชจ์์ง ๋ด์ค ๊ธฐ์ฌ, ๊ทธ๋ฆฌ๊ณ ๊ธฐํ ์ ๋ณด๋ฅผ ๋ด์ ๊ธ์, ํ์ ํ ํฝ๋ณ๋ก ์ฌ๋ถ๋ฅํ๋ ์ฐ๊ตฌ๋ฅผ ์งํํ๋ฉฐ
๋๋์ ๋ฌธ์ ๋ฐ์ดํฐ ๋ด์์ unsupervisedํ๊ฒ ํ ํฝ์ ์ถ์ถํ๊ณ ๋์์ ํด๋ฌ์คํฐ๋ง๊น์ง ์งํํ๋ ๊ฒ์ Clustering Topic Modeling์ด๋ผ๊ณ ํ๋ค.
1. Topic Modeling์ ํ๊ณ
๊ทธ๋ฐ๋ฐ, ํนํ ๋ด์ค์ ๊ฐ์ด ์ฌ๊ฑด์ ๋ค๋ฃฌ ๊ธ๋ค์ ํด๋ฌ์คํฐ๋งํ๋ ๊ณผ์ ์์ ๊ธฐ์กด Topic Modeling๋ง์ผ๋ก๋ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
ํ์ฌ Benchmark๋ก ์ผ๊ณ ์๋ Top2Vec์ ๊ฒฝ์ฐ๋ฅผ ์ดํด๋ณด๋ฉด,
https://github.com/ddangelov/Top2Vec
์๋ Top2Vec ๋ชจ๋ธ ํ์ต ํ์, ํน์ ํ ํด๋ฌ์คํฐ ๋ด ๋ฌธ์์ ์๋ฏธ๋ฅผ ํฌ๊ดํ๋ ๋จ์ด ์์ 50๊ฐ์ ๋ฆฌ์คํธ์ด๋ค.
Topic Modeling์ ๊ธฐ๋ณธ ์์ด๋์ด๊ฐ ๊ธ์ ์ฃผ์ ๊ฐ ๋ ์ ์๋ ์ถ์์ ์ด๊ฑฐ๋ ๊ตฌ์ฒด์ ์ธ ๋จ์ด๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ๋ค๋ณด๋, ์ด๋ฐ ํ์์ผ๋ก๋ WordCloud์ ๊ฐ์ ์๊ฐํ๊ฐ ์ต์ ์ด๋ฉฐ, ์๋์ ๊ฐ์ ๋ฌธ์ ์ ๋ค์ ๊ฐ์ง๊ณ ์๋ค.
- ํด๋น ํด๋ฌ์คํฐ๊ฐ ๋ดํฌํ๋ ์ฌ๊ฑด, ์ฃผ์ฅ์ ์ ์ ์๋ค.
- ์ ๋ณด๋์ ๋ถ์กฑ์ผ๋ก ๊ฐ ํด๋ฌ์คํฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ๊ธฐ ์ด๋ ต๋ค.
์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด์ ๋จผ์
๊ฐ ํด๋ฌ์คํฐ๊ฐ ์์ฌํ๋ ๋ด์ฉ์ ๋ ์์ธํ๊ฒ ์ดํดํ ์ ์๋๋ก ์ ๋ณด๋์ ๋์ด๊ณ ,
ํด๋น ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก ํด๋ฌ์คํฐ ๊ฐ์ ๊ด๊ณ์ฑ์ ํ์ ํ ์ ์๋๋ก ํ๋ ๊ฒ์ด๋ค.
2. Large Language Model์ ํ๊ณ
ํํธ,
์ต๊ทผ ๋น์ฝ์ ์ธ ๋ฐ์ ์ ์ด๋ฃจ์ด๋ธ, LLM(Large Language Model)์ผ๋ก ๋ชจ๋ ๋ฌธ์์ ๋ด์ฉ์ ๋ณตํฉ์ ์ผ๋ก ์ดํดํ๊ณ , ๋ค์ ์ด ์ ๋ณด๋ค์ ๊ฐ์ง๊ณ ๊ทธ ๊ด๊ณ์ฑ์ ์ดํดํ๊ณ ์ ํ๋ ์์ฃผ naiveํ ์์ด๋์ด๋ฅผ ๋ ์ฌ๋ฆด ์๋ ์๋ค.
ํ์ง๋ง, ์ด๋ ์๋์ ๊ฐ์ ์ด์ ๋ก ํ์ค์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ๋ค.
- API based ์๋น์ค ์ด์ฉ ์, Token ์์ ์ ํ์ผ๋ก ๊ธด ๋ฌธ์์ ์ ์ฉ์ด ๋ถ๊ฐํ๋ค.
- ๋์ ์ฐ์ฐ ๋ฆฌ์์ค ์ฌ์ฉ์ผ๋ก, ๊ฒฝ์ ์ ์ด์ง ์๋ค. ํ ๋ฌธ์์ 10์์ด์ด๋ ์ ์ด๋ ํ๋์ ์ฃผ์ ๋น 10000๊ฐ์ ๋ฌธ์, 10๋ง ์์ด๋ผ๋ ๋๋ฌด ๋น์ผ ๋ฐฉ๋ฒ์ด ๋๋ค.
3. ๊ฒฐ๋ก
๊ธฐ์กด Topic ๋ชจ๋ธ๋ง๋ณด๋ค Interpredability, ์ฆ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ์ด Cluster์ ํ ํฝ์ด ๋ฌด์์ธ์ง ์ดํดํ๋ ์ ๋๋ฅผ ๊ทน์ ์ผ๋ก ๋์ด๊ธฐ ์ํด,
Clusters์ Topic์ ์ถ๋ก ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, LLM์ ๋ํ ์ ์ ํ query์ INPUT๊ณผ OUTPUT์ ์ค๊ณํ์ฌ ์ด๋ฅผ ํ์ฉํ ์ ์๊ฒ ๋ค๋ ๊ฒฐ๋ก ์ ๋ค๋ค๋ฅธ๋ค.