์์ ํ ํฝ์ผ๋ก ๋ชจ์์ง ๋ด์ค ๊ธฐ์ฌ, ๊ทธ๋ฆฌ๊ณ ๊ธฐํ ์ ๋ณด๋ฅผ ๋ด์ ๊ธ์, ํ์ ํ ํฝ๋ณ๋ก ์ฌ๋ถ๋ฅํ๋ ์ฐ๊ตฌ๋ฅผ ์งํํ๋ฉฐ
๋๋์ ๋ฌธ์ ๋ฐ์ดํฐ ๋ด์์ unsupervisedํ๊ฒ ํ ํฝ์ ์ถ์ถํ๊ณ ๋์์ ํด๋ฌ์คํฐ๋ง๊น์ง ์งํํ๋ ๊ฒ์ Clustering Topic Modeling์ด๋ผ๊ณ ํ๋ค.
1. Topic Modeling์ ํ๊ณ
๊ทธ๋ฐ๋ฐ, ํนํ ๋ด์ค์ ๊ฐ์ด ์ฌ๊ฑด์ ๋ค๋ฃฌ ๊ธ๋ค์ ํด๋ฌ์คํฐ๋งํ๋ ๊ณผ์ ์์ ๊ธฐ์กด Topic Modeling๋ง์ผ๋ก๋ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
ํ์ฌ Benchmark๋ก ์ผ๊ณ ์๋ Top2Vec์ ๊ฒฝ์ฐ๋ฅผ ์ดํด๋ณด๋ฉด,
https://github.com/ddangelov/Top2Vec
GitHub - ddangelov/Top2Vec: Top2Vec learns jointly embedded topic, document and word vectors.
Top2Vec learns jointly embedded topic, document and word vectors. - GitHub - ddangelov/Top2Vec: Top2Vec learns jointly embedded topic, document and word vectors.
github.com
์๋ Top2Vec ๋ชจ๋ธ ํ์ต ํ์, ํน์ ํ ํด๋ฌ์คํฐ ๋ด ๋ฌธ์์ ์๋ฏธ๋ฅผ ํฌ๊ดํ๋ ๋จ์ด ์์ 50๊ฐ์ ๋ฆฌ์คํธ์ด๋ค.
Topic Modeling์ ๊ธฐ๋ณธ ์์ด๋์ด๊ฐ ๊ธ์ ์ฃผ์ ๊ฐ ๋ ์ ์๋ ์ถ์์ ์ด๊ฑฐ๋ ๊ตฌ์ฒด์ ์ธ ๋จ์ด๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ๋ค๋ณด๋, ์ด๋ฐ ํ์์ผ๋ก๋ WordCloud์ ๊ฐ์ ์๊ฐํ๊ฐ ์ต์ ์ด๋ฉฐ, ์๋์ ๊ฐ์ ๋ฌธ์ ์ ๋ค์ ๊ฐ์ง๊ณ ์๋ค.
- ํด๋น ํด๋ฌ์คํฐ๊ฐ ๋ดํฌํ๋ ์ฌ๊ฑด, ์ฃผ์ฅ์ ์ ์ ์๋ค.
- ์ ๋ณด๋์ ๋ถ์กฑ์ผ๋ก ๊ฐ ํด๋ฌ์คํฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ๊ธฐ ์ด๋ ต๋ค.
์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด์ ๋จผ์
๊ฐ ํด๋ฌ์คํฐ๊ฐ ์์ฌํ๋ ๋ด์ฉ์ ๋ ์์ธํ๊ฒ ์ดํดํ ์ ์๋๋ก ์ ๋ณด๋์ ๋์ด๊ณ ,
ํด๋น ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก ํด๋ฌ์คํฐ ๊ฐ์ ๊ด๊ณ์ฑ์ ํ์ ํ ์ ์๋๋ก ํ๋ ๊ฒ์ด๋ค.
2. Large Language Model์ ํ๊ณ
ํํธ,
์ต๊ทผ ๋น์ฝ์ ์ธ ๋ฐ์ ์ ์ด๋ฃจ์ด๋ธ, LLM(Large Language Model)์ผ๋ก ๋ชจ๋ ๋ฌธ์์ ๋ด์ฉ์ ๋ณตํฉ์ ์ผ๋ก ์ดํดํ๊ณ , ๋ค์ ์ด ์ ๋ณด๋ค์ ๊ฐ์ง๊ณ ๊ทธ ๊ด๊ณ์ฑ์ ์ดํดํ๊ณ ์ ํ๋ ์์ฃผ naiveํ ์์ด๋์ด๋ฅผ ๋ ์ฌ๋ฆด ์๋ ์๋ค.
ํ์ง๋ง, ์ด๋ ์๋์ ๊ฐ์ ์ด์ ๋ก ํ์ค์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ๋ค.
- API based ์๋น์ค ์ด์ฉ ์, Token ์์ ์ ํ์ผ๋ก ๊ธด ๋ฌธ์์ ์ ์ฉ์ด ๋ถ๊ฐํ๋ค.
- ๋์ ์ฐ์ฐ ๋ฆฌ์์ค ์ฌ์ฉ์ผ๋ก, ๊ฒฝ์ ์ ์ด์ง ์๋ค. ํ ๋ฌธ์์ 10์์ด์ด๋ ์ ์ด๋ ํ๋์ ์ฃผ์ ๋น 10000๊ฐ์ ๋ฌธ์, 10๋ง ์์ด๋ผ๋ ๋๋ฌด ๋น์ผ ๋ฐฉ๋ฒ์ด ๋๋ค.
3. ๊ฒฐ๋ก
๊ธฐ์กด Topic ๋ชจ๋ธ๋ง๋ณด๋ค Interpredability, ์ฆ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ์ด Cluster์ ํ ํฝ์ด ๋ฌด์์ธ์ง ์ดํดํ๋ ์ ๋๋ฅผ ๊ทน์ ์ผ๋ก ๋์ด๊ธฐ ์ํด,
Clusters์ Topic์ ์ถ๋ก ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, LLM์ ๋ํ ์ ์ ํ query์ INPUT๊ณผ OUTPUT์ ์ค๊ณํ์ฌ ์ด๋ฅผ ํ์ฉํ ์ ์๊ฒ ๋ค๋ ๊ฒฐ๋ก ์ ๋ค๋ค๋ฅธ๋ค.