Introduction to Embedding
๐ ๋ชฉ์ฐจ
๋ฒกํฐ(Vector)๋?
์๋ฒ ๋ฉ(Embedding)์ด๋?
์๋ฒ ๋ฉ์ ์ค์์ฑ
Solar Embedding์ ์ฌ์ฉํด์ผ ํ๋ ์ด์
Demo: Solar ๋ฌธ์ฅ ์๋ฒ ๋ฉ ์ค์ต
AI ๋ชจ๋ธ, ์ฆ ์ปดํจํฐ ์๊ณ ๋ฆฌ์ฆ์ด ํ ์คํธ๋ฅผ ์ดํดํ๊ณ ํ์ฉํ๋ ค๋ฉด ๋จ์ด, ๋ฌธ์ฅ, ๋ฌธ์๋ฅผ ์ซ์๋ก ๋ณํํด์ผ ํฉ๋๋ค. ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ธฐ์ ์ด ์๋ฒ ๋ฉ(Embedding)์ ๋๋ค. ์๋ฒ ๋ฉ์ LLM ๋ชจ๋ธ์ ํต์ฌ ์์๋ก์ AI๊ฐ ํ ์คํธ๋ฅผ ์ดํดํ๊ธฐ ์ํด ํ์์ ์ธ ๊ณผ์ ์ ๋๋ค.
๋ณธ๊ฒฉ์ ์ธ ์๋ฒ ๋ฉ ๊ฐ๋ ์ ์ค๋ช ํ๊ธฐ ์์, ๋ฒกํฐ ๊ฐ๋ ๋ถํฐ ์ง๊ณ ๋์ด๊ฐ๊ฒ ์ต๋๋ค.
1. ๋ฒกํฐ(Vector)๋?
์ปดํจํฐ๋ ์์ฐ์ด, ํ
์คํธ๋ฅผ ์ด๋ป๊ฒ ์ดํดํ ๊น?
์ปดํจํฐ๋ ์ซ์๋ง ์ธ์ํ๊ณ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์, ์ฌ๋์ด ์ฌ์ฉํ๋ ๋จ์ด๋ ๋ฌธ์ฅ์ ์ซ์๋ก ๋ณํ๋ ํํ(๋ฒกํฐ, Vector)๋ก ํํ๋์ด์ผ ํฉ๋๋ค.
๐ก ์ฌ๊ธฐ์ ๋ฒกํฐ๋?
๋ฒกํฐ๋ ์ซ์์ ๋์ด๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ ํํ ๋ฐฉ์์ ๋๋ค.
AI ์๊ณ ๋ฆฌ์ฆ ๊ทธ๋ฆฌ๊ณ ์ปดํจํฐ๋ ๋จ์ด๋ ๋ฌธ์ฅ์ ๋ฒกํฐ๋ก ๋ณํํ์ฌ ์ด๋ฅผ ์ดํดํฉ๋๋ค.
๐ ์์
"๊ณ ์์ด"
[0.12, -0.45, 1.33, ...]
"๊ฐ์์ง"
[0.14, -0.50, 1.28, ...]
"์๋์ฐจ"
[2.45, -0.98, 3.22, ...]
๐ ๋ฒกํฐ ๊ณต๊ฐ(Vector Space)์ด๋?

๋ฒกํฐ ๊ณต๊ฐ์ ๋จ์ด๋ฅผ ์์น์ ์ผ๋ก ํํํ ์ขํ ๊ณต๊ฐ์ผ๋ก, ์๋ฏธ๊ฐ ๋น์ทํ ๋จ์ด๋ค์ ๊ฐ๊น์ด ์์น์ ๋ฐฐ์น๋๊ณ , ์๋ฏธ๊ฐ ๋ค๋ฅธ ๋จ์ด๋ค์ ๋ฉ๋ฆฌ ๋จ์ด์ง๋๋ก ํ์ต๋ฉ๋๋ค.
๐ก ์ฆ, AI๋ ๋ฒกํฐ ๊ณต๊ฐ์ ํ์ฉํ์ฌ ๋จ์ด ๊ฐ์ ๊ด๊ณ๋ฅผ ์์น์ ์ผ๋ก ๋ถ์ํ๊ณ ํ์ตํ ์ ์์ต๋๋ค.
2. ์๋ฒ ๋ฉ(Embedding)์ด๋?
๐ก ํ
์คํธ๋ฅผ ๋ฌธ๋งฅ์ ํฌํจํ ์ซ์๋ก ๋ฐ๊พธ๋ ๊ธฐ์ , ์๋ฒ ๋ฉ
์๋ฒ ๋ฉ ์ด์ ๋ฐฉ์๋ค์ ์๋ฏธ, ๋ฌธ๋งฅ์ ์ดํดํ์ง ๋ชปํ๊ณ , ๋จ์ํ ๋จ์ด์ ์ฒ ์๊ฐ ๋น์ทํ๊ฑฐ๋ ํน์ ๋ฌธ์ฅ ๋ด ๋น์ทํ ๋จ์ด์ ๊ฐ์ ๋ฑ ์์น์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ํ ์คํธ๋ฅผ ๋ฒกํฐํํ๋ ํ๊ณ๊ฐ ์์์ต๋๋ค.
ํ์ง๋ง ์๋ฒ ๋ฉ(Embedding)์ ๋จ์ด, ๋ฌธ์ฅ, ๋ฌธ์ ๋ฑ ํ ์คํธ์ ์๋ฏธ๋ฅผ ๋ฐ์ํ์ฌ ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ๋ ๊ธฐ์ ๋ก, AI๊ฐ ๋จ์ด์ ์๋ฏธ์ ๋ฌธ๋งฅ์ ๋ณด๋ค ์ ํํ๊ฒ ์ดํดํ๊ณ ๋ถ์ํ ์ ์๋๋ก ๋์์ค๋๋ค.
๐ ์์
์์๋ก ๋ค์๊ณผ ๊ฐ์ 3๊ฐ์ ๋จ์ด๋ฅผ ๋ค์ด๋ณด๊ฒ ์ต๋๋ค.
"๋ฐฐ์ฐ"
[0.12, -0.45, 1.33, ...]
"๋ฐฐ์"
[0.14, -0.50, 1.28, ...]
"๊ณต๋ถ"
[2.45, -0.98, 3.22, ...]
"๋ฐฐ์ฐ"์ "๋ฐฐ์"์ ์ฒ ์๊ฐ ๋น์ทํ์ง๋ง ์๋ฏธ๊ฐ ๋ค๋ฆ
"๋ฐฐ์"๊ณผ "๊ณต๋ถ"๋ ์ฒ ์๋ ๋ค๋ฅด์ง๋ง ์๋ฏธ๊ฐ ์ ์ฌํจ
๐ ๊ธฐ์กด ๋ฐฉ์ vs. ์๋ฒ ๋ฉ ๋ฐฉ์ ๋น๊ต
์ด์ ๋ฐฉ์ (๋ฌธ๋งฅ ๋ฐ์ X)
์๋ฒ ๋ฉ ๋ฐฉ์ (๋ฌธ๋งฅ ๋ฐ์)
"๋ฐฐ์ฐ"์ "๋ฐฐ์"์ ์ฒ ์๊ฐ ๋น์ทํ๋ฏ๋ก ์ ์ฌํ ๋จ์ด๋ก ์ฒ๋ฆฌ
"๋ฐฐ์ฐ"์ "๋ฐฐ์"์ ์ฐ๊ด ์๋ ๋จ์ด๋ก ๋ถ๋ฅ
"๋ฐฐ์"๊ณผ "๊ณต๋ถ"๋ ์ฒ ์๊ฐ ๋ค๋ฅด๋ฏ๋ก ์ฐ๊ด ์๋ ๋จ์ด๋ก ์ธ์
"๋ฐฐ์"๊ณผ "๊ณต๋ถ"๋ ์๋ฏธ๊ฐ ์ ์ฌํ๋ฏ๋ก ๊ฐ๊น์ด ๊ฐ๋ ์ผ๋ก ์ธ์

์ ๊ทธ๋ฆผ์ฒ๋ผ, ์๋ฏธ์ ์ผ๋ก ๊ฐ๊น์ด ๋จ์ด๋ ๋ฒกํฐ ๊ณต๊ฐ์์ ๊ฐ๊น์ด ์์น์ ๋ฐฐ์น๋๊ณ , ๊ด๋ จ ์๋ ๋จ์ด๋ค์ ๋ฉ๋ฆฌ ๋จ์ด์ง๋๋ก ํ์ต๋ฉ๋๋ค.
๐ก ์ฆ, ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ํ์ฉํ๋ฉด AI๊ฐ ๋จ์ด์ ์๋ฏธ, ๋ฌธ์ฅ์ ๋ฌธ๋งฅ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ๋ฅผ ๋ณด๋ค ์ ํํ๊ฒ ์ดํดํ ์ ์์ต๋๋ค!
3. ์๋ฒ ๋ฉ์ ์ค์์ฑ
AI ๋ชจ๋ธ์ด ๋จ์ํ ๋จ์ด๋ฅผ ๋น๊ตํ๋ ๊ฒ์ด ์๋๋ผ, ๋ฌธ๋งฅ๊ณผ ์๋ฏธ๋ฅผ ์ดํดํ๋๋ก ๋ง๋ค๊ธฐ ์ํด ์๋ฒ ๋ฉ์ด ํ์ํฉ๋๋ค.
โ
์๋ฒ ๋ฉ์ด ํ์ํ ์ด์
1๏ธโฃ ๋ฌธ์ฅ ๊ฐ ์ ์ฌ๋ ๋น๊ต
"๋๋ ํผ์๋ฅผ ์ข์ํด" โ "ํผ์๋ ๋ด ์ต์ ์์์ด์ผ" : ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋ฌธ์ฅ์ผ๋ก ํ๋จ ๊ฐ๋ฅ
2๏ธโฃ ํ ์คํธ ๊ฒ์(Search) ๊ฐ์
๋จ์ด, ๋ฌธ์ฅ ๋ฑ์ ์ ์ฌ๋๋ฅผ ํ์ ํ ์ ์๊ธฐ ๋๋ฌธ์ ์ฌ์ฉ์๊ฐ ์ ๋ ฅํ ์ง๋ฌธ๊ณผ ๊ด๋ จ์ฑ์ด ๋์ ๋ฌธ์๋ฅผ ๊ฒ์ ๊ฐ๋ฅ
"๊ฐ์์ง"๋ฅผ ๊ฒ์ํ๋ฉด "๋ฐ๋ ค๊ฒฌ", "์ ์๋๋ฌผ" ๋ฑ ์๋ฏธ๊ฐ ๋น์ทํ ๋ฌธ์ ๊ฒ์ ๋ฐ ์ถ์ฒ
3๏ธโฃ ์์ฐ์ด ์ฒ๋ฆฌ ์ฑ๋ฅ ํฅ์
์ฑ๋ด, ๋ฌธ์ ์์ฝ ๋ฑ ๋ค์ํ ์์ฐ์ด์ฒ๋ฆฌ Task์ ํ์ฉ๋์ด ๋ ์์ฐ์ค๋ฌ์ด AI ์๋น์ค ๊ตฌํ ๊ฐ๋ฅ
๐ก ์ฆ, ์๋ฒ ๋ฉ์ ํ์ฉํ๋ฉด AI๊ฐ ๋ฌธ๋งฅ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ๋ฅผ ๋ ์ ํํ๊ฒ ์ดํดํ๊ณ ํ์ฉํ ์ ์์ต๋๋ค!
์ด์ฒ๋ผ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด LLM ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ๊ฒฐ์ ํ๋ ์ค์ํ ์์์ด๋ฏ๋ก, ๋ ๊ฐ๋ ฅํ๊ณ ์ ํํ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ์ ํํ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํฉ๋๋ค.
4. Solar Embedding์ ์ฌ์ฉํด์ผํ๋ ์ด์
๐ Solar Embedding ๋ธ๋ก๊ทธ ์๋ฌธ
์ ์คํ ์ด์ง์ Solar Embedding ๋ชจ๋ธ์ ๊ธฐ์กด ์๋ฒ ๋ฉ ๋ชจ๋ธ๋ณด๋ค ๋ ๋น ๋ฅด๊ณ ์ ํํ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
โ
Solar Embedding์ ์ฐจ๋ณ์

โ ํ ์๋ฒ ๋ฉ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ
๋ค๊ตญ์ด ์ ๋ฐ์์ ๋ณด๋ค ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ก
ํนํ ์ด๋ ค์ด ๊ฒ์ ๋ฐ ๋ฌธ์ ๊ฒ์(Task)์์ ๋์ฑ ๊ฐํ ์ฑ๋ฅ ๋ฐํ
โ ๋ค์ํ ์ธ์ด ์ง์
ํ๊ตญ์ด ๋ฟ๋ง ์๋๋ผ ์์ด, ์ผ๋ณธ์ด ๋ฒค์น๋งํฌ์์๋ ํ์ํ ์ฑ๋ฅ ์ ์ฆ
๐ก Solar Embedding ๋ชจ๋ธ์ ๋ ๋์ ์ ํ๋์ ๋ค๊ตญ์ด ์ง์์ ๋ฐํ์ผ๋ก ๋ค์ํ ๋ถ์ผ์์ ์ต์ ์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค!
5. ๐ ๏ธ Demo: Solar ๋ฌธ์ฅ ์๋ฒ ๋ฉ ์ค์ต
์ด์ ์ค์ ๋ก ๋ฌธ์ฅ์ด ์ด๋ป๊ฒ ๋ฒกํฐ๋ก ๋ณํ๋๋์ง ์ค์ตํด๋ณด๊ฒ ์ต๋๋ค!
๐ ์ค์ต ๋ชฉํ
์๋ฒ ๋ฉ ๋ฒกํฐ๊ฐ ์ด๋ป๊ฒ ์๊ฒผ๋์ง ์ง์ ํ์ธํด ๋ณด๊ธฐ
๐ก ์ค์ต ์งํ ๋ฐฉ๋ฒ
1๏ธโฃ ์ ๋ ฅ ๋ฌธ์ฅ ์์ฑ โ "์ค๋ ๋ ์จ๊ฐ ์ข์"

2๏ธโฃ Generate Embedding ๋ฒํผ ํด๋ฆญ โ Solar Embedding API ์คํ ํ ํด๋น ๋ฌธ์ฅ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ๋ณํ

3๏ธโฃ ์๋ฒ ๋ฉ ๋ฒกํฐ ํ์ธํ๊ธฐ โ ์ค๋ฅธ์ชฝ Embedding Result ํํธ์์ ์์ฑ๋ ์๋ฒ ๋ฉ ๋ฌธ์ฅ ๋ฒกํฐ๋ฅผ ํ์ธ

๐ [Hands-On ์ค์ต ๋ฐ๋ก๊ฐ๊ธฐ]
Wrap Up
์ด๋ฒ ๊ฐ์์์๋ ์๋ฒ ๋ฉ(Embedding)์ ๊ฐ๋ ๊ณผ ํ์์ฑ, ๊ทธ๋ฆฌ๊ณ Solar Embedding์ ์ฐจ๋ณ์ ์ ์ดํด๋ณด์์ต๋๋ค.
๐น ๋ฒกํฐ(Vector): AI๊ฐ ํ ์คํธ๋ฅผ ์ซ์๋ก ๋ณํํ๋ ๊ธฐ๋ณธ ํํ ๋ฐฉ์
๐น ์๋ฒ ๋ฉ(Embedding): ๋จ์ด, ๋ฌธ์ฅ, ๋ฌธ์๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ์ฌ AI๊ฐ ์๋ฏธ์ ๋ฌธ๋งฅ์ ์ดํดํ๋๋ก ํ๋ ๊ธฐ์
๐น ์๋ฒ ๋ฉ์ ํ์์ฑ: ๊ฒ์ ์ ํ๋ ํฅ์, ๋ฌธ์ฅ ์ ์ฌ๋ ๋น๊ต, ์์ฐ์ด ์ฒ๋ฆฌ ์ฑ๋ฅ ๊ฐ์ ๋ฑ AI ์์ฉ ๋ถ์ผ์์ ํ์์ ์ธ ์์
๐น Solar Embedding์ ์ฐจ๋ณ์ : ๋ค๊ตญ์ด ํ๊ฒฝ์์๋ ์ต์ ์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉฐ, ์ด๋ ค์ด ๊ฒ์ ๋ฐ ๋ฌธ์ ์ฒ๋ฆฌ ์์ ์์๋ ๋์ ์ ํ๋๋ฅผ ๋ฐํํ๋ ์๋ฒ ๋ฉ ๋ชจ๋ธ
Suwan Kim | AI Edu | Upstage
Last updated