Introduction to Document Parse

๐Ÿ“Œ ๋ชฉ์ฐจ

  • Upstage Document Parse ๋ž€ ?

  • Document Parse์˜ ์ค‘์š”์„ฑ

  • Document Parse : LLM์˜ ๋ˆˆ

  • Document Parse ๋น„์ฆˆ๋‹ˆ์Šค ์œ ์ฆˆ์ผ€์ด์Šค

  • Demo: Playground์—์„œ DP ์จ๋ณด๊ธฐ

Upstage์˜ Document AI ๊ธฐ์ˆ ์€ ๊ธฐ์กด OCR์„ ๋„˜์–ด์„  ๊ณ ๋„ํ™”๋œ ๋ฌธ์„œ ์ฒ˜๋ฆฌ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ Upstage Document Parse (DP)๋Š” ๋ฌธ์„œ์˜ ๋ ˆ์ด์•„์›ƒ์„ ๋ถ„์„ํ•˜์—ฌ ๋ณด๋‹ค ์ •ํ™•ํ•œ ๋ฌธ์„œ ์ดํ•ด ๋ฐ ์ •๋ณด ์ถ”์ถœ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

1. Upstage Document Parse ๋ž€ ?

LLM์€ ๋‹ค์–‘ํ•œ ์™ธ๋ถ€ ๋ฌธ์„œ ์ •๋ณด๋ฅผ ์ฐธ์กฐํ•˜์—ฌ ์ •ํ™•๋„๋ฅผ ๋†’์ด์ง€๋งŒ, ์›๋ณธ ๋ฌธ์„œ ํŒŒ์ผ์„ ์ง์ ‘ ์ฝ๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ฌธ์„œ๋ฅผ LLM์ด ์ฝ์„ ์ˆ˜ ์žˆ๋Š” ํ˜•์‹(HTML, Markdown)์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

Document Parse(DP)๋Š” ๋ณต์žกํ•œ ๋ฌธ์„œ๋ฅผ HTML ํ˜•ํƒœ์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

2. Document Parse์˜ ์ค‘์š”์„ฑ

โœจ Upstage DP๋งŒ์˜ ๊ฐ•์  : ๋‹ค์–‘ํ•œ ๋ฌธ์„œ ๋ ˆ์ด์•„์›ƒ ์ธ์‹

Upstage Document Parse๋Š” ๋‹จ์ˆœํ•œ ํ…์ŠคํŠธ ์ถ”์ถœ์„ ๋„˜์–ด, ๋ฌธ์„œ์˜ ๋ ˆ์ด์•„์›ƒ ๋‹จ์œ„๋กœ ์ธ์‹ํ•˜์—ฌ ๋ณด๋‹ค ๊นŠ์ด ์žˆ๋Š” ์ •๋ณด ๋ถ„์„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด OCR์€ ์ด๋ฏธ์ง€ ๋‚ด ํ…์ŠคํŠธ ์ธ์‹์— ๊ตญํ•œ๋˜์ง€๋งŒ, DP๋Š” ๋ฌธ์„œ์˜ ๋ ˆ์ด์•„์›ƒ์„ ๊ณ ๋ คํ•˜์—ฌ ๋ณด๋‹ค ์ •๊ตํ•˜๊ฒŒ ์ •๋ณด๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

  • Table Recognition

    • ๋ณ‘ํ•ฉ๋œ ์…€, ๊ณ„์ธต์  ๊ตฌ์กฐ ๋“ฑ ๋ณต์žกํ•œ ํ‘œ๋„ ์ •ํ™•ํ•˜๊ฒŒ ์ธ์‹ํ•˜์—ฌ ์ •ํ™•ํ•˜๊ณ  ์ผ๊ด€๋œ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•จ.

    • ๋ฐ์ดํ„ฐ ๋ฌด๊ฒฐ์„ฑ์„ ๋ณด์žฅํ•˜์—ฌ, LLM์ด ํ‘œ์˜ ์˜๋ฏธ๋ฅผ ์ •ํ™•ํžˆ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›.

  • Equation Recognition

    • ์ˆ˜์‹(Equation)์„ ์ •ํ™•ํžˆ ์ธ์‹ํ•˜์—ฌ LLM์ด ์ˆ˜ํ•™์  ๊ด€๊ณ„๋‚˜ ๊ณ„์‚ฐ์„ ์ดํ•ดํ•˜๋„๋ก ์ง€์›.

  • Chart Recognition

    • ์ฐจํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•ด LLM์ด ์ •ํ™•ํžˆ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ตฌ์กฐํ™”๋œ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜.

    • ๋ฐ”, ์„ , ์›ํ˜• ์ฐจํŠธ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ๋ฅผ ์ง€์›.

โšก ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ์„ฑ๋Šฅ

  • ๊ณ ์† ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ

    • 100ํŽ˜์ด์ง€ ๋ฌธ์„œ๋„ 1๋ถ„ ์ด๋‚ด์— ์ฒ˜๋ฆฌํ•จ.

    • ๊ฒฝ์Ÿ์‚ฌ ๋Œ€๋น„ ์ตœ๋Œ€ 10๋ฐฐ ๋น ๋ฅธ ์ฒ˜๋ฆฌ ์†๋„.

  • ์ •ํ™•์„ฑ

    • TEDS(93.48) ๋ฐ TEDS-S(94.16) ๊ธฐ์ค€, ์ฃผ์š” ๊ฒฝ์Ÿ์‚ฌ ๋Œ€๋น„ 5% ์ด์ƒ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์žฅ.

    • ๋ณต์žกํ•œ ํ‘œ๋‚˜ ์ฐจํŠธ์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์ธ์‹๋ฅ ์„ ์ œ๊ณต.

3. Document Parse : LLM์˜ ๋ˆˆ

๊ทธ ์ด์œ ๋Š” LLM(๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ)์ด ๋ฌธ์„œ๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•˜๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋„๋ก ๋•๊ธฐ ์œ„ํ•ด์„œ์ž…๋‹ˆ๋‹ค.

๐Ÿ“š 1. ๋ฌธ์„œ์˜ "๊ตฌ์กฐ"๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ์ „๋‹ฌํ•˜๊ธฐ ์œ„ํ•ด

์›๋ณธ ๋ฌธ์„œ๋Š” ํ…์ŠคํŠธ, ํ‘œ, ์ฐจํŠธ, ์ˆ˜์‹, ์ด๋ฏธ์ง€ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ตฌ์กฐ์  ์š”์†Œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

LLM์€ ๋ฌธ์„œ์˜ ๊ตฌ์กฐ๋ฅผ ์ธ์‹ํ•  ๋•Œ ๋” ์ •๊ตํ•œ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ๋‹จ์ˆœ ํ…์ŠคํŠธ๋กœ๋งŒ ์ œ๊ณต๋˜๋ฉด ์ด๋Ÿฌํ•œ ๊ตฌ์กฐ๋ฅผ ์ธ์‹ํ•˜๊ธฐ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

HTML์€ <h1>, <figure>, <table>๊ณผ ๊ฐ™์€ ํƒœ๊ทธ๋ฅผ ํ†ตํ•ด ๋ฌธ์„œ์˜ ๊ณ„์ธต๊ณผ ๊ด€๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„ํ•ด ์ค๋‹ˆ๋‹ค.

โš™๏ธ 2. LLM์˜ ์ •ํ™•๋„์™€ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด

LLM์€ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ๋”์šฑ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ๋‚ด์šฉ์„ ํŒŒ์•…ํ•ฉ๋‹ˆ๋‹ค.

HTML์€ ๋ฌธ์„œ์˜ ๊ตฌ์กฐ๋ฅผ ๋ช…ํ™•ํžˆ ์ œ์‹œํ•˜์—ฌ LLM์ด ์–ด๋А ๋ถ€๋ถ„์ด ์ œ๋ชฉ, ๋ณธ๋ฌธ, ํ‘œ, ์ฐจํŠธ์ธ์ง€ ์‰ฝ๊ฒŒ ์ธ์‹ํ•˜๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ, ์š”์•ฝ, ๋ถ„์„, ์งˆ์˜์‘๋‹ต ์ฒ˜๋ฆฌ๊ฐ€ ํ›จ์”ฌ ์ •ํ™•ํ•˜๊ณ  ์ผ๊ด€๋˜๊ฒŒ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.

๐Ÿš€ 3. ๋ณต์žกํ•œ ๋ฌธ์„œ์—์„œ ์ •๋ณด ์†์‹ค์„ ๋ง‰๊ธฐ ์œ„ํ•ด

์žฌ๋ฌด์ œํ‘œ, ๋…ผ๋ฌธ, ๋ณด๊ณ ์„œ์ฒ˜๋Ÿผ ๋ณต์žกํ•œ ๋ฌธ์„œ๋Š” ๋‹จ์ˆœํžˆ ํ…์ŠคํŠธ๋งŒ ์ถ”์ถœํ•˜๋ฉด ์ค‘์š”ํ•œ ๊ตฌ์กฐ์  ์ •๋ณด๊ฐ€ ์†์‹ค๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

HTML์€ ํ‘œ, ์ฐจํŠธ, ์ˆ˜์‹ ๋“ฑ์„ ์ •ํ™•ํžˆ ๊ตฌ๋ถ„ํ•ด ์ฃผ๊ธฐ ๋•Œ๋ฌธ์— LLM์ด ์ •๋ณด๋ฅผ ๋” ์ •ํ™•ํžˆ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ, LLM์„ ์ด์šฉํ•ด ๋ฌธ์„œ ๋ถ„์„, ๋ฐ์ดํ„ฐ ์š”์•ฝ, ์ •๋ณด ์ถ”์ถœ์„ ํ•  ๋•Œ ์ •๋ณด ์†์‹ค์„ ์ตœ์†Œํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค

๐Ÿ’ก Eyes of LLM

Upstage Document Parse๋Š” LLM์˜ ๋ˆˆ์ด ๋˜์–ด ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ  ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, Apple์˜ ์žฌ๋ฌด์ œํ‘œ๋ฅผ Document Parse๋ฅผ ํ†ตํ•ด HTML ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ LLM์—๊ฒŒ ์ œ๊ณต ํ›„ ์ œํ’ˆ ๋งค์ถœ์— ๋Œ€ํ•ด์„œ ๋ฌผ์–ด๋ณด๋ฉด, ํ…Œ์ด๋ธ” ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์ •ํ™•ํ•˜๊ฒŒ ๋งค์ถœ์•ก์„ ๋‹ต๋ณ€ํ•ด์ฃผ๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

DP๋Š” HTML ํ˜•ํƒœ์˜ ์•„์›ƒํ’‹์„ ํ†ตํ•ด ๋ฌธ์„œ์˜ ๊ตฌ์กฐ์™€ ๋ ˆ์ด์•„์›ƒ์„ ์ธ์‹ํ•˜์—ฌ, ๋ณต์žกํ•œ ํ‘œ์™€ ์ฐจํŠธ ๊ตฌ์กฐ๊นŒ์ง€ ์ž๋™์œผ๋กœ ์ •ํ™•ํ•˜๊ฒŒ LLM์—๊ฒŒ ์ „๋‹ฌํ•˜์—ฌ ๋ฌธ์„œ/๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ถ„์„์ด ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋ฌธ์„œ ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ ์ถ”์ถœ๊ณผ ์ž๋™ํ™”๋œ ์›Œํฌํ”Œ๋กœ์šฐ ๊ตฌ์ถ•์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ ์ด ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ RAG(Retrieval-Augmented Generation)๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค.

RAG๋ž€, LLM์ด ์™ธ๋ถ€ ์ •๋ณด๋ฅผ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ œ๊ณตํ•ด์ฃผ๋Š” ๋ฐฉ๋ฒ•๋ก ์ž…๋‹ˆ๋‹ค.

LLM์ด ๋ชจ๋“  ์ •๋ณด๋ฅผ ๋ฏธ๋ฆฌ ์•Œ๊ณ  ์žˆ์ง€๋Š” ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ์™ธ๋ถ€์—์„œ ์ฐพ์•„(๊ฒ€์ƒ‰ํ•˜์—ฌ) LLM์—๊ฒŒ ์ œ๊ณตํ•ด์ฃผ๋ฉด, LLM์€ ๊ทธ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋” ์ •ํ™•ํ•œ ๋‹ต๋ณ€์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4. Document Parse ๋น„์ฆˆ๋‹ˆ์Šค ์œ ์ฆˆ์ผ€์ด์Šค

1/ ๐Ÿฅ ๋ณดํ—˜ (Insurance): ํด๋ ˆ์ž„ ๋ฌธ์„œ ์ฒ˜๋ฆฌ ์ž๋™ํ™” ๋ฐ ํšจ์œจํ™”

  • ๋Œ€์ƒ: ๋ณดํ—˜์‚ฌ

  • Problem:

    • ๋งค์ผ ์ˆ˜๋ฐฑ ๊ฑด์˜ ์˜๋ฃŒ์ฒญ๊ตฌ์„œ, ์‚ฌ๊ณ ๋ณด๊ณ ์„œ ๋“ฑ ์„œ๋กœ ๋‹ค๋ฅธ ์œ ํ˜•์˜ ํด๋ ˆ์ž„ ๋ฌธ์„œ์™€ ์ด๋ฏธ์ง€๋ฅผ ๋Œ€๋Ÿ‰์œผ๋กœ ์ˆ˜์‹ ํ•˜๊ณ  ์žˆ์Œ.

    • ๊ธฐ์กด OCR ์†”๋ฃจ์…˜์€ ๋ณต์žกํ•œ ์˜๋ฃŒ ์šฉ์–ด์™€ ๋น„์ •ํ˜• ๋ฌธ์„œ ๊ตฌ์กฐ๋กœ ์ธํ•ด ์ •ํ™•ํ•œ ์ธ์‹์— ์–ด๋ ค์›€์ด ์žˆ์Œ.

  • Solution:

    • Upstage Document Parse์™€ Solar LLM์„ ๊ฒฐํ•ฉํ•ด ๋‹ค์–‘ํ•œ ๋ฌธ์„œ ํ˜•์‹์„ ์ •ํ™•ํ•˜๊ฒŒ ์ธ์‹ํ•˜๊ณ , ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ์ž๋™์œผ๋กœ ๋ถ„๋ฅ˜ยท์ •๋ฆฌํ•จ.

    • Upstage Document Parse๋ฅผ ํ†ตํ•ด ๊ธฐ์กด OCR ์†”๋ฃจ์…˜์ด ์–ด๋ ค์› ๋˜ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ๊นŒ์ง€ ํญ๋„“๊ฒŒ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋” ์ •๋ฐ€ํ•œ ์ธ์‹๊ณผ ํšจ์œจ์ ์ธ ์ •๋ณด ์ถ”์ถœ์ด ๊ฐ€๋Šฅํ•จ.

    • Solar LLM์„ ํ™œ์šฉํ•ด ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ๊ฒ€์ƒ‰ํ•  ์ˆ˜ ์žˆ์–ด, ํด๋ ˆ์ž„ ๋ฌธ์„œ ์ฒ˜๋ฆฌ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•จ.

2/ ๐Ÿ—๏ธ ๊ฑด์„ค (Construction): ๊ธ€๋กœ๋ฒŒ ์ž…์ฐฐ๋ฌธ์„œ RAG ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•

  • ๋Œ€์ƒ: ๊ฑด์„ค์‚ฌ

  • Problem:

    • ์ „ ์„ธ๊ณ„์—์„œ ์ˆ˜์‹ ๋˜๋Š” ์ž…์ฐฐ ์ดˆ๋Œ€ ๋ฌธ์„œ์™€ ๋ถ€์† ์ž๋ฃŒ๋“ค์ด ์ˆ˜๋ฐฑ ๊ฐœ ํด๋”์— ๋ถ„์‚ฐ๋˜์–ด ์žˆ์Œ.

    • ๋‹ค๊ตญ์–ด๋กœ ์ž‘์„ฑ๋œ ์ˆ˜์ฒœ ์žฅ์˜ ๋ฌธ์„œ๋ฅผ ๋‹จ์ˆœ ๊ฒ€์ƒ‰์œผ๋กœ๋Š” ํ•ต์‹ฌ ์ •๋ณด๋ฅผ ์‹ ์†ํ•˜๊ฒŒ ์ฐพ๊ธฐ ์–ด๋ ค์›€.

    • ์ˆ˜์ž‘์—…์œผ๋กœ ๋ฌธ์„œ๋ฅผ ๋ถ„์„ํ•˜๋˜ ๊ธฐ์กด ๋ฐฉ์‹์€ ์ „์ฒด ๋ฌธ๋งฅ ํŒŒ์•…์— ํ•œ๊ณ„๊ฐ€ ์žˆ์–ด, ์ž…์ฐฐ ์ „๋žต ์ˆ˜๋ฆฝ๊ณผ ๊ธ€๋กœ๋ฒŒ ๊ฒฝ์Ÿ๋ ฅ ๊ฐ•ํ™”์— ์žฅ์• ๊ฐ€ ๋จ.

  • Solution:

    • Document Parse๋กœ ๋ฐฉ๋Œ€ํ•œ ์ž…์ฐฐ ๋ฌธ์„œ๋ฅผ ์ž๋™์œผ๋กœ ์ „์ฒ˜๋ฆฌํ•˜์—ฌ, ๋ฌธ์„œ ๋‚ด ์˜์—ญ์„ ์„ธ๋ฐ€ํ•˜๊ฒŒ ๋ถ„ํ• ํ•˜๊ณ  ํ•ต์‹ฌ ์ •๋ณด๋ฅผ ์ •ํ™•ํžˆ ์ถ”์ถœํ•จ.

    • ์ถ”์ถœ๋œ ๋ฐ์ดํ„ฐ๋Š” ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•˜๊ณ , Solar LLM ๊ธฐ๋ฐ˜ ์ฑ—๋ด‡์„ ํ†ตํ•ด ์‚ฌ์šฉ์ž๊ฐ€ ๋ฌธ์„œ ๋‚ด์šฉ์„ ์‰ฝ๊ฒŒ ์งˆ์˜ํ•˜๊ณ  ๋‹ต๋ณ€ ๋ฐ›์„ ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•จ.

    • ์ด๋ฅผ ํ†ตํ•ด ์ž…์ฐฐ ๋ฌธ์„œ ๊ด€๋ฆฌ์™€ ๋ถ„์„ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ณ , ๊ธ€๋กœ๋ฒŒ ์ž…์ฐฐ ๊ฒฝ์Ÿ๋ ฅ์„ ๊ฐ•ํ™”.

3/ ๐Ÿ‘— ์ด์ปค๋จธ์Šค (E-commerce): ์ƒํ’ˆ ์ •๋ณด ์ฒ˜๋ฆฌ ์ž๋™ํ™” ๋ฐ ๊ธ€๋กœ๋ฒŒ ํ™•์žฅ ์ง€์›

  • ๋Œ€์ƒ: ํŒจ์…˜ ์ด์ปค๋จธ์Šค์‚ฌ

  • Problem:

    • ํ”Œ๋žซํผ์— ์—…๋กœ๋“œ๋˜๋Š” ์ƒํ’ˆ ์ •๋ณด๊ฐ€ ์„ธ๋กœ๋กœ ๊ธด ์ด๋ฏธ์ง€ ํ˜•ํƒœ๋กœ ๊ด€๋ฆฌ๋˜์–ด ์™”์ง€๋งŒ, ๊ธฐ์กด OCR ๋ฐ Parser๋Š” ์ด๋ฏธ์ง€๋ฅผ resizeํ•˜ใ…ก๋Š” ๊ณผ์ •์—์„œ ํ•ด์ƒ๋„ ์ €ํ•˜๋กœ ์ธ์‹ ์„ฑ๋Šฅ์ด ์ œํ•œ์ ์ด์—ˆ์Œ.

    • ๋˜ํ•œ, ๋‹ค๊ตญ์–ด(ํ•œ๊ตญ์–ด, ์˜์–ด, ์ผ๋ณธ์–ด) ์ง€์›์ด ์–ด๋ ค์›Œ ํ•ด์™ธ ์‹œ์žฅ ์ง„์ถœ์— ์ œ์•ฝ์ด ์žˆ์—ˆ๊ณ , ์ƒํ’ˆ ์†์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ์ œ๋Œ€๋กœ ์ •๋ฆฌ๋˜์ง€ ์•Š์•„ ๊ฒ€์ƒ‰๊ณผ ํ•„ํ„ฐ๋ง ๊ธฐ๋Šฅ๋„ ์ œํ•œ์ ์ด์—ˆ์Œ.

    • ์ˆ˜์ž‘์—… ๊ฒ€์ˆ˜๋กœ ์ธํ•œ ์šด์˜ ๋ถ€๋‹ด๋„ ์ง€์†์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๊ณ  ์žˆ์—ˆ์Œ.

  • Solution:

    • Document Parse๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€ ๋‚ด ์˜์—ญ์„ ์„ธ๋ถ„ํ™”ํ•˜์—ฌ ์ธ์‹ ์ •ํ™•๋„๋ฅผ ๋Œ€ํญ ํ–ฅ์ƒ์‹œํ‚ด. ๋˜ํ•œ, ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ๋Š” ๊ฒ€์ƒ‰ ์—”์ง„ ์ธ๋ฑ์‹ฑ์— ํ™œ์šฉ๋˜์–ด ์‚ฌ์šฉ์ž๊ฐ€ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ƒํ’ˆ์„ ๊ฒ€์ƒ‰ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ.

    • Solar LLM์„ ํ™œ์šฉํ•ด ์ƒํ’ˆ์˜ ์†์„ฑ ์ •๋ณด๋ฅผ ์ •ํ™•ํžˆ ์ถ”์ถœํ•˜๊ณ , ๋‹ค๊ตญ์–ด ๋ฒˆ์—ญ๊นŒ์ง€ ์ง€์›ํ•˜์—ฌ ํ•ด์™ธ ํŒ๋งค ์ฑ„๋„ ์šด์˜์„ ์›ํ™œํ•˜๊ฒŒ ํ•จ. ๋˜ํ•œ, ๋‹ค๊ตญ์–ด ์ƒํ’ˆ ์ •๋ณด๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•˜์—ฌ ๊ธ€๋กœ๋ฒŒ ๊ณ ๊ฐ๋“ค๋„ ์†์‰ฝ๊ฒŒ ์›ํ•˜๋Š” ์ƒํ’ˆ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•จ.

4. ๐Ÿ› ๏ธ Demo: Playground์—์„œ DP ์จ๋ณด๊ธฐ

Upstage์˜ Playground์—์„œ DP์˜ ๊ฐ•๋ ฅํ•œ ๊ธฐ๋Šฅ์„ ์ง์ ‘ ์ฒดํ—˜ํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹ค์–‘ํ•œ ๋ฌธ์„œ๋ฅผ ์—…๋กœ๋“œํ•˜์—ฌ ๋ฌธ์„œ ์ž๋™ ๋ถ„์„ ๊ธฐ๋Šฅ์„ ํ™œ์šฉํ•ด๋ณด์„ธ์š”!

Upstage Console Playground๋ž€?

  • Upstage๊ฐ€ ์ œ๊ณตํ•˜๋Š” ์‹ค์‹œ๊ฐ„ ์ œํ’ˆ ์ฒดํ—˜ ํ™˜๊ฒฝ

  • ๋‹ค์–‘ํ•œ ๋ฌธ์„œ ์œ ํ˜•์„ ์—…๋กœ๋“œํ•˜๊ณ , Document Parse ๊ธฐ์ˆ ์„ ์‹คํ—˜ํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ฐœ๋ฐœ์ž๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋น„๊ฐœ๋ฐœ์ž๋„ ์‰ฝ๊ฒŒ ์—…๋กœ๋“œํ•˜์—ฌ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ“Œ ์‹ค์Šต ๋ชฉํ‘œ

  • Playground์— ์ ‘์†ํ•˜์—ฌ Document Parse ๊ธฐ๋Šฅ์„ ์‹คํ–‰ํ•ด๋ณธ๋‹ค.

  • ๋ฌธ์„œ๋ฅผ ์—…๋กœ๋“œํ•˜๊ณ , ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ํ™•์ธํ•œ๋‹ค.

  • ๋‹ค์–‘ํ•œ ๋ฌธ์„œ ์œ ํ˜•๊ณผ ๋ณต์žกํ•œ ๋ ˆ์ด์•„์›ƒ์„ ์‹คํ—˜ํ•ด๋ณธ๋‹ค.

๐Ÿ’ก ์‹ค์Šต ์ง„ํ–‰ ๋ฐฉ๋ฒ•

  1. Playground ์ ‘์†ํ•˜๊ธฐ

  1. ๋ฌธ์„œ ์—…๋กœ๋“œํ•˜๊ธฐ : ๋ถ„์„ํ•˜๋ ค๋Š” PDF, ์ด๋ฏธ์ง€ ๋“ฑ ๋ฌธ์„œ๋ฅผ ์—…๋กœ๋“œํ•ฉ๋‹ˆ๋‹ค.

upload file
  1. ๊ฒฐ๊ณผ ํ™•์ธ ๋ฐ ๋น„๊ตํ•˜๊ธฐ : ๋ถ„์„๋œ ๊ฒฐ๊ณผ๋ฅผ ํ™•์ธํ•˜๊ณ , ํ•„์š”ํ•œ ๊ฒฝ์šฐ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค์šด๋กœ๋“œํ•˜์—ฌ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.

๐Ÿš€ Playground ๋ฐ”๋กœ๊ฐ€๊ธฐ

์ด์ œ Document Parse๋ฅผ ํ™œ์šฉํ•˜๋Ÿฌ ๊ฐ€๋ณผ๊นŒ์š”~?

Wrap Up

์ด๋ฒˆ ๊ธ€์—์„œ๋Š” Upstage Document Parse(DP)์˜ ์ •์˜, ์žฅ์ , ํ™œ์šฉ ์‚ฌ๋ก€, ๋น„์ฆˆ๋‹ˆ์Šค ์œ ์ฆˆ์ผ€์ด์Šค๋ฅผ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค.

๐Ÿ”น Upstage Document Parse๋ž€?: ๋ณต์žกํ•œ ๋ฌธ์„œ ๋ ˆ์ด์•„์›ƒ์„ ์ธ์‹ํ•˜๊ณ , ์ด๋ฅผ LLM์ด ์ฝ์„ ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ์ˆ .

๐Ÿ”น Why DP?: ๋ณต์žกํ•œ ํ‘œ, ์ˆ˜์‹, ์ฐจํŠธ๊นŒ์ง€ ์ •ํ™•ํ•˜๊ฒŒ ๋ถ„์„ํ•˜์—ฌ ๊ณ ์†์œผ๋กœ ์ฒ˜๋ฆฌ. ๊ฒฝ์Ÿ์‚ฌ ๋Œ€๋น„ ๋†’์€ ์ •ํ™•๋„์™€ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ์ œ๊ณต.

๐Ÿ”น ๋น„์ฆˆ๋‹ˆ์Šค ์œ ์ฆˆ์ผ€์ด์Šค: ๋ณดํ—˜, ๊ฑด์„ค, ์ด์ปค๋จธ์Šค ๋“ฑ ๋‹ค์–‘ํ•œ ์‚ฐ์—… ๋ถ„์•ผ์— ํ™œ์šฉ.

๐Ÿ’ก Upstage DP๋Š” ๋ณต์žกํ•œ ๋ฌธ์„œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์—์„œ LLM์˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋ฉฐ, AI ๊ธฐ๋ฐ˜ ์—…๋ฌด ์ž๋™ํ™”์— ์žˆ์–ด ํ•„์ˆ˜์ ์ธ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.


Suwan Kim | AI Edu | Upstage

Last updated