공시보고서의 표·주석·이미지까지 정확하게 검색하는 RAG 설계하기

공시보고서의 복잡한 표·주석·이미지를 RAG 파이프라인으로 검색 가능한 데이터로 변환하는 4단계 프로세스를 실전 워크플로우와 함께 상세히 설명합니다.
Seunghwan Kim's avatar
Oct 28, 2025
공시보고서의 표·주석·이미지까지 정확하게 검색하는 RAG 설계하기

"삼성전자 반기보고서에서 AI 관련 투자 내용만 뽑을 수 있을까?"

많은 리서처가 ChatGPT에 이렇게 물어보지만, 대부분 기대한 답을 얻지 못합니다. 단순히 요약이 아니라, 데이터 구조를 이해한 '정확한 검색'이 필요하기 때문이죠.

공시보고서는 단순한 텍스트 파일이 아닙니다. 표, 주석, 각주, 그래프가 복잡하게 얽혀 있고, '읽을 수는 있지만 검색하기 어려운' 형태로 구성돼 있어요. 이런 구조를 무시하면, "요약은 되지만 핵심이 사라지는" AI 결과가 나옵니다.

이번 글에서는 RAG(Retrieval-Augmented Generation) 파이프라인이 공시보고서를 어떻게 '검색 가능한 지식 구조'로 바꾸는지 4단계 프로세스를 따라 살펴보겠습니다.

공시보고서의 구조를 이해해야 하는 이유

공시보고서는 단순한 텍스트가 아니라, 구조화된 정보의 복합체입니다.

재무제표의 숫자와 주석이 서로 다른 페이지에 위치하고, 텍스트 추출 시 표가 줄바꿈 문자로 깨지며, 이미지 속 글자는 OCR 없이는 인식조차 할 수 없어요. 예를 들어, "영업이익 1조 원"이라는 숫자 옆에 작은 별표(*)가 있고, 그 설명이 3페이지 뒤의 각주에 있다면 어떻게 될까요?

일반적인 AI 도구는 이런 관계를 이해하지 못합니다. ChatGPT에 PDF를 업로드하면 "전체 요약"은 해주지만, 표의 숫자와 주석의 맥락 관계는 놓치기 쉽죠. 결과적으로 "AI 투자가 있었다"는 사실은 알려주지만, "얼마나, 어떤 목적으로, 어느 부서에서" 같은 핵심 정보는 빠지게 됩니다.

이것이 바로 공시보고서 분석에 구조를 이해하는 RAG 파이프라인이 필요한 이유입니다.

1단계: 청킹(Chunking) - 문서를 '의미 단위'로 분해하기

RAG 파이프라인의 첫 단계는 청킹(chunking) 입니다. 하지만 단순히 문단 기준으로 자르는 것이 아니에요.

일반 청킹 vs. 구조적 청킹

일반적인 청킹은 500자 또는 1,000자마다 문서를 자르는 방식입니다. 하지만 이렇게 하면 표의 중간이 잘리거나, 주석과 본문이 분리되어 맥락이 사라지죠.

구조적 청킹(adaptive chunking) 은 다릅니다. 문서의 의미적 관계를 파악해서 쪼갭니다.

  • 표 + 표 설명은 하나의 청크로 묶습니다.

  • 본문 + 주석은 서로 연결된 상태로 인덱싱합니다.

  • 이미지 + 캡션도 함께 처리합니다.

예를 들어, 재무제표에 "R&D 투자 1,200억 원"이라는 숫자가 있고, 바로 아래 각주에 "AI 반도체 개발 관련"이라는 설명이 있다면, 이 둘을 하나의 청크로 묶어요. 이렇게 하면 나중에 "AI 투자"를 검색할 때, 숫자와 맥락을 함께 찾을 수 있습니다.

청킹이 잘못되면 무슨 일이?

청킹이 잘못되면 AI는 부정확한 답변을 생성합니다. 표의 숫자만 읽고 설명은 놓치거나, 주석 없이 본문만 요약하면 "무엇이 무엇을 의미하는지" 알 수 없게 되죠. 결국 리서처는 AI 답변을 믿지 못하고 다시 원문을 찾아봐야 합니다.

청킹은 RAG 파이프라인의 기초입니다. 이 단계에서 문서의 구조를 제대로 파악해야, 이후 단계에서 정확한 검색과 분석이 가능해집니다.

2단계: 인덱싱(Indexing) - 문서를 '검색 가능한 데이터베이스'로 변환

청킹이 끝나면, 각 청크를 벡터(embedding) 로 변환하는 인덱싱 단계가 시작됩니다.

벡터 임베딩이란?

벡터 임베딩은 문장의 의미를 수학적으로 표현하는 기술입니다. 비슷한 의미를 가진 문장들은 벡터 공간에서 서로 가까이 위치하게 되죠. 예를 들어, "AI 투자"와 "인공지능 기술 개발비"는 표현은 다르지만 의미상 유사하므로, 벡터 공간에서 가까운 거리에 배치됩니다.

이렇게 하면 나중에 사용자가 "AI 관련 투자 내용"을 검색할 때, 정확히 "AI"라는 단어가 없어도 의미적으로 관련된 모든 내용을 찾을 수 있어요.

하이브리드 임베딩의 힘

공시보고서 분석에 특화된 RAG 시스템은 단순한 텍스트 임베딩을 넘어, 하이브리드 임베딩을 사용합니다.

  • 텍스트: 본문과 주석의 내용

  • 표 데이터: 재무제표의 숫자와 항목명

  • 이미지 캡션: 그래프나 도표의 설명

이 모든 정보를 하나의 벡터로 통합해서 저장하는 거예요. 그 결과, "AI 투자"라는 단어가 직접 나오지 않아도, "AI 기술 관련 설비 투자" 또는 "인공지능 R&D 비용" 같은 표현을 정확하게 인식할 수 있습니다.

OCR의 역할

PDF 내 이미지 속 텍스트는 어떻게 처리할까요? 바로 OCR(광학 문자 인식) 기술을 사용합니다. 공시보고서에 포함된 주가 그래프, 조직도, 사업 구조 다이어그램 등의 이미지 안에 있는 텍스트를 읽어내어, 이것도 검색 가능한 데이터로 만들어요.

예를 들어, 사업 구조도 이미지에 "AI 사업부"라는 텍스트가 있다면, OCR로 이를 추출하여 인덱싱합니다. 이제 "AI 사업부 조직"을 검색하면, 해당 이미지가 포함된 페이지를 정확히 찾을 수 있죠.

인덱싱은 문서를 단순히 저장하는 것이 아니라, 의미 기반으로 연결된 지식 네트워크를 만드는 과정입니다.

3단계: 검색(Retrieval) - 질문에 맞는 구간만 정확하게 찾아내기

이제 사용자가 질문을 입력하는 순간입니다. "삼성전자 반기보고서에서 AI 관련 투자 내용을 보여줘"라고 입력하면 어떤 일이 벌어질까요?

RAG는 전체 문서를 다시 읽지 않는다

ChatGPT는 전체 보고서를 한 번에 읽고 요약하려고 시도합니다. 하지만 RAG 시스템은 다릅니다. 인덱스에서 관련 청크만 추출하는 거예요.

  1. 질문("AI 관련 투자")을 벡터로 변환합니다.

  2. 인덱스에서 의미적으로 가장 가까운 청크들을 찾습니다.

  3. 'AI', '인공지능', '머신러닝', '딥러닝', 'AI 기술 인프라' 등 동의어와 유사 표현을 모두 인식합니다.

  4. 해당 문맥이 포함된 청크만 추출합니다.

검색 → 분석 → 생성의 3단계 파이프라인

RAG의 핵심은 바로 이 3단계 프로세스입니다.

단계

ChatGPT

RAG 시스템

1단계

전체 문서 요약 시도

질문과 관련된 청크만 검색

2단계

요약 생성

검색된 청크 분석

3단계

결과 출력

분석 결과 기반 답변 생성

ChatGPT는 "한 번에 모든 걸 요약"하려다 핵심을 놓치지만, RAG는 "필요한 부분만 정확히 찾아서 분석"하기 때문에 훨씬 정확합니다.

예를 들어, 200페이지 공시보고서에서 AI 관련 내용이 p.42, p.95, p.157에만 있다면, RAG는 이 3곳만 추출해서 답변을 만들어요. 나머지 197페이지는 읽지 않습니다. 이것이 바로 효율성과 정확성을 동시에 달성하는 방법이죠.

4단계: 인용(Citation) - 답변의 신뢰도를 보장하는 출처 표시

RAG 파이프라인의 마지막 단계는 인용(citation) 입니다. 이것이 RAG를 일반 AI 요약과 완전히 다르게 만드는 핵심 요소예요.

모든 답변에 출처 정보가 포함된다

RAG 시스템은 답변을 생성할 때, 각 문장이 어느 문서의 몇 페이지에서 왔는지 함께 표시합니다.

예를 들어:

"삼성전자는 2023년 상반기에 AI 반도체 개발에 1,200억 원을 투자했습니다."

출처: 2023 반기보고서 p.42 '사업 개요 - R&D 투자 현황' 섹션

이렇게 출처가 명확히 표시되면, 리서처는 언제든 원문으로 돌아가 검증할 수 있어요. AI가 잘못 해석했는지, 맥락을 제대로 이해했는지 직접 확인할 수 있죠.

투명성과 검증 가능성

ChatGPT는 답변을 생성하지만, 그 근거가 어디서 왔는지 알 수 없습니다. 반면 RAG는 투명성(transparency) 을 보장합니다.

  • "이 숫자는 정말 보고서에 있는 건가?"

  • "AI가 맥락을 잘못 이해한 건 아닐까?"

  • "주석 내용도 포함된 건가?"

이런 의심 없이, 출처를 바로 확인할 수 있어요. 이것이 바로 RAG의 신뢰도입니다.

환각(Hallucination) 방지

AI의 가장 큰 문제 중 하나는 "환각(hallucination)" 현상입니다. 없는 정보를 마치 사실처럼 만들어내는 거죠. 하지만 RAG는 오직 문서에 있는 내용만 기반으로 답변을 생성하기 때문에, 환각을 원천적으로 차단합니다.

인용이 있다는 것은, AI가 상상으로 답변을 만들지 않았다는 증명입니다.

실전 적용: 공시보고서에서 'AI 투자 문구' 자동 추출 워크플로우

이제 실제로 공시보고서에서 특정 정보를 추출하는 전체 워크플로우를 살펴볼까요?

5단계 프로세스

1️⃣ 공시보고서 PDF 업로드

먼저, 분석하고 싶은 공시보고서 PDF 파일을 시스템에 업로드합니다. 여러 개의 보고서를 한 번에 올릴 수도 있어요.

2️⃣ OCR 포함 청킹 및 인덱싱 자동 수행

시스템이 자동으로 다음 작업을 수행합니다:

  • 텍스트 추출

  • OCR로 이미지 속 텍스트 인식

  • 구조적 청킹 (표+설명, 본문+주석 연결)

  • 하이브리드 임베딩 생성

  • 벡터 데이터베이스에 인덱싱

이 과정은 보통 몇 분 안에 완료됩니다.

3️⃣ 'AI 관련 투자만 추출' 요청

이제 자연어로 질문을 입력합니다. "AI 관련 투자 내용을 시간 순서대로 정리해줘"

4️⃣ 관련 섹션 검색 → 근거 기반 요약 생성

시스템이 인덱스에서 관련 청크를 검색하고, 이를 바탕으로 답변을 생성합니다. 이때 'AI'라는 단어가 직접 없어도, 다음과 같은 표현들을 모두 찾아냅니다:

  • "인공지능 기술 인프라 구축"

  • "머신러닝 알고리즘 개발"

  • "딥러닝 전용 데이터센터"

  • "AI 반도체 설계"

5️⃣ 결과에 인용 표시 (p.42, p.95 등)

최종 답변에는 각 문장마다 출처가 표시됩니다.

ChatGPT vs. RAG 시스템 비교

항목

ChatGPT

RAG 시스템

검색 방식

직접적인 키워드 중심

의미적 유사도 기반

표·주석 처리

관계 무시, 분리 요약

구조적 연결 유지

출처 표시

없음

모든 문장에 페이지 번호

간접 표현 인식

제한적

동의어·유사 표현 포괄

정확도

검증 가능성

불가

가능

이 차이는 단순히 정확도의 문제가 아니라, 리서치 효율성과 신뢰도의 차이입니다. 공시보고서 분석처럼 정확성이 중요한 업무에서는 RAG 시스템이 필수적이죠.

RAG는 단순 요약이 아니라 '지식 구조화'다

RAG 파이프라인의 핵심은 요약이 아닙니다. 문서를 검색 가능한 지식 구조로 바꾸는 과정이에요.

공시보고서처럼 복잡한 구조의 문서는, 단순히 "전체 내용을 요약해줘"라는 방식으로는 제대로 활용할 수 없습니다. 표의 숫자와 주석의 맥락, 이미지 속 정보, 각주의 세부 설명 - 이 모든 것이 서로 연결되어 있고, 그 연결 관계를 이해해야 비로소 정확한 분석이 가능하죠.

RAG는 이를 자동화하여, 누구나 대규모 문서를 개인 지식베이스처럼 탐색할 수 있게 만듭니다.

"공시보고서를 올려두면, 필요한 문장을 근거와 함께 찾아주는 AI."

그것이 RAG 기반 리서치 파이프라인이 실현하는 미래입니다.

보안이 중요하다면, 오프라인 대안도 있습니다

많은 기업과 연구 조직이 공시보고서나 내부 문서를 외부 클라우드 AI에 업로드하는 것을 꺼립니다. 데이터 유출 우려 때문이죠. 이런 경우, 100% 오프라인에서 작동하는 RAG 시스템도 선택지가 될 수 있어요.

예를 들어, 로컬독스(Localdocs)와 같은 온디바이스 AI 문서 검색 솔루션은 사용자의 PC 내부에서만 모든 처리를 수행합니다. 인터넷 연결 없이도 RAG 파이프라인의 청킹, 인덱싱, 검색, 인용 기능을 모두 사용할 수 있죠. 폐쇄망 환경에서도 작동하기 때문에, 보안이 최우선인 조직에서 적합한 대안입니다.

여러분의 리서치 효율을 높이는 선택

공시보고서 분석이든, 기술 문서 검토든, 계약서 검증이든 - 대량의 복잡한 문서를 다루는 모든 업무에서 RAG 파이프라인은 강력한 도구입니다.

여러분의 필요에 맞는 현명한 도구 선택으로, 자료 검색에 낭비되던 시간을 줄이고 핵심 업무에 집중하시길 바랍니다.

Share article

피카부랩스 블로그