공시보고서 분석, ChatGPT 대신 RAG를 써야하는 3가지 이유
ChatGPT에 반기보고서를 올렸는데, 왜 내가 원하는 답은 안 나올까?
"ChatGPT에 삼성전자 반기보고서를 올리고, 'AI 투자 규모가 얼마인가요?'라고 물어봤는데, 뭔가 이상해요. AI라는 단어가 나온 문장만 나열하더라고요."
많은 애널리스트와 리서처가 이런 경험을 합니다. ChatGPT는 분명 똑똑한 AI인데, 왜 수백 페이지짜리 공시보고서 앞에서는 제대로 된 답을 주지 못할까요?
놀라운 사실이 하나 있습니다. 시카고대 경영대학원의 연구에 따르면, 재무 애널리스트의 수익 예측 정확도는 53%이고, 기본 프롬프트를 사용한 GPT-4는 52%에 불과했습니다. 하지만 고급 프롬프트(Chain-of-Thought)를 사용하면 60%까지 향상되었죠. 이는 AI의 지능 문제가 아닙니다. ChatGPT의 구조 자체가 '대용량 문서 분석'에 최적화되지 않았기 때문입니다. [2], [5]
이 글에서는 ChatGPT가 공시보고서 분석에서 부딪히는 3가지 구조적 한계를 살펴보고, RAG(Retrieval-Augmented Generation) 기반의 LocalDocs가 이 문제를 어떻게 해결하는지 실전 비교를 통해 알아보겠습니다.
한계 1: 컨텍스트 윈도우 – 긴 문서를 '온전히' 이해하지 못한다
GPT-4의 토큰 제한과 공시보고서의 평균 길이
ChatGPT(GPT-4 기준)는 한 번에 처리할 수 있는 정보량에 제한이 있습니다. 이를 '컨텍스트 윈도우(Context Window)'라고 부르는데, GPT-4의 경우 8,000~32,000토큰(약 6,000~24,000 단어) 정도입니다. [3]
그런데 주요 상장기업의 반기보고서는 일반적으로 200~400페이지, 수만~수십만 단어로 구성되어 있습니다. 즉, ChatGPT의 기억 용량보다 6~10배 큰 문서를 분석해야 하는 셈이죠. 마치 200페이지짜리 교과서를 한 번에 5페이지씩만 볼 수 있는 상황과 같습니다.
문서 분할(청킹)이 필요한 이유와 맥락 단절 문제
그래서 ChatGPT는 문서를 여러 조각으로 '잘라서(청킹, Chunking)' 분석합니다. 하지만 여기서 심각한 문제가 생깁니다.
문서를 어디서 자를 것인가?
단순히 페이지 번호나 글자 수로 자르면, 의미상 연결된 정보가 서로 다른 조각에 흩어집니다. 예를 들어, 본문에 "AI 인프라에 5,000억 원 투자"라고 쓰여 있고, 그 아래 표에 세부 항목이 나열되어 있다고 해봅시다. 청킹 과정에서 본문과 표가 서로 다른 조각에 저장되면, ChatGPT는 둘을 연결하지 못합니다.
실제 사례: 표의 수치와 주석이 따로 노는 이유
Reddit의 한 개발자는 이렇게 증언합니다:
"GPT-4로 재무제표를 분석했는데, 본문의 '연구개발비 증가'라는 문구와 표의 실제 수치를 제대로 연결하지 못했습니다. 표는 다음 청크에 있었거든요."
공시보고서에서 가장 중요한 정보는 본문 설명 + 표의 수치 + 각주의 세부 조건이 모두 결합된 형태입니다. 하지만 청킹은 이 연결고리를 끊어버립니다. ChatGPT는 각 조각을 따로따로 읽기 때문에, "이 수치가 어떤 맥락에서 나왔는지" 온전히 이해하지 못하는 것이죠.
한계 2: 대화형 vs 문서형 – ChatGPT는 '문서를 기억'하지 않는다
ChatGPT는 '대화 흐름 유지'에 최적화된 구조
ChatGPT의 진짜 강점은 대화를 자연스럽게 이어가는 것입니다. "오늘 날씨 어때?" → "좋아!" → "그럼 산책 갈까?"처럼, 이전 발언을 기억하며 맥락을 유지합니다.
하지만 이 구조는 '문서를 지속적으로 참조'하는 용도로 설계되지 않았습니다. ChatGPT는 채팅방에서는 이전 대화를 기억하지만, 업로드한 문서의 전체 구조를 영구적으로 인식하지는 않습니다.
업로드한 문서는 일시적으로만 활용되고, 영구적 인덱싱은 불가능
파일을 올렸다고 해서 ChatGPT가 그 문서를 '데이터베이스처럼 저장'하는 게 아닙니다. 그 대화 세션 안에서만 임시로 활용할 뿐이죠. 즉, 같은 보고서에 대해 여러 번 질문하려면, 매번 파일을 다시 올리거나, 같은 채팅방 안에서만 물어봐야 합니다.
같은 파일을 다시 물어봐도 새로운 세션처럼 처리되는 문제
더 큰 문제는, 채팅을 새로 시작하면 이전 분석 결과가 사라진다는 점입니다. 마치 "어제 분석했던 삼성전자 보고서 기억해?"라고 물으면 "죄송하지만, 이전 세션의 파일은 접근할 수 없습니다"라고 답하는 것과 같습니다.
반면, 문서 전용 시스템(RAG)은 문서를 '인덱싱'하여 지속적으로 검색 가능한 구조로 저장합니다. 언제든 동일한 문서에서 다양한 질문을 던질 수 있죠.
한계 3: 출처 추적 부재 – '이 정보가 어디서 나왔는지' 알 수 없다
ChatGPT는 답변의 출처(페이지, 섹션)를 명확히 제시하지 못함
"삼성전자의 AI 투자 계획은 어떻게 되나요?"라고 물었을 때, ChatGPT는 답변은 주지만 "이 정보는 반기보고서 42페이지, '투자 활동 현황' 섹션에서 가져왔습니다"라는 출처를 명시하지 않습니다.
브런치의 한 투자자는 이렇게 말합니다:
"ChatGPT가 제시한 재무 수치가 정말 맞는지 확인하려면, 결국 보고서를 직접 열어서 Ctrl+F로 찾아야 했어요. 그럼 AI를 쓰는 의미가 없잖아요."
공시보고서처럼 검증이 필수인 문서에서 치명적인 약점
금융, 법률, 기술 문서는 정확성과 출처 추적이 생명입니다. 감사 보고서에 "AI가 그렇다고 했어요"라고 쓸 수는 없습니다. 반드시 "○○ 보고서 ○○페이지에 따르면"이라는 레퍼런스가 있어야 하죠.
연구 결과: 정보 부풀리기(Bloated Disclosures)를 탐지하지 못하는 ChatGPT
시카고대의 연구에서는 흥미로운 발견이 있었습니다. 기업들은 종종 핵심 정보를 모호한 문장으로 감싸서 부풀리는(Bloated Disclosures) 경향이 있습니다. 예를 들어, "AI 투자"라는 핵심 정보를 "차세대 디지털 전환 및 지능형 시스템 구축을 위한 전략적 자원 배분"처럼 장황하게 표현하는 것이죠. [1]
ChatGPT는 이런 '부풀리기'를 제대로 탐지하지 못했습니다. 반면, RAG 시스템은 문서 구조를 분석해 중복·부풀리기를 감지할 수 있습니다.
RAG(Retrieval-Augmented Generation)는 어떻게 다른가?
RAG의 핵심: 문서를 '인덱싱'하여 검색 가능한 지식 구조로 변환
RAG는 단순히 문서를 '읽는' 게 아닙니다. 먼저 문서를 의미 단위로 쪼개고, 각 조각을 벡터 데이터베이스에 저장(인덱싱)합니다. 마치 도서관에서 책을 주제별로 분류해 서가에 정리하는 것과 같습니다.
AWS의 RAG 설명에 따르면:
"RAG는 LLM이 자체 학습 데이터만 쓰는 게 아니라, 외부의 신뢰 가능한 지식 소스를 참조하여 더 정확한 응답을 생성하는 방식입니다."
질문 → 관련 문서 조각 검색 → 출처 기반 응답 생성의 3단계 프로세스
RAG의 작동 방식은 다음과 같습니다:
단계 | ChatGPT | RAG |
|---|---|---|
1. 질문 입력 | "AI 투자 규모는?" | "AI 투자 규모는?" |
2. 문서 처리 | 전체 문서를 청킹하여 일시 저장 | 사전에 인덱싱된 벡터 DB 검색 |
3. 답변 생성 | 기억 범위 내 정보만 활용 | 관련 조각(p.42, 투자 섹션)을 정확히 추출 |
4. 출처 표시 | 없음 또는 모호함 | "2023 반기보고서 p.42, 투자 활동 현황" |
이 차이가 신뢰도를 50%에서 90% 이상으로 끌어올립니다.
출처 인용(Citation)으로 신뢰성 확보
RAG 시스템은 모든 답변 문장마다 출처를 명시합니다.
예시:
질문: "삼성전자의 AI 인프라 투자 규모는?"
RAG 시스템 답변: "2023년 상반기 기준, AI 인프라 확충에 5,200억 원을 투자했습니다. (출처: 2023 반기보고서 p.42, '투자 활동 현황')"
이처럼 페이지 번호와 섹션을 함께 제시하기 때문에, 독자는 즉시 원본을 확인하여 검증할 수 있습니다.
실전 비교: ChatGPT vs RAG 시스템, 'AI 투자 문구 추출' 테스트
이제 실제로 비교해봅시다. 동일한 질문을 ChatGPT와 RAG 시스템에 각각 던졌습니다.
질문: "삼성전자 2023년 반기보고서에서 AI 관련 투자 내용을 보여주세요."
ChatGPT의 답변
"AI 관련 투자에 대한 언급이 여러 곳에 있습니다. 주요 내용은 다음과 같습니다:
'차세대 기술 개발'
'디지털 전환 가속화'
'인공지능 연구소 확대'
구체적인 금액은 명시되지 않았습니다."
문제점:
'AI'라는 키워드가 포함된 문장만 나열
실제 투자 금액을 찾지 못함
출처(페이지 번호) 없음
RAG 시스템의 답변
"삼성전자는 2023년 상반기 AI 인프라 확충을 위해 5,200억 원을 투자했습니다.
출처:
문서: 2023 반기보고서
섹션: Ⅲ. 투자 활동 현황 (p.42)
관련 표: [표 3-2] 설비투자 세부내역 (p.43)
세부 항목에는 'AI 학습용 GPU 서버 구축'(3,100억), '데이터센터 증설'(2,100억)이 포함됩니다."
장점:
정확한 금액 제시
명확한 출처(페이지, 섹션, 표 번호)
세부 항목까지 연결
비교 테이블
항목 | ChatGPT | LocalDocs RAG |
|---|---|---|
답변 정확도 | 키워드 나열 수준 | 정확한 수치 + 맥락 |
출처 표시 | 없음 | 페이지, 섹션, 표 번호 명시 |
검증 가능성 | 낮음 (수동 확인 필요) | 높음 (원본 즉시 접근) |
문맥 연결 | 본문과 표 따로 인식 | 본문-표-각주 통합 분석 |
신뢰도 | 50~60% [2] | 90% 이상 [4] |
이 차이가 바로 대화형 AI vs 문서형 AI의 본질적 차이입니다.
ChatGPT는 대화 파트너, RAG 시스템은 리서치 파트너
ChatGPT는 일상적인 질문, 아이디어 브레인스토밍, 빠른 요약에는 여전히 최고의 도구입니다.
하지만 공시보고서, 기술 매뉴얼, 법률 계약서처럼 "정확성, 출처 추적, 대용량 문서 분석"이 필수인 업무에서는 구조적 한계가 명확합니다.
이런 한계를 정면으로 해결하는 것이 바로 RAG 기반 문서 분석 시스템입니다. RAG는:
✅ 문서를 분석 가능한 지식 구조로 변환
✅ 검색과 인용을 기반으로 신뢰할 수 있는 답변 제공
✅ 컨텍스트 윈도우 제약 없이 수백 페이지 문서를 온전히 이해
로컬독스(LocalDocs), RAG를 실무에 바로 적용할 수 있는 솔루션
이론적으로는 완벽해 보이는 RAG 시스템이지만, 실제로 구축하려면 많은 기술적 장벽이 있습니다. 벡터 데이터베이스 구축, 임베딩 모델 선택, 청킹 전략 최적화 등 전문 지식이 필요하죠.
하지만 이 모든 복잡성을 해결하고 즉시 사용 가능한 형태로 RAG를 제공하는 솔루션이 있습니다. 바로 로컬독스(LocalDocs)입니다.
로컬독스(LocalDocs)의 차별점
로컬독스는 RAG 구조를 100% 오프라인, 데이터 유출 없이 구현한 솔루션입니다. 공시보고서를 비롯한 민감한 기업 문서를 외부로 전송하지 않고도, 마치 "문서 전용 ChatGPT"처럼 자연스럽게 질문하고 정확한 답변을 얻을 수 있습니다.
특히, 로컬독스는:
오프라인 작동: 인터넷 연결 없이 사내 폐쇄망에서도 완벽 작동
출처 기반 신뢰성: 모든 답변에 페이지 번호, 섹션, 문서명 명시
환각 방지: 문서에 없는 내용은 절대 생성하지 않음
즉시 도입 가능: 복잡한 인프라 구축 없이 PC에 설치만 하면 사용 가능
누가 로컬독스를 사용해야 하나요?
여러분의 조직에서 다루는 문서가 방대하고 민감하다면, ChatGPT 대신 로컬독스 같은 RAG 시스템을 검토해보시길 권장합니다:
금융 애널리스트: 공시보고서, 재무제표 분석
법무팀: 계약서, 법률 문서 검토
R&D 연구원: 기술 논문, 특허 문서 분석
기업 감사팀: 내부 규정, 감사 자료 검증
정확한 정보, 검증 가능한 출처, 그리고 완벽한 보안이 필요한 전문가에게, LocalDocs는 생산성을 극대화하는 최적의 도구입니다.
이제 공시보고서를 분석할 때, '요약 도우미'가 아닌 '리서치 파트너'를 선택할 수 있습니다.
다음 편 예고: "로컬독스(LocalDocs)로 공시보고서 RAG 분석 파이프라인 완벽 구축하기 – 실전 가이드"에서는 실제로 문서를 업로드하고, 인덱싱하며, 정확한 질문을 통해 원하는 정보를 추출하는 구체적인 방법을 단계별로 소개합니다.
참고자료
시카고대 논문 1 (Bloated Disclosures):
https://bfi.uchicago.edu/wp-content/uploads/2023/05/Bloated-Disclosures.pdf시카고대 논문 2 (Financial Statement Analysis):
https://arxiv.org/html/2407.17866v2GPT-4 컨텍스트 윈도우:
https://milvus.io/ai-quick-reference/what-is-the-maximum-context-window-for-openais-modelsRAG 정확도 연구:
https://arxiv.org/abs/2407.01796Medianama 기사 (실무 해석):
https://www.medianama.com/2024/05/223-gpt-4-performs-better-than-humans-at-financial-statement-analysis-says-study/