Source Grounding이란? 노트북LM이 답변하는 원리와 한계(2026)

노트북LM(NotebookLM)의 핵심 기술 Source Grounding(소스 그라운딩)이 무엇이고 어떻게 출처 기반으로 답변하는지, RAG 원리와 6가지 한계를 자세히 정리했습니다.
Seunghwan Kim's avatar
May 20, 2026
Source Grounding이란? 노트북LM이 답변하는 원리와 한계(2026)

1. 생성형 AI의 가장 큰 약점, 환각이라는 그늘

생성형 AI가 본격적으로 업무에 들어오면서 가장 자주 거론되는 문제는 환각(hallucination)입니다. 모델이 사실처럼 들리는 문장을 만들지만, 실제로는 자료 어디에도 없는 내용을 지어내는 현상이지요.

수치로 보면 더 분명합니다. Vectara의 HHEM(Hughes Hallucination Evaluation Model) 리더보드에 따르면 GPT-5 계열은 짧은 문서 요약에서 환각률이 약 1~2% 수준까지 내려왔지만, 일반 사실 질의로 영역을 넓히면 약 8~9% 안팎으로 상승합니다. OpenAI가 공개한 GPT-5 시스템 카드에서는 인터넷 검색을 끈 채 사실 질의(fact-seeking)를 시키면 환각률이 최대 47%까지 치솟는 결과도 보고되었습니다. 즉, 동일한 모델이라도 "어떤 자료에 기반해서 답하는지"가 통제되지 않으면 정확도는 급격히 떨어진다는 의미입니다.

이런 환각 문제를 줄이기 위해 등장한 기술 패러다임이 바로 Grounding(그라운딩)입니다. 그 중에서도 "모델이 사전 학습한 일반 지식이 아니라, 사용자가 제공한 자료(source)에 답변을 묶어두는 방식"을 Source Grounding(소스 그라운딩)이라 부릅니다. 노트북LM이 짧은 시간 안에 연구자·기획자 사이에서 자리 잡은 비결이 바로 이 기술이고요.

특히 한국에서는 2026년 1월 22일부터 「인공지능 발전과 신뢰 기반 조성 등에 관한 기본법」(AI 기본법)이 시행되면서 생성형 AI 사업자에게 투명성 확보 의무가 부과되고 있습니다. "답변의 근거를 어디에 두는가"가 단순한 기능이 아니라 컴플라이언스 요건이 된 셈입니다.

2. Source Grounding이란? 답변을 자료에 묶어두는 패러다임

먼저 정의부터 정리해 드리겠습니다.

Source Grounding: 대형 언어 모델(LLM)이 답변을 생성할 때, 자체적으로 학습한 파라미터 지식이 아니라 검색을 통해 가져온 사용자 자료의 발췌(chunk)에 답변을 묶어 생성하는 방식.

쉽게 풀면 이렇습니다. 일반 챗GPT는 "내가 이전에 인터넷에서 본 적이 있는 것"을 떠올려 답합니다. 반면 Source Grounding이 적용된 AI는 "지금 책상 위에 놓인 자료에서 본 것"만 가지고 답합니다. 답변 생성 단계에서 모델 뇌의 작동 방식이 다른 게 아니라, 무엇을 근거로 답할지의 범위를 좁혀준다는 점이 핵심입니다.

2-1. RAG에서 출발한 기술적 뿌리

Source Grounding의 기술적 뿌리는 2020년 Meta(당시 Facebook AI Research)의 Patrick Lewis 외 연구진이 NeurIPS에서 발표한 RAG(Retrieval-Augmented Generation) 논문(arXiv:2005.11401)입니다. 이 논문은 사전 학습된 언어 모델의 "파라미터 메모리"에 외부 문서 검색을 결합하면, 동일 모델 대비 더 구체적이고 사실적인 문장을 생성할 수 있다는 점을 보였습니다.

이후 OpenAI, Google, Anthropic을 비롯한 모든 주요 LLM 사업자가 이 패러다임을 자사 제품의 핵심 신뢰 메커니즘으로 채택했습니다. 노트북LM은 그 중에서도 "사용자가 직접 업로드한 자료에만 답변을 묶는다"는 폐쇄형 RAG 구조를 가장 명확히 구현한 사례로 평가받습니다.

2-2. 학습 데이터와 업로드 자료의 분리

Source Grounding을 이해하려면 모델이 참조하는 지식이 두 종류로 나뉜다는 점을 기억해야 합니다.

  • 파라미터 지식: 모델이 사전 학습 과정에서 인터넷·책·코드 등을 보고 가중치에 압축해 저장한 지식. 사용자가 일일이 통제할 수 없습니다.

  • 비파라미터 지식: 사용자가 그때그때 업로드한 자료. 챗 세션마다 새로 검색되고, 답변 생성 시 프롬프트에 끼워 넣어집니다.

노트북LM은 답변 생성 시 가능한 한 파라미터 지식 사용을 줄이고, 비파라미터 지식(=업로드한 소스)에 답변을 묶습니다. 그 결과 "내가 모르는 출처에서 가져온 정보가 섞이는" 일이 줄어들고, 인용 번호 형태로 검증 경로가 열립니다.

3. 노트북LM은 Source Grounding을 어떻게 구현하는가

노트북LM(NotebookLM)의 답변은 보통 다음 4단계를 거쳐 만들어집니다. 사용자에게는 한 번의 입력으로 보이지만, 내부적으로는 RAG 파이프라인이 돌고 있습니다.

3-1. 4가지 구성 요소

  1. 청킹(Chunking): 업로드된 PDF·구글 문서·웹 링크·텍스트 등을 일정 단위(보통 수백~수천 토큰)로 잘게 자릅니다.

  2. 임베딩(Embedding): 각 chunk를 의미를 담은 벡터로 변환해 인덱스에 저장합니다. 의미가 비슷한 문장은 벡터 공간에서 가까이 모이게 됩니다.

  3. 관련 chunk 검색: 사용자의 질문도 같은 방식으로 벡터화한 뒤, 가장 가까운 chunk 상위 N개를 찾아냅니다(MIPS, Maximum Inner Product Search).

  4. 답변 + 인용 생성: 검색된 chunk와 질문을 함께 LLM(현재는 Gemini 계열)에 전달해, 자료 안에서 근거를 찾아 답변을 작성하게 합니다. 이때 각 문장 옆에 어떤 chunk에서 가져왔는지 인용 번호가 붙습니다.

이 구조 덕분에 모델이 학습 때 본 적 없는 사내 규정·논문·계약서에 대해서도, "지금 막 읽은 자료에 한해서는" 비교적 정확하게 답할 수 있게 됩니다.

3-2. 사용자 입장에서 보이는 동작

실제 사용 경험은 단순합니다. 노트북LM에 자료를 업로드한 뒤 질문을 입력하면, 답변 문장마다 회색 동그라미 안에 숫자가 붙어 표시됩니다. 그 숫자를 클릭하면 왼쪽 Sources 패널이 열리고, 답변의 근거가 된 원문 위치가 하이라이트로 표시됩니다. 사용자는 그 문장을 직접 눈으로 확인한 뒤 답변을 신뢰할지 결정할 수 있고요.

이런 검증 가능한 인용 메커니즘이 "노트북LM은 환각이 적다"는 평판의 기술적 근거입니다. 한 저널리즘 워크플로 테스트에서는 노트북LM의 응답 단위 환각률이 약 13%로, 자료에 묶지 않은 일반 LLM의 약 40%보다 크게 낮았다는 보고도 있습니다

4. 일반 생성형 AI vs Source Grounding 비교

같은 LLM 기반이라도, Source Grounding이 적용됐는지 여부에 따라 답변의 성격은 크게 달라집니다.

항목

일반 ChatGPT·Gemini

노트북LM
(Source Grounding)

참조 지식 출처

사전 학습된 데이터 전반 혹은 웹서치

사용자가 업로드한 자료에 한정

자료에 없는 질문에 대한 반응

그럴듯하게 추정·창작하는 경향

"자료에서 찾을 수 없음"이라고 답할 가능성이 큼

인용 표시

없거나 불안정

답변 문장마다 번호로 인라인 표시

검증 경로

사용자가 별도로 팩트체크 필요

인용 번호 클릭 시 원문 발췌 위치로 이동

잘 맞는 작업

일반 지식 검색·아이디어 발산

특정 자료 묶음의 요약·분석·인용

환각 발생 양상

사실성 자체에 영향

자료를 잘못 가져오거나 잘못 해석할 때 발생

표에서 보듯 Source Grounding은 환각의 원인 자체를 없애는 기술이 아니라, "근거를 좁힘으로써 환각의 빈도와 검증 비용을 낮추는" 기술입니다. 따라서 한계도 분명히 존재합니다.

5. Source Grounding의 6가지 한계: 노트북LM 사례로 본 현실

Source Grounding 패러다임 자체는 환각을 줄이는 올바른 방향입니다. 다만 노트북LM이라는 구현체에서는 실제 업무 환경에서 다음과 같은 한계에 자주 부딪힙니다.

5-1. 표·도표가 많은 문서에서 인용 페이지 어긋남

노트북LM은 인용 번호를 잘 붙여 주지만, 그 번호가 가리키는 페이지가 항상 정확한 것은 아닙니다. 특히 표·도표가 많은 산업 보고서, PDF 안에서 표지·목차 페이지와 본문 페이지 번호가 어긋난 문서, 다단 레이아웃 보고서에서 인용 위치가 한두 페이지씩 밀리는 사례가 자주 관찰됩니다. "출처가 있다"는 사실과 "출처가 정확하다"는 사실은 같지 않다는 점을 인지하고 써야 합니다.

5-2. 다중 문서 종합 시 의역 창작

자료 한두 개를 요약할 때는 인용이 비교적 정확하지만, 5개 이상 자료에 걸친 종합 질문("이 보고서들이 공통적으로 지적하는 위험 요소는?")에서는 답변 일부 문장이 어느 출처에도 정확히 매핑되지 않는 경우가 생깁니다. 모델이 chunk들을 조합하면서 자체적으로 의역·재구성한 결과인데, 인용 번호는 표면적으로 잘 붙어 있어 사용자가 알아차리기 어렵습니다.

5-3. HWP·HWPX·스캔 PDF 파싱 한계

노트북LM은 PDF·구글 문서·텍스트·웹 링크 등을 지원하지만, HWP·HWPX 파일은 공식적으로 지원되지 않습니다. PDF로 변환해 업로드하더라도, 표 안의 셀 병합·각주·한자 혼용이 많은 한국 공공·법무 문서에서는 파싱 품질이 떨어집니다. 스캔된 PDF는 OCR 품질에 따라 인용 위치 자체가 깨질 수 있고요. 한국 기업·공공기관 실무자에게는 결정적인 제약입니다.

5-4. 다국어 혼합 자료의 인용 정확도 저하

영어 논문에 한글로 질문을 던지거나 그 반대일 때, 인용 표시는 그대로 붙지만 답변 내용이 원문의 뉘앙스를 놓치는 경우가 있습니다. 임베딩 모델이 언어 간 의미 매핑은 잘 해도, 단어 단위의 정확한 인용 위치 추적에서는 단일 언어 자료보다 정확도가 떨어집니다.

5-5. 노트북당 자료 수·용량 제한

공식 도움말 기준으로 노트북LM은 무료 50개, Plus 300개, Ultra 600개의 소스를 한 노트북에 담을 수 있고, 소스당 50만 단어 또는 200MB 상한이 있습니다. 100개가 넘는 사내 규정·계약서·도면, 2~3GB 규모의 매뉴얼 더미를 한 곳에서 크로스체크해야 하는 상황에서는 상한에 금세 부딪히게 됩니다. 자료를 여러 노트북에 쪼개 넣으면 노트북 사이 교차 검색이 끊기는 또 다른 문제가 생기고요.

5-6. 클라우드 전송 구조와 AI 기본법

노트북LM은 업로드된 소스를 구글 클라우드에 저장한 뒤 처리합니다. 구글은 사용자의 자료를 모델 학습에 쓰지 않는다고 명시하고 있지만, "기밀 원본이 외부 서버를 경유한다"는 사실 자체가 사내 정보보안 정책의 지적 대상이 됩니다. 특히 2026년 1월 22일 시행된 AI 기본법은 생성형 AI 사업자에게 투명성·안전성 확보 의무를 부과했고, 1년의 계도기간 동안 기업들은 자사 AI 활용 현황 점검과 거버넌스 체계 수립을 요구받고 있습니다. 법무·금융·의료·공공처럼 자료 외부 반출이 사실상 불가능한 영역에서는 이 구조 자체가 도입의 벽이 됩니다.

6. 한국 기업 환경의 대안: 로컬독스

Source Grounding은 좋은 패러다임이지만, 위 6가지 한계가 모두 작용하는 환경(사내 기밀 + 대용량 + HWP 혼재)에서는 다른 구현체가 필요해집니다. 로컬독스는 바로 이 지점을 겨냥해 설계된 AI 사내문서검색 에이전트입니다.

로컬독스는 로컬 RAG와 클라우드 LLM API를 결합한 하이브리드 구조를 채택합니다. 문서 인덱싱·임베딩·검색은 사용자의 PC 안에서 수행되고, 답변 문장을 다듬는 추론 단계에서만 클라우드 LLM API가 가볍게 호출됩니다. 원본 문서 전체가 외부 클라우드로 업로드되지 않는다는 점이 노트북LM과의 본질적인 차이고요. 단 인터넷 연결은 필요합니다.

다음은 노트북LM의 6가지 한계를 로컬독스가 어떻게 해결하는지를 매핑한 5대 특징입니다.

6-1. 페이지·항목 단위까지 짚어주는 정확한 출처

업무용 AI의 생명은 검증 가능한 신뢰입니다. 로컬독스는 답변을 생성한 근거를 "2024년 취업규칙 15페이지 3항", "A사 NDA 4조 2항"처럼 페이지와 항목 단위로 표시합니다. 노트북LM이 표·다단 레이아웃 문서에서 인용 페이지를 한두 장씩 밀어내는 문제를, 문서 구조를 보존한 청킹으로 보완하는 설계입니다. 실무자는 답변에 표시된 위치를 곧장 원문에서 확인하고 그대로 보고서·메일에 인용할 수 있습니다.

6-2. 없으면 없다고 말하는 정직함

자료에 근거가 없을 때 가장 위험한 답변은 "그럴듯하게 지어낸 답변"입니다. 로컬독스는 관련 내용이 없으면 "해당 문서에서는 찾을 수 없습니다"라고 단호히 답하도록 설계되어 있습니다. 다중 문서 종합 질문에서 모델이 인용 없이 의역·창작하는 문제를 줄이기 위한 장치입니다. 법무·컴플라이언스처럼 단 한 줄의 수치 오류가 의사결정 사고로 이어지는 업무에서 의미가 큽니다.

6-3. 100개 이상, 수 GB 규모의 크로스체크

A프로젝트 기획서부터 Z프로젝트 결과 보고서까지 100개가 넘는 PDF, 수백 페이지짜리 도면과 매뉴얼을 한 번에 분석할 수 있도록 설계되었습니다. 노트북LM의 노트북당 50~600개 소스 상한과 소스당 200MB 한계에 갇히지 않고, 사람이 며칠 밤을 새워야 할 분량을 한 번에 훑어 여러 문서에 흩어진 맥락을 종합해 줍니다.

6-4. 모호한 질문에 되묻는 능동형 에이전트

검색 키워드를 정확히 입력해야 답이 나오는 기존 검색기와 달리, 로컬독스는 질문이 모호할 때 스스로 되묻습니다. "작년 기준인가요, 올해 개정안 기준인가요?", "A사와 B사 중 어느 계약을 말씀하시나요?"라는 식이지요. 일반 검색기처럼 "검색 결과 없음"을 띄우고 멈추는 대신, 일 잘하는 신입사원처럼 정답의 범위를 좁혀 가는 능동형 워크플로입니다.

6-5. 원본을 외부로 보내지 않는 하이브리드 보안 구조

가장 중요한 특징은 보안 구조입니다. 문서를 읽고 검색하는 핵심 과정은 로컬에서 수행되고, 답변의 문맥을 정리할 때만 클라우드 LLM API가 호출됩니다. 기밀 원본이 통째로 외부 클라우드에 업로드되지 않으므로, 노트북LM이 갖는 클라우드 전송 구조 한계와 AI 기본법 투명성·안전성 의무 사이의 충돌을 줄일 수 있습니다. 더해 HWP·HWPX를 별도 변환 없이 인식하고, 한국어와 한자가 섞인 공공·법무 문서에서도 인용 위치를 비교적 안정적으로 추적하도록 설계되어 있어, 한계 3·4 역시 함께 완화됩니다.

7. 노트북LM과 로컬독스, 한눈에 비교

비교 항목

노트북LM

로컬독스

자료 수 상한

노트북당 50~600개

100개 이상 동시 처리

소스당 용량

200MB / 50만 단어

수 GB 단위 자료 분석

HWP·HWPX

공식 미지원

변환 없이 인식

한국어·한자 혼합

임베딩 다국어 매핑에 의존

한국어 문서 처리에 최적화

출처 단위

소스 내 발췌 영역

페이지·항목 단위까지 표시

자료 저장 위치

구글 클라우드

사용자 PC(로컬)

외부 전송 범위

자료 원본 전체

추론 요청만 LLM API로 전송

자료에 없을 때 반응

표면적 인용 후 의역 가능성

"찾을 수 없음" 명시

모호한 질문 대응

검색 실패 또는 추정 답변

능동적으로 되묻는 에이전트

AI 기본법 호환성

외부 전송 구조로 검토 필요

원본 미전송 구조로 충돌 적음

표만 놓고 보면 우열을 가리는 것처럼 보이지만, 두 도구는 사실 다른 환경을 위해 설계되어 있습니다. 노트북LM은 외부 공개가 가능한 단일~중규모 자료로 빠르게 인사이트를 뽑아낼 때 적합합니다. 로컬독스는 사내 기밀·대용량·HWP·다국어가 섞인 한국 기업·공공·연구 환경처럼, Source Grounding 패러다임의 이점은 살리되 노트북LM 구현체의 한계가 결정적인 제약이 되는 시나리오에 맞춰져 있고요.

8. 결론: 도구는 패러다임이 아니라 환경에 맞춰 고른다

Source Grounding은 환각을 줄이기 위한 올바른 방향입니다. 그러나 같은 패러다임을 구현하더라도 도구마다 잘 다루는 자료의 종류, 규모, 보안 요구 수준이 다릅니다. 정리하자면 다음과 같은 기준으로 도구를 고르시는 것을 권장드립니다.

  • 외부 공개 가능한 자료 + 50~300개 이하 + 빠른 인사이트 도출: 노트북LM이 강점

  • 사내 기밀 + 100개 이상 + HWP·한국어 혼재 + AI 기본법 대응 필요: 사내 RAG 기반 도구(예: 로컬독스)가 적합

특히 AI 기본법 시행 이후, "왜 이 답변을 신뢰할 수 있는가"를 외부 감사·내부 통제 양쪽 모두에 설명할 수 있어야 하는 환경이 늘어나고 있습니다. 그 설명에 "원본이 외부로 나가지 않습니다", "페이지·항목 단위로 출처를 짚어드립니다"라는 구조적 답변이 들어갈 수 있는지가, 향후 사내 AI 도구 평가의 중요한 기준이 될 것입니다.

여러분의 문서 환경에 가장 잘 맞는 현명한 도구 선택으로 업무 생산성과 신뢰를 동시에 끌어올리시기를 바랍니다.

👉 우리 회사 문서로 직접 사용해 보기


참고자료

  1. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., 2020, NeurIPS)

  2. Learn about NotebookLM (Google NotebookLM Help)

  3. Frequently asked questions about NotebookLM (Google Help)

  4. NotebookLM: Source-Grounded Document AI explainer (atoms.dev)

  5. Vectara Hallucination Leaderboard (GitHub)

  6. Marked reduction in hallucination rates with GPT-5 (PMC, 2025)

  7. NotebookLM Limitations (2026): 8 Gaps Google Won't Tell You (Atlas Workspace)

  8. NotebookLM Limits Explained: Free, Plus, and Ultra (Elephas)

  9. AI 기본법 시행과 그 시사점 (법률신문, 2026)

Share article