700조 원 스타게이트 vs 스탠포드 연구: 88.7% 요청은 이미 로컬 LLM으로 가능

OpenAI의 5,000억 달러(약 700조 원) 스타게이트 투자 시대, AI 업계가 더 큰 모델과 데이터센터 투자에 집중하는 동안 스탠포드 연구진은 다른 관점을 제시합니다. 100만 쿼리 분석 결과, 88.7% 요청은 이미 로컬 LLM으로 충분합니다.
Seunghwan Kim's avatar
Nov 21, 2025
700조 원 스타게이트 vs 스탠포드 연구: 88.7% 요청은 이미 로컬 LLM으로 가능

AI 인프라에 쏟아지는 천문학적 투자: 5,000억 달러의 방향은 옳은가?

2025년 1월, OpenAI는 $500B 규모의 'Stargate' 프로젝트를 발표했습니다. McKinsey는 2030년까지 AI 데이터센터에 $5.2~7.9조가 필요할 것으로 전망했고요. 전 세계 데이터센터 용량은 2030년까지 3배 가까이 증가해 156-219GW에 달할 것으로 예상됩니다. AI 업계의 공통된 믿음은 명확합니다. '더 큰 모델, 더 많은 서버가 필요하다.'

하지만 스탠포드와 구글 연구진은 2025년 11월, 다소 다른 질문을 던졌습니다. "정말 모든 AI 요청에 거대한 클라우드 인프라가 필요할까?" 그들은 100만 개의 실제 쿼리를 분석하며 의외의 발견을 했습니다.

오버스펙의 역설: 단순 작업에 거대 모델을 쓰는 이유

"이메일 초안 작성해줘."
"회의록 요약해줘."
"이 문장 번역해줘."

ChatGPT에 이런 요청을 입력하는 순간, 데이터센터 어딘가에서 수백억 달러가 투입된 인프라가 작동합니다. GPT-4나 Claude 같은 프론티어 모델이 여러분의 요청을 처리하죠.

하지만 연구진이 실제 ChatGPT 사용 패턴을 분석한 결과는 의외였습니다. 전체 요청의 77%는 이메일 작성, 문서 요약, 간단한 질문 같은 일상적 작업이었습니다.

의료 영상 판독, 법률 계약서 정밀 분석, 복잡한 알고리즘 설계처럼 프론티어 모델의 능력이 진짜 필요한 작업은 소수에 불과했죠.

문제의 핵심:

현재 AI 인프라는 '평균적 작업 난이도'가 아니라 '최고 난이도 작업'에 맞춰 설계되어 있습니다. 모든 요청을 동일하게 최고 사양 모델로 처리하는 거죠.

이런 구조적 비효율을 측정하기 위해, 연구진은 새로운 기준을 제안했습니다.

Intelligence Per Watt (IPW) = 정확도 ÷ 전력 소비

성능만 보는 게 아니라, '얼마나 효율적으로 그 성능을 달성하는가'를 측정하는 메트릭입니다. 배터리로 작동하는 노트북이나 스마트폰에서는, 아무리 똑똑한 AI라도 30분 만에 배터리를 소진시킨다면 실용적이지 않으니까요.

Intelligence Per Watt (IPW): '얼마나 적은 에너지로 얼마나 똑똑한가'

IPW는 자동차 연비처럼 'AI 1와트당 지능'을 측정하는 개념입니다.

간단한 예를 들어볼까요? A 모델은 10와트로 질문에 90점 정확도로 답합니다. B 모델은 20와트로 같은 90점을 받죠. 이 경우 A 모델의 IPW가 2배 높습니다. 같은 성능을 절반의 전력으로 달성했으니까요.

기존 벤치마크(MMLU, HumanEval 등)는 '얼마나 똑똑한가'만 측정했습니다. 하지만 IPW는 '얼마나 효율적으로 똑똑한가'를 봅니다.

왜 이게 중요할까요? 노트북이나 스마트폰처럼 배터리로 작동하는 기기에서는 성능과 효율 둘 다 중요하기 때문입니다. 아무리 똑똑한 AI라도 배터리를 30분 만에 소진시킨다면 실용적이지 않죠. 비즈니스 관점에서도 전력 비용은 운영 비용과 직결됩니다.

메트릭

측정 대상

중요성

Accuracy Per Watt (APW)

정확도 ÷ 평균 전력

순간 효율성

Accuracy Per Joule (APJ)

정확도 ÷ 총 에너지

쿼리당 총 효율성

연구진은 전력 기반(APW)과 에너지 기반(APJ) 두 가지 메트릭을 모두 사용했습니다. APW는 하드웨어의 순간적 효율을, APJ는 질문 처리에 드는 총 에너지를 측정하죠.

100만 쿼리로 검증한 사실: 88.7%는 로컬로 충분하다

이제 실험 이야기를 해볼까요. 연구진은 이론이 아닌 데이터로 증명하고 싶었습니다.

실험 규모:

  • 20개 이상의 로컬 모델: Qwen3 (4B~235B), GPT-OSS (20B~120B), Gemma3, IBM Granite 4.0 등

  • 8종류의 하드웨어: Apple M4 Max, NVIDIA H200, AMD MI300X, SambaNova SN40L 등

  • 100만 개의 실제 쿼리: WildChat (실제 ChatGPT 대화 50만), NaturalReasoning (추론 작업 50만), MMLU Pro (지식 평가 1.2만), SuperGPQA (전문가 수준 추론 2.6만)

여기서 '실제 쿼리'가 중요합니다. 실험실에서 만든 인위적 문제가 아니라, 진짜 사람들이 ChatGPT에 물어본 질문들이죠.

핵심 발견:

Qwen3-32B 같은 작은 모델(20B 파라미터 이하)이 단일턴 채팅과 추론 작업의 88.7%를 정확하게 처리했습니다. 10번 질문하면 9번은 제대로 답한다는 뜻이죠.

작업 유형

로컬 커버리지

특징

WildChat (일상 대화)

88.9%

이메일 작성, 문서 요약 등

NaturalReasoning (추론)

64.9%

수학, 물리, 화학 문제

MMLU Pro (지식)

80.4%

다영역 지식 평가

SuperGPQA (전문가)

51.5%

285개 전문 분야

도메인별로 차이가 있었습니다. 예술·미디어 분야는 90% 이상의 커버리지를 보였지만, 건축·공학 같은 전문 기술 영역은 68%로 낮았죠. 복잡한 수학이나 전문 의료 분야는 여전히 어렵습니다.

하지만 비유하자면, 클라우드 GPT-4가 100점이라면 로컬 모델은 이제 88~90점대입니다. 일상 업무에는 충분한 수준이죠.

더 놀라운 사실:

2023년에서 2025년까지 단 2년 동안, 로컬 모델이 처리할 수 있는 쿼리 비율이 23.2%에서 71.3%로 3.1배 증가했습니다. 2023년에는 10개 질문 중 2~3개만 답했는데, 지금은 7개를 답하는 거예요.

연도별 Local LM 성능 증가율
연도별 Local LM 성능 증가율

반전: 로컬 칩이 데이터센터 칩보다 효율적이다

가장 놀라운 발견은 따로 있습니다.

연구진은 똑같은 Qwen3-32B 모델을 다른 하드웨어에서 실행해봤습니다. 당연히 데이터센터급 칩이 더 효율적일 것 같죠? 결과는 정반대였습니다.

Apple M4 Max (로컬 칩) vs NVIDIA B200 (클라우드 칩):

  • M4 Max: IPW = 1.97 × 10⁻³

  • B200: IPW = 2.75 × 10⁻³

B200이 M4 Max보다 IPW가 1.4배 높았습니다. 같은 답변을 만드는 데 전력을 1.4배 더 효율적으로 사용했다는 뜻이죠. (IPW가 높을수록 효율적)

SambaNova SN40L (특수 AI 칩)은 더 인상적이었습니다. M4 Max보다 1.78배 효율적이었어요.

왜 이런 차이가 생길까요? 워크로드의 차이 때문입니다.

  • 로컬 칩: 단일 쿼리의 빠른 응답과 낮은 전력 소비에 최적화

  • 데이터센터 칩: 대량 배치 처리와 높은 처리량에 최적화

하지만 에너지 기반 메트릭(APJ)으로 보면 이야기가 달라집니다. 클라우드 칩은 더 빨리 답변을 생성하기 때문에, 쿼리당 총 에너지 소비에서는 1.6~2.3배 더 효율적이었어요. SambaNova SN40L은 무려 6.5~7.4배 더 효율적이었고요.

하드웨어

APW (전력 효율)

APJ (에너지 효율)

특징

Apple M4 Max

1.97 × 10⁻³

4.38 × 10⁻⁵

배터리 기기 최적화

NVIDIA B200

2.75 × 10⁻³

7.34 × 10⁻⁵

순간 전력 1.4배 효율

SambaNova SN40L

3.51 × 10⁻³

3.2 × 10⁻⁴

에너지 6.5배 효율

역사적 패턴:

연구진은 컴퓨팅 역사를 인용했습니다. 1946년부터 2009년까지 컴퓨팅 효율은 1.5년마다 2배씩 증가했죠. 그 결과 워크로드가 메인프레임에서 개인용 PC로 이동했습니다.

지금 우리는 같은 전환점을 목격하고 있을지 모릅니다. 2023년부터 2025년까지 IPW는 5.3배 향상되었습니다. 모델 개선으로 3.1배, 하드웨어 개선으로 1.7배씩 개선된 결과죠.

그렇다면 스타게이트 투자는 틀렸나? 답은 'Intelligent Routing'

여기서 오해하지 말아야 할 점이 있습니다. 연구진은 "클라우드가 필요 없다"고 말하지 않았습니다. 대신 '수요의 재분배'를 제안했죠.

여전히 frontier model이 필요한 영역:

  • 전문 도메인 (의료 진단, 법률 분석)

  • 멀티턴 복잡 추론 (여러 단계를 거치는 논리적 사고)

  • 실시간 학습 (최신 정보 검색 및 학습)

  • 복잡한 수학·과학 계산

연구진이 제안한 해법은 'Intelligent Routing' 시스템입니다. 쿼리의 난이도를 분석해 적절한 곳으로 보내는 거죠.

라우팅 전략:

  • 88.7%의 단순 작업 → 로컬 LLM으로 처리

  • 11.3%의 복잡 작업 → 클라우드 frontier model로 처리

연구진의 표현을 빌리자면:

"Local inference can meaningfully redistribute demand from centralized infrastructure." (로컬 추론은 중앙 집중형 인프라의 수요를 의미 있게 재분배할 수 있다.)

실질적 절감 효과:

이상적인 라우팅(각 쿼리를 완벽하게 분류)을 가정하면:

  • 에너지 소비 80.4% 감소

  • 컴퓨팅 비용 77.3% 감소

  • 총 비용 73.8% 절감

물론 완벽한 라우팅은 불가능합니다. 하지만 80% 정확도의 라우팅 시스템만 있어도:

  • 에너지 64.3% 감소

  • 컴퓨팅 61.8% 감소

  • 비용 59.0% 절감

답변 품질 저하 없이 이런 절감 효과를 얻을 수 있습니다.

실무자를 위한 체크리스트: 내 작업은 로컬로 가능한가?

그렇다면 여러분의 업무는 어떨까요? 간단한 체크리스트를 준비했습니다.

✅ 로컬 LLM으로 충분한 작업:

  • 이메일 작성 및 초안 생성

  • 회의록 정리 및 문서 요약

  • 간단한 코드 생성 및 디버깅

  • 번역 및 교정

  • 일상적인 정보 검색

  • 브레인스토밍 및 아이디어 정리

❌ 여전히 클라우드가 필요한 작업:

  • 의료 진단 보조

  • 법률 문서 정밀 분석

  • 복잡한 멀티턴 추론 (10단계 이상의 논리적 사고)

  • 실시간 최신 정보 검색

  • 전문 과학 계산

비용 고려사항:

항목

클라우드 API

로컬 처리

초기 비용

없음

하드웨어 구입

쿼리당 비용

$0.001~0.01

전기료 ($0.0001 수준)

월 100만 쿼리

$1,000~10,000

$100 내외

데이터 보안

외부 전송

내부 처리

배터리 수명

인터넷 필요

오프라인 가능

특히 민감한 데이터를 다루는 조직이라면, 로컬 처리는 보안 측면에서도 큰 이점이 있습니다. 내부 문서나 기밀 정보를 외부 서버로 보내지 않아도 되니까요.

결론: 모두가 거대 인프라에 주목할 때, 의외의 시장이 열린다

연구진은 100만 개 쿼리 실험으로 하나의 사실을 데이터로 입증했습니다. 88.7%의 AI 요청은 이미 로컬 LLM으로 충분합니다. 전력 효율은 클라우드 대비 1.4배 우수하고요.

핵심 메시지:

'내 노트북의 AI'도 이제 충분히 쓸 만합니다. 2년 전만 해도 23.2%의 질문만 답할 수 있었던 로컬 모델이, 지금은 71.3%를 처리합니다. IPW는 5.3배 개선되었고요.

패러다임 전환:

우리는 'AI = 클라우드'에서 'AI = 하이브리드'로 전환하는 시점에 있습니다. 모든 작업을 클라우드로 보낼 필요가 없습니다. 적절한 라우팅만 있으면 에너지 64%, 비용 59%를 절감하면서도 같은 품질을 유지할 수 있죠.

연구의 의의:

연구진은 IPW라는 메트릭을 통해 로컬 AI의 가능성을 정량화했습니다. 그리고 IPW 프로파일링 도구를 오픈소스로 공개해, 다른 연구자들도 이 기준으로 측정할 수 있게 했죠.

미래 전망:

Apple M4 Max 같은 로컬 가속기의 메모리는 2012년 10-20GB에서 2025년 128-512GB로 급증했습니다. 이 추세가 계속된다면, 앞으로 더 많은 작업이 로컬로 이동할 겁니다.

한계점 인정:

물론 모든 작업을 로컬로 할 수는 없습니다. 복잡한 추론, 전문 도메인, 최신 정보 검색은 여전히 프론티어 모델이 필요합니다. 하지만 88.7%라는 수치가 시사하는 바는 명확합니다.

모두가 $500B Stargate 같은 거대한 데이터센터 투자에 주목하고 있습니다. 하지만 연구진이 보여준 것처럼, 의외의 시장이 열리고 있습니다. 로컬 AI 시장이죠.


실제로 로컬 AI를 활용한 제품들이 상용화되고 있습니다.

로컬독스(Localdocs)는 로컬 PDF 문서 검색 및 요약 솔루션입니다. 100% 오프라인으로 작동하며, 인터넷 연결 없이 PC 내부에서만 AI 연산이 이루어지는 특징이 있습니다. 회사 폐쇄망(인트라넷) 환경에서도 사용 가능하며, 연구 자료나 내부 기술 문서를 외부 서버로 전송하지 않고도 검색하고 요약할 수 있죠.

이처럼 로컬 AI 생태계는 이론이 아닌 실제 제품으로 구현되고 있습니다. 여러분의 업무 환경과 보안 요구사항에 맞는 현명한 선택으로, AI 시대의 생산성을 높이시길 바랍니다.


참고 문헌:

Share article

피카부랩스 블로그