LLM
최고의 한국어 특화 온디바이스 LLM, Peekaboo-20B
피카부랩스의 온디바이스 전용 언어모델, Peekaboo 20B를 소개합니다. 적은 매개변수를 사용하는 Peekaboo-20B 모델은 한국어 벤치마크에서 o3-mini와 비슷한 수준의 응답을 제공하면서, 단 16GB 메모리의 에지 디바이스에서 실행할 수 있어 인프라 비용 추가 없이 로컬 PC 사용에 적합합니다.
동일 총 파라미터 대비 2배 이상의 연산량 절감
현재 ChatGPT, Claude 등 주요 LLM들은 클라우드의 풍부한 연산 자원을 전제로 설계된 Dense Architecture 기반이라, 모든 파라미터가 매 연산마다 활성화되는 비효율적 구조를 갖고 있습니다. 이런 모델들을 압축하면 성능이 급격히 저하되고, 여전히 온디바이스 환경에서는 실용적이지 못합니다. 피카부랩스는 클라우드 모델을 억지로 압축하는 대신, 처음부터 온디바이스 환경을 위한 고효율 아키텍처를 설계했습니다. 동일 총 파라미터 GPT‑NeoX‑20B 대비 2배 이상연산량 절감을 달성하여, 진정한 온디바이스 AI 시대를 열어가고 있습니다.
SMoE 기반의 고효율 아키텍처
모델 품질을 결정하는 데 있어 데이터와 파라미터 수의 중요성을 강조하는 기존 통념과 달리, 온디바이스 환경에서는 모델 아키텍처가 성능을 좌우하는 핵심 요소입니다. Peekaboo-20B는 Attention과 FF Layer 모두에 Sparse Mixture of Experts(SMoE) 아키텍처를 적용하여, Dense 모델이 모든 파라미터를 활성화하는 것과 달리 각 토큰 처리 시 필요한 Expert만 선택적으로 활성화합니다. 이를 통해 20B 규모의 파라미터를 보유하면서도 실제로는 3B만 활성화하여 동작하므로, 대형 모델의 표현력과 소형 모델의 효율성을 동시에 달성했습니다.
온디바이스 환경에 적합한 구조
현재 ChatGPT, Claude 등 주요 LLM들은 클라우드의 풍부한 연산 자원을 전제로 설계된 Dense Architecture 기반이라, 모든 파라미터가 매 연산마다 활성화되는 비효율적 구조를 갖고 있습니다. 이런 모델들을 압축하면 성능이 급격히 저하되고, 여전히 온디바이스 환경에서는 실용적이지 못합니다. 피카부랩스는 클라우드 모델을 억지로 압축하는 대신, 처음부터 온디바이스 환경을 위한 고효율 아키텍처를 설계했습니다. 동일 총 파라미터 GPT‑NeoX‑20B 대비 2배 이상연산량 절감을 달성하여, 진정한 온디바이스 AI 시대를 열어가고 있습니다.

하드웨어 최적화

디바이스별로 활성/Frozen 전문가를 분산 배치하는 HW-aware 방식을 채택했으며, 로드밸런싱이 적용된 MoE 라우팅을 통해 전문가 편향을 방지하고 연산 효율을 극대화했습니다.

메모리 효율 극대화

임베딩 공유, Grouped-Query Attention, 블록 단위 가중치 공유 기법을

적용하여 메모리 오버헤드를 최소화했습니다. 특히 Attention Layer의

KV 프로젝션을 공유하는 방식으로 학습 안정성을 향상시켰습니다.

긴 문맥 처리

Rotary Position Embedding과 슬라이딩 윈도우 어텐션을 조합하여 제한된 메모리 환경에서도 긴 시퀀스를 효과적으로 처리할 수 있도록 설계했습니다.

실용적 접근성

오픈소스 데이터셋과 소비자용 GPU만으로도 학습과 미세조정이

가능하도록 구현되어, 다양한 도메인에서 즉시 활용할 수 있습니다.

효율적인 온디바이스 LLM 학습 파이프라인
현재 ChatGPT, Claude 등 주요 LLM들은 클라우드의 풍부한 연산 자원을 전제로 설계된 Dense Architecture 기반이라, 모든 파라미터가 매 연산마다 활성화되는 비효율적 구조를 갖고 있습니다. 이런 모델들을 압축하면 성능이 급격히 저하되고, 여전히 온디바이스 환경에서는 실용적이지 못합니다. 피카부랩스는 클라우드 모델을 억지로 압축하는 대신, 처음부터 온디바이스 환경을 위한 고효율 아키텍처를 설계했습니다. 동일 총 파라미터 GPT‑NeoX‑20B 대비 2배 이상연산량 절감을 달성하여, 진정한 온디바이스 AI 시대를 열어가고 있습니다.

Pre-training 최적화

이미 최적화된 경량 아키텍처에 추가 압축보다는 Distillation이나 LoRA 어댑터 기반 파인튜닝으로 성능 향상에 집중하여, 희소성을 유지하면서도 도메인 특화 성능을 확보했습니다.

ORPO Odds Ratio Preference Optimization

기존 RLHF의 3단계 파이프라인 (SFT→리워드모델→PPO/DPO)을 단일 단계로 통합했습니다. Odds Ratio 기반 암묵적 리워드 모델링을 통해

메모리를 50% 절약하고, 레퍼런스 모델 과적합을 방지하며, 학습 시간을 60% 단축시켰습니다.

지식 증류 Distillation

대형 모델로 고품질 합성 데이터를 생성하고, CoT 데이터셋으로

추론 과정까지 전이시켜 3B 활성 파라미터만으로도 대형 모델 수준의 복잡한 추론 능력을 달성했습니다.

GRPO Group Relative Policy Optimization

Rotary Position Embedding과 슬라이딩 윈도우 어텐션을 조합하여 제한된 메모리 환경에서도 긴 시퀀스를 효과적으로 처리할 수 있도록 설계했습니다.

이러한 최적화 파이프라인을 통해 20B Dense 모델 대비 추론 속도가 2배 향상되고, 메모리 사용량은 70% 감소하면서도 동등한 성능을 유지할 것으로 예상됩니다.

최고의 한국어 특화
온디바이스 LLM, Peekaboo-20B
피카부랩스의 온디바이스 전용 언어모델, Peekaboo 20B를 소개합니다. 적은 매개변수를 사용하는 Peekaboo-20B 모델은 한국어 벤치마크에서 o3-mini와 비슷한 수준의 응답을 제공하면서, 단 16GB 메모리의 에지 디바이스에서 실행할 수 있어 인프라 비용 추가 없이
로컬 PC 사용에 적합합니다.
동일 총 파라미터 대비
2배 이상의 연산량 절감
현재 ChatGPT, Claude 등 주요 LLM들은 클라우드의
풍부한 연산 자원을 전제로 설계된 Dense Architecture 기반이라, 모든 파라미터가 매 연산마다 활성화되는 비효율적 구조를 갖고 있습니다. 이런 모델들을 압축하면 성능이 급격히 저하되고, 여전히 온디바이스 환경에서는 실용적이지 못합니다.

피카부랩스는 클라우드 모델을 억지로 압축하는 대신, 처음부터 온디바이스 환경을 위한 고효율 아키텍처를 설계했습니다. 동일 총 파라미터GPT‑NeoX‑20B 대비 2배 이상연산량 절감을 달성하여, 진정한 온디바이스 AI 시대를 열어가고 있습니다.
SMoE 기반의
고효율 아키텍처
모델 품질을 결정하는 데 있어 데이터와 파라미터 수의
중요성을 강조하는 기존 통념과 달리, 온디바이스 환경에서는 모델 아키텍처가 성능을 좌우하는 핵심 요소입니다.
Peekaboo-20B는 Attention과 FF Layer 모두에 Sparse Mixture of Experts(SMoE) 아키텍처를 적용하여, Dense 모델이 모든 파라미터를 활성화하는 것과
달리 각 토큰 처리 시 필요한 Expert만 선택적으로 활성화합니다.

이를 통해 20B 규모의 파라미터를 보유하면서도 실제로는 3B만 활성화하여 동작하므로, 대형 모델의 표현력과 소형 모델의 효율성을 동시에 달성했습니다.
온디바이스 환경에
적합한 구조
현재 ChatGPT, Claude 등 주요 LLM들은 클라우드의 풍부한 연산 자원을 전제로 설계된 Dense Architecture 기반이라, 모든 파라미터가 매 연산마다 활성화되는 비효율적 구조를 갖고 있습니다. 이런 모델들을 압축하면 성능이 급격히 저하되고, 여전히 온디바이스 환경에서는 실용적이지 못합니다.

피카부랩스는 클라우드 모델을 억지로 압축하는 대신, 처음부터 온디바이스 환경을 위한 고효율 아키텍처를 설계했습니다. 동일 총 파라미터 GPT‑NeoX‑20B 대비 2배 이상연산량 절감을 달성하여, 진정한 온디바이스 AI 시대를 열어가고 있습니다.

하드웨어 최적화

디바이스별로 활성/Frozen 전문가를 분산 배치하는

HW-aware 방식을 채택했으며, 로드밸런싱이 적용된MoE 라우팅을 통해 전문가 편향을 방지하고 연산 효율을 극대화했습니다.

메모리 효율 극대화

임베딩 공유, Grouped-Query Attention, 블록 단위

가중치 공유 기법을 적용하여 메모리 오버헤드를 최소화했습니다. 특히 Attention Layer의 KV 프로젝션을 공유하는 방식으로 학습 안정성을 향상시켰습니다.

긴 문맥 처리

Rotary Position Embedding과 슬라이딩 윈도우 어텐션을 조합하여 제한된 메모리 환경에서도 긴 시퀀스를 효과적으로 처리할 수 있도록 설계했습니다.

실용적 접근성

오픈소스 데이터셋과 소비자용 GPU만으로도 학습과 미세조정이 가능하도록 구현되어, 다양한 도메인에서 즉시 활용할 수 있습니다.

온디바이스 환경에
적합한 구조
현재 ChatGPT, Claude 등 주요 LLM들은 클라우드의 풍부한 연산 자원을 전제로 설계된 Dense Architecture 기반이라, 모든 파라미터가 매 연산마다 활성화되는 비효율적 구조를 갖고 있습니다. 이런 모델들을 압축하면 성능이 급격히 저하되고, 여전히 온디바이스 환경에서는 실용적이지 못합니다.

피카부랩스는 클라우드 모델을 억지로 압축하는 대신, 처음부터 온디바이스 환경을 위한 고효율 아키텍처를 설계했습니다. 동일 총 파라미터 GPT‑NeoX‑20B 대비 2배 이상연산량 절감을 달성하여, 진정한 온디바이스 AI 시대를 열어가고 있습니다.

하드웨어 최적화

디바이스별로 활성/Frozen 전문가를 분산 배치하는 HW-aware 방식을 채택했으며, 로드밸런싱이 적용된 MoE 라우팅을 통해 전문가 편향을 방지하고 연산 효율을 극대화했습니다.

메모리 효율 극대화

임베딩 공유, Grouped-Query Attention, 블록 단위 가중치 공유 기법을 적용하여 메모리 오버헤드를 최소화했습니다. 특히 Attention Layer의 KV 프로젝션을 공유하는

방식으로 학습 안정성을 향상시켰습니다.

긴 문맥 처리

Rotary Position Embedding과 슬라이딩 윈도우 어텐션을 조합하여 제한된 메모리 환경에서도 긴 시퀀스를 효과적으로 처리할 수 있도록 설계했습니다.

실용적 접근성

오픈소스 데이터셋과 소비자용 GPU만으로도 학습과 미세조정이 가능하도록 구현되어, 다양한 도메인에서 즉시 활용할 수 있습니다.

이러한 최적화 파이프라인을 통해 20B Dense 모델 대비 추론 속도가 2배 향상되고, 메모리 사용량은 70% 감소하면서도 동등한 성능을 유지할 것으로 예상됩니다.

이용약관
인재채용
서울특별시 강남구 테헤란로 217, 오렌지플래닛
주식회사 피카부랩스
304-88-02946
contact@peekaboolabs.ai
010-5722-3213
© 2025 PeekabooLabs Co.,Ltd. All rights reserved.
당신의 비즈니스를 위한 AI,
피카부랩스와 함께
시작하세요.
지금 바로 문의하여 귀사의 환경에 최적화된 온디바이스 LLM 도입 가능성을 확인하세요.
Contact Us
당신의 비즈니스를 위한 AI,
피카부랩스와 함께
시작하세요.
지금 바로 문의하여 귀사의 환경에 최적화된 온디바이스 LLM 도입 가능성을 확인하세요.
Contact Us
당신의 비즈니스를 위한 AI, 피카부랩스와 함께 시작하세요.
지금 바로 문의하여 귀사의 환경에 최적화된 온디바이스 LLM 도입 가능성을 확인하세요.
Contact Us
주식회사 피카부랩스
서울특별시 강남구 테헤란로 217, 오렌지플래닛
304-88-02946
contact@peekaboolabs.ai
010-5722-3213
© 2025 PeekabooLabs Co.,Ltd. All rights reserved.
인재채용