Kimi K2 vs Claude Opus vs GPT-5 Coding 2026: Moonshot's Model Benchmark

Sat, 25 Apr 2026 00:02:30 +0000

2026년 2월, 9일 만에 세 개의 프론티어 코딩 모델이 출시됐다. 1월 27일 Kimi K2.5, 2월 5일 Claude Opus 4.6, 그리고 20분 뒤 GPT-5.3-Codex. 어떤 모델을 써야 할지는 워크플로우에 달려 있다. Terminal 작업엔 Codex, 복잡한 추론엔 Opus, 대용량/저비용엔 Kimi K2.5가 최적이다.

2026년 2월 코딩 전쟁: 무슨 일이 있었나

2026년 2월은 AI 코딩 모델 역사에서 가장 치열한 9일로 기록됐다. Moonshot AI는 1월 27일 Kimi K2.5를 출시하며 LiveCodeBench 85.0%라는 오픈소스 최고 기록을 세웠다. 그로부터 9일 후인 2월 5일, Anthropic은 Claude Opus 4.6를 공개하며 SWE-Bench Verified 80.8%, ARC-AGI-2 68.8%(전 세대 37.6%에서 두 배 향상)를 발표했다. Anthropic의 공개 발표로부터 단 20분 뒤, OpenAI는 GPT-5.3-Codex를 드롭하며 Terminal-Bench 2.0에서 77.3%를 기록했다. 이 모델은 자기 자신의 훈련 실행을 디버깅하고 배포 인프라를 관리하며 스케일링 스크립트를 작성하는 데 기여했다. 기업 LLM 지출 평균은 2025년 $7M(전년 대비 180% 증가)에서 2026년 $11.6M으로 전망되는 가운데, 개발자들은 단일 모델 선택이 아닌 워크플로우별 최적 모델 라우팅 전략을 고민하기 시작했다. AI 코딩 시장에서 OpenAI의 점유율은 62%에서 53%로 하락하며 경쟁 구도가 다변화되고 있다. 세 모델은 서로 다른 벤치마크에서 서로 다른 강점을 보이며, 어떤 단일 모델도 모든 워크플로우에서 최선이 아님을 이 전쟁은 증명했다. 이 글은 그 복잡한 선택을 실용적으로 돕기 위해 쓰였다.

핵심 벤치마크 비교: 어떤 모델이 어느 테스트에서 이기나

Kimi K2.5, Claude Opus 4.6, GPT-5.3-Codex는 서로 다른 벤치마크에서 각기 다른 강점을 보인다. SWE-Bench Verified에서 Opus 4.6이 80.8%로 1위를 차지하지만, Terminal-Bench 2.0에서는 GPT-5.3-Codex가 77.3%로 Opus 4.6의 65.4%를 12포인트 차이로 앞섰다. LiveCodeBench에서는 Kimi K2.5가 85.0%로 오픈소스 최고 기록을 보유하며, Opus 4.5 대비 21포인트 앞섰다. 단일 모델이 모든 벤치마크를 지배하지 않는다는 사실이 핵심이다. 어떤 코딩 작업을 하느냐에 따라 최적 모델이 달라진다. OSWorld-Verified(GUI/컴퓨터 사용)에서는 Opus 4.6이 72.7%로 Codex의 64.7%를 앞섰으며, GDPval-AA 지식 작업에서는 Opus 4.6이 1606 Elo로 GPT-5.2보다 144 Elo 높았다. Humanity’s Last Exam에서는 Kimi K2.5가 50.2%로 Opus 4.6의 40.0%를 10포인트 앞섰다.

벤치마크	Claude Opus 4.6	GPT-5.3-Codex	Kimi K2.5
SWE-Bench Verified	80.8%	N/A	76.8%
Terminal-Bench 2.0	65.4%	77.3%	N/A
LiveCodeBench	~64%	N/A	85.0%
OSWorld-Verified	72.7%	64.7%	N/A
GDPval-AA (Elo)	1606	~1462	N/A
ARC-AGI-2	68.8%	N/A	N/A
Humanity’s Last Exam	40.0%	N/A	50.2%

SWE-Bench 오염 문제: 숫자만 믿으면 안 되는 이유

SWE-Bench Verified 점수를 해석할 때 주의가 필요하다. OpenAI는 오염이 확인된 후 SWE-Bench 점수 보고를 중단했으며, 이는 공개된 SWE-Bench 점수들이 실제 코딩 능력을 과대평가할 수 있음을 시사한다. 실제 성능을 측정하기 위해 MorphLLM은 SWE-Bench Pro 같은 오염되지 않은 벤치마크를 권장한다. WarpGrep 같은 효율적인 검색 서브에이전트를 추가하면 어떤 기반 모델이든 SWE-Bench Pro에서 2.1-2.2% 추가 향상이 가능하다는 점도 주목할 만하다. Terminal-Bench 2.0과 OSWorld-Verified가 실제 개발자 워크플로우에 더 근접한 평가라는 평가가 나오고 있다.

GPT-5.3-Codex: 터미널 워크플로우의 지배자

GPT-5.3-Codex는 Terminal-Bench 2.0에서 77.3%로 현존 최고 점수를 기록하며 터미널 중심 워크플로우에서 독보적인 위치를 차지하고 있다. 이 모델의 가장 놀라운 특징 중 하나는 자기 자신의 개발에 참여했다는 점으로, GPT-5.3-Codex는 자신의 훈련 실행을 디버깅하고, 배포 인프라를 관리하며, 스케일링 스크립트를 직접 작성했다. 전 세대 대비 25% 빠른 추론 속도를 제공하며, 400K 컨텍스트 윈도우를 지원한다. 가격은 입력 $10/M, 출력 $30/M 토큰으로 세 모델 중 가장 비싸고 Kimi K2.5 대비 14.5배 비용이 든다. BrowseComp에서는 59.2%를 기록해 Kimi K2.5의 74.9%에 뒤졌으며, GUI 작업(OSWorld-Verified)에서도 Opus 4.6의 72.7%에 비해 64.7%로 8포인트 뒤졌다. SWE-Bench Verified에 대한 공식 점수를 OpenAI가 공개하지 않은 점도 주목할 만하다. 터미널 자동화, DevOps, CI/CD 파이프라인 구축, 복잡한 쉘 스크립트 개발에 특화된 워크플로우를 가진 팀에게 Codex는 Terminal-Bench 최고 성능을 바탕으로 정당화된다. 단, 그 비용이 상당하기 때문에 터미널 워크플로우가 팀 작업의 핵심이 아니라면 ROI 분석이 필요하다.

GPT-5.3-Codex의 한계

입력 $10/M, 출력 $30/M이라는 가격은 Kimi K2.5 대비 14.5배 비싸다. 1,000 태스크 기준으로 GPT-5.3-Codex는 월 $800 수준이다. Terminal-Bench 외 영역에서는 Opus 4.6보다 뒤처진다는 점을 감안하면, Codex를 사용할 정당성은 터미널/CLI 집중 워크플로우에서만 강하다.

Claude Opus 4.6: 엔터프라이즈 추론의 기준

Claude Opus 4.6는 SWE-Bench Verified 80.8%, OSWorld-Verified 72.7%, GDPval-AA 1606 Elo, ARC-AGI-2 68.8%라는 수치로 종합적인 코딩 추론 능력에서 최상위를 차지한다. 특히 ARC-AGI-2에서 전 세대(Opus 4.5) 37.6%에서 68.8%로 두 배 가까이 점프한 것은 단일 세대 업그레이드 중 가장 드라마틱한 추론 개선 사례로 꼽히며, 복잡한 알고리즘 문제 해결과 다단계 추론이 필요한 코딩 작업에서 명확한 우위를 보인다. 엔터프라이즈 금융·법률·분석 코딩에서 GDPval-AA 1606 Elo는 GPT-5.2보다 144 Elo 높아 복잡한 비즈니스 로직 구현에서 실질적인 차이를 만든다. 베타 단계의 1M 토큰 컨텍스트 윈도우는 MRCR v2 벤치마크에서 76% 정확도를 유지해 GPT-5.2의 동일 길이 18.5%를 크게 앞섰다. 대규모 모노레포, 레거시 시스템 마이그레이션, 복잡한 멀티파일 리팩토링 작업에서 이 1M 컨텍스트의 일관성은 결정적인 차별화 포인트다. 가격은 입력 $5/M, 출력 $25/M으로 Codex보다 저렴하지만, Kimi K2.5 대비 여전히 8배 이상 비싸다. Opus 4.6의 핵심 가치는 범용 고성능에 있다.

Claude Sonnet 4.6: 간과하기 쉬운 다크호스

Opus 4.6를 논할 때 Sonnet 4.6도 함께 고려해야 한다. Sonnet 4.6는 SWE-Bench에서 79.6%를 기록해 Opus 4.6과 불과 1.2포인트 차이지만, 가격은 입력 $3/M, 출력 $15/M으로 Opus 대비 5배 저렴하다. 일상적인 코딩 작업의 80%는 Sonnet 4.6으로 처리하고, 복잡한 추론이 필요한 20%만 Opus 4.6으로 라우팅하는 하이브리드 전략이 비용 최적화의 핵심이다.

Kimi K2.5: 가격 대비 성능의 오픈소스 와일드카드

Kimi K2.5는 2026년 오픈소스 코딩 모델 생태계에서 가장 주목받는 모델이다. SWE-Bench Verified 76.8%, LiveCodeBench 85.0%(오픈소스 전체 최고 기록), Humanity’s Last Exam 50.2%를 기록하며 독점 모델과 한 자릿수 퍼센트 내의 격차로 좁혔다. 1T 파라미터 MoE 아키텍처에 32B 활성 파라미터를 사용하며, 256K 컨텍스트 윈도우를 지원한다. Moonshot AI가 2026년 1월 27일 출시한 이 모델은 BrowseComp에서 74.9%로 GPT-5.2의 59.2%를 15포인트 앞섰다. 가장 결정적인 차별화 포인트는 가격이다. API 기준 입력 $0.60/M, 출력 $2.50/M으로, Claude Opus 4.6 대비 입력 토큰 기준 10배, GPT-5.3-Codex 대비 17배 저렴하다. 월 1,000 태스크 기준 Kimi K2.5는 약 $55, Codex는 $800 수준이다. 연간 $50,000 이상을 AI 코딩에 지출하는 팀이라면 Kimi K2.5로의 전환은 성능 타협 없이 비용을 90% 절감할 수 있는 현실적인 선택이다. 네이티브 멀티모달(이미지→코드, 동영상→코드, 시각적 디버깅) 기능은 다른 두 모델에 없는 고유한 강점으로, 비주얼 코딩 워크플로우에서 경쟁 없는 우위를 제공한다.

Kimi K2.5의 오픈소스 가중치와 자체 호스팅

Kimi K2.5는 Modified MIT 라이선스로 가중치를 HuggingFace에서 제공한다. vLLM, SGLang, TensorRT-LLM 배포를 지원하지만, 풀 FP16 기준 ~2TB VRAM, INT4 양자화 기준 ~600GB VRAM이 필요해 자체 호스팅에는 상당한 인프라 투자가 필요하다. API를 통한 접근이 대부분 팀에게 현실적이며, Kimi Code CLI는 VS Code, Cursor, Zed 에디터와 통합된다.

에이전트 아키텍처 비교: 100 에이전트 스웜 vs 16 에이전트 팀

2026년 AI 코딩 모델의 경쟁은 단순 벤치마크를 넘어 에이전트 오케스트레이션 아키텍처 전쟁으로 확장됐다. Kimi K2.5의 Agent Swarm은 최대 100개의 서브에이전트가 1,500개 이상의 병렬 툴 호출을 오케스트레이션하며, PARL(Parallel Agentic Reinforcement Learning) 알고리즘을 통해 기존 대비 4.5배 속도 향상을 달성한다. 엔드투엔드 런타임을 최대 80% 단축하고, 핵심 단계 수를 3~4.5배 줄인다고 공개됐다. Claude Opus 4.6의 Agent Teams는 최대 16개의 클로드 에이전트를 조율하며, 복잡한 소프트웨어 엔지니어링 작업에서 구조화된 협업에 초점을 맞춘다. GPT-5.3-Codex의 자기 개선 루프는 모델이 자신의 훈련 스크립트를 작성하고 디버깅하는 독특한 접근 방식으로, 반복적인 코드베이스 개선 작업에서 강점을 보인다. 어떤 에이전트 아키텍처가 더 우수한가는 작업 유형에 따라 다르다. 대규모 병렬 태스크는 Kimi Swarm, 복잡한 단일 문제 해결은 Claude Teams, 터미널 자동화 루프는 Codex가 유리하다.

에이전트 시스템	최대 에이전트 수	병렬 툴 호출	주요 강점
Kimi Agent Swarm	100	1,500+	대규모 병렬화, 80% 런타임 단축
Claude Agent Teams	16	미공개	구조화된 협업, 복잡한 추론
GPT-5.3-Codex Loop	미공개	미공개	자기 개선, 터미널 자동화

컨텍스트 윈도우 전쟁: 크기보다 일관성이 중요하다

컨텍스트 윈도우 경쟁에서 Claude Opus 4.6는 베타 기준 1M 토큰으로 가장 긴 컨텍스트를 제공하지만, 숫자만큼이나 중요한 것은 컨텍스트 일관성이다. MRCR v2 벤치마크에서 Opus 4.6는 1M 토큰 길이에서 76% 정확도를 유지했다. GPT-5.2는 같은 길이에서 단 18.5%를 기록했다. 즉, 동일한 1M 토큰 입력에서 Opus 4.6는 4배 이상 정확하다. 컨텍스트 창이 길어도 정확도가 급격히 떨어지면 실질적인 사용 가치가 없다. GPT-5.3-Codex는 400K 컨텍스트를 제공하며, Kimi K2.5는 256K로 세 모델 중 가장 짧다. 대규모 모노레포(10만 줄 이상), 레거시 코드베이스 전체 리팩토링, 복수의 서비스 간 의존성 분석, 대규모 API 문서 기반 코드 생성 작업에서는 Opus 4.6의 1M 컨텍스트와 76% 정확도가 결정적인 우위를 제공한다. 실제로 대형 금융 코드베이스나 마이크로서비스 아키텍처 전체를 단일 프롬프트에 넣을 수 있다는 것은 설계 검토나 보안 감사에서 혁신적인 차이다. 반대로, 일반적인 기능 개발이나 버그 수정처럼 32K 이하 컨텍스트로 충분한 작업에서는 Kimi K2.5의 256K도 충분하며, 10배 낮은 비용이 더 중요한 변수가 된다.

어떤 작업에 얼마나 긴 컨텍스트가 필요한가

실제 개발에서 32K 컨텍스트로 처리 가능한 작업이 전체의 70% 이상이다. 100K 이상이 필요한 작업은 대규모 레거시 마이그레이션, 전체 저장소 리뷰, 복잡한 시스템 설계 검토 등 특수 케이스다. 일반적인 기능 개발, 버그 수정, 코드 리뷰에는 Kimi K2.5의 256K로 충분하며, 비용 절감 효과가 크다.

가격 심층 분석: 월 $55 vs $500 vs $800

AI 코딩 모델의 실질 비용 차이는 벤치마크 차이보다 훨씬 크다. 1,000 태스크 기준 월간 비용을 비교하면 Kimi K2.5 약 $55, Claude Opus 4.6 약 $500, GPT-5.3-Codex 약 $800 수준이다. 이 14.5배의 비용 격차가 어느 수준의 성능 차이를 정당화할 수 있는지가 2026년 AI 코딩 모델 선택의 핵심 질문이다. SWE-Bench Verified 기준으로 Kimi K2.5(76.8%)와 Opus 4.6(80.8%)의 차이는 4포인트다. 즉, 성능의 5% 향상을 위해 9배 더 지불해야 한다. Andreessen Horowitz의 분석에 따르면 기업 LLM 지출은 2025년 $7M(전년 대비 180% 증가)에서 2026년 평균 $11.6M으로 전망되며, AI 코딩에 연간 $50,000 이상을 지출하는 팀은 Kimi K2.5나 MiniMax M2.5 같은 오픈소스 모델로의 전환을 진지하게 평가해야 한다. OpenAI의 시장 점유율이 62%에서 53%로 하락하는 것도 이 가격 압박의 결과다.

모델	입력 ($/M)	출력 ($/M)	1,000 태스크/월	Codex 대비 비율
Kimi K2.5	$0.60	$2.50	~$55	1×
Claude Sonnet 4.6	$3	$15	~$270	5×
Claude Opus 4.6	$5	$25	~$500	9×
GPT-5.3-Codex	$10	$30	~$800	14.5×

오픈소스 대안들의 가격 우위

Kimi K2.5 외에도 2026년 2월 웨이브의 오픈소스 모델들은 독점 모델 대비 70-95% 저렴하다. MiniMax M2.5(80.2% SWE-bench)가 입력 $0.30/M, Qwen3-Coder-Next(70.6%)가 $0.22/M를 제공한다. 오픈소스와 독점 모델의 성능 격차가 한 자릿수 퍼센트대로 좁혀진 지금, 비용 최적화를 위한 오픈소스 도입은 더 이상 타협이 아닌 전략적 선택이다.

시각적 코딩과 멀티모달: Kimi K2.5의 독보적 강점

Kimi K2.5의 네이티브 멀티모달 능력은 2026년 코딩 모델 중 고유한 경쟁 우위다. Claude Opus 4.6와 GPT-5.3-Codex가 제공하지 않는 비주얼 코딩 워크플로우를 가능하게 한다. 15T 혼합 시각/텍스트 토큰으로 사전학습된 Kimi K2.5는 별도의 비전 인코더 없이 이미지를 직접 이해하고 코드로 변환한다. 이 접근 방식은 단순 이미지 인식을 넘어 시각 정보와 코드 생성을 네이티브로 통합한 결과다. 실용적인 적용 사례는 다양하다. Figma 디자인이나 목업 스크린샷을 React/Vue 컴포넌트 코드로 직접 변환하거나, 런타임 오류 스크린샷 하나로 즉각적인 디버깅 진단을 받거나, 동영상 튜토리얼을 단계별 구현 코드로 변환할 수 있다. Agent Swarm 모드에서는 스크린샷 → 진단 → 코드 수정 파이프라인이 수동 컨텍스트 전환 없이 자동 처리된다. Moonshot AI에 따르면 엔드투엔드 비주얼 디버깅 시간을 최대 80% 단축한다. UI/UX 프로토타이핑, 프론트엔드 개발, 풀스택 비주얼 애플리케이션 개발 팀에게 이 기능은 현재 어떤 경쟁 모델도 제공하지 않는 워크플로우 효율을 제공한다.

2026년 오픈소스 코딩 모델 웨이브: 더 넓은 생태계

2026년 2월은 오픈소스 코딩 모델이 독점 모델과의 성능 격차를 한 자릿수 퍼센트대로 압축한 역사적 전환점이다. Kimi K2.5만이 이 흐름을 주도하는 것이 아니다. MorphLLM의 2026년 3월 분석에 따르면 MiniMax M2.5는 SWE-bench 80.2%로 Claude Opus 4.6(80.8%)과 불과 0.6포인트 차이를 보이며, 입력 $0.30/M로 독점 모델 대비 95% 저렴하다. GLM-5는 77.8%, Qwen3-Coder-Next는 70.6%를 기록하며, 2024년 초 20포인트 이상이던 오픈소스-독점 모델 격차는 이제 사라졌다. 특히 Qwen3-Coder-Next는 46GB VRAM으로 실행 가능한 유일한 최전선급 모델로 소비자 하드웨어 배포가 가능하다. DeepSeek V3.2는 IOI 2025 금메달을 획득한 73% SWE-bench 모델로 완전 MIT 라이선스와 128K 컨텍스트를 제공한다. Mercury 2는 확산 언어 모델로 1,000 토큰/초를 달성해 자기회귀 모델보다 5배 빠른 추론을 보여준다(LiveCodeBench 67.3%). 오픈소스 API 가격은 $0.22~$0.60/M 입력으로 독점 모델의 $5~$15 대비 70~95% 저렴하다. 특정 사용 사례에서 오픈소스가 독점 모델을 실질적으로 대체하는 시점이 도래했다.

어떤 모델을 언제 써야 하나: 실전 의사결정 프레임워크

모델 선택은 단일 정답이 없다. 워크플로우, 예산, 작업 유형에 따라 최적 선택이 다르다. 다음 프레임워크는 현장 경험을 바탕으로 한 권장 사항이다. 일상적인 코딩(기능 개발, 버그 수정, PR 리뷰)에는 Claude Sonnet 4.6($3/$15)이 Opus 대비 5배 저렴하면서 SWE-bench 79.6%로 거의 동급 성능을 제공한다. 복잡한 아키텍처 결정, 대형 코드베이스 리팩토링, 금융/법률 비즈니스 로직에는 Claude Opus 4.6이 최고의 종합 추론 능력과 1M 컨텍스트를 제공한다. 터미널 자동화, DevOps, CI/CD, 쉘 스크립트 작성에는 GPT-5.3-Codex가 Terminal-Bench 77.3%로 최상이다. 대용량 처리, 비주얼 코딩, 비용 민감 프로덕션 워크플로우에는 Kimi K2.5의 $0.60/M 입력 가격과 85.0% LiveCodeBench가 ROI 최적점이다. 팀 규모가 크고 연간 AI 코딩 비용이 $50K를 초과한다면, Kimi K2.5 또는 MiniMax M2.5 같은 오픈소스 모델로의 전환을 반드시 평가해야 한다.

시나리오	권장 모델	이유
일상적 코딩 (80%)	Claude Sonnet 4.6	Opus 대비 5× 저렴, 성능 차이 1.2%
복잡한 추론/대형 코드베이스	Claude Opus 4.6	SWE-bench 1위, 1M 컨텍스트 76% 정확도
터미널/DevOps 자동화	GPT-5.3-Codex	Terminal-Bench 77.3% 1위
비주얼 코딩/대용량	Kimi K2.5	LiveCodeBench 85%, 10× 저렴
비용 최적화 팀	Kimi K2.5 / MiniMax M2.5	독점 모델 대비 70-95% 절감

엔터프라이즈 고려사항: 규모의 비용, 벤더 종속, 컴플라이언스

엔터프라이즈 도입을 결정할 때 벤치마크 외에 고려해야 할 요소들이 있다. 2026년 기업 LLM 지출이 평균 $11.6M으로 전망되는 상황에서, 모델 선택은 단순한 기술 결정이 아닌 비용 구조와 리스크 관리의 문제다. 벤더 종속 리스크는 독점 모델(Claude, GPT-5.3-Codex)이 가격을 언제든 변경할 수 있다는 점에서 오픈소스 가중치를 제공하는 Kimi K2.5, DeepSeek V3.2, MiniMax M2.5가 장기적으로 더 예측 가능한 비용 구조를 제공한다. 데이터 프라이버시와 컴플라이언스 측면에서 자체 호스팅 가능한 오픈소스 모델은 코드가 외부 API로 전송되지 않는 강점이 있어 GDPR, HIPAA 등 규제 산업에서 특히 유리하다. 단, Kimi K2.5 자체 호스팅에는 풀 FP16 기준 ~2TB VRAM, INT4 기준 ~600GB VRAM이 필요해 대부분의 조직에서 클라우드 인프라 투자가 불가피하다. 에코시스템 성숙도 측면에서 Claude의 Anthropic API, OpenAI API는 더 안정적인 SDK와 광범위한 서드파티 통합을 제공한다. Kimi Code CLI는 VS Code, Cursor, Zed를 지원하지만 생태계는 여전히 성장 중이다.

FAQ

Q: Kimi K2.5가 Claude Opus 4.6보다 코딩에서 더 낫나요?

특정 영역에서는 그렇습니다. LiveCodeBench(85.0% vs ~64%)와 Humanity’s Last Exam(50.2% vs 40.0%)에서 Kimi K2.5가 앞서며, 가격은 10배 저렴합니다. 하지만 SWE-Bench Verified(76.8% vs 80.8%), OSWorld-Verified(GUI 작업), GDPval-AA 지식 작업에서는 Opus 4.6이 우위입니다. 컨텍스트 윈도우 일관성(1M 토큰에서 76% vs Kimi의 256K)도 Opus 4.6의 강점입니다.

Q: GPT-5.3-Codex가 가장 비싼 이유가 있나요?

Terminal-Bench 2.0에서 77.3%로 현존 최고 점수를 기록하며, 터미널 자동화, DevOps, CI/CD 워크플로우에서 독보적입니다. 또한 자기 자신의 훈련 스크립트를 작성하고 디버깅하는 데 기여했습니다. 단, 터미널 외 영역에서는 Opus 4.6에 뒤처지므로, 비용 정당성은 터미널 집중 팀에 한정됩니다.

Q: SWE-Bench 점수를 그대로 믿어도 될까요?

주의가 필요합니다. OpenAI는 오염 확인 후 SWE-Bench 점수 보고를 중단했으며, 공개된 점수들이 실제 성능을 과대평가할 수 있습니다. Terminal-Bench 2.0, OSWorld-Verified, SWE-Bench Pro 같은 오염되지 않은 벤치마크가 더 신뢰할 수 있는 평가 지표입니다.

Q: 오픈소스 모델로 전환할 때 주요 리스크는 무엇인가요?

Kimi K2.5 자체 호스팅에는 ~600GB VRAM(INT4)이 필요해 인프라 투자가 크고, 에코시스템 성숙도가 Claude/OpenAI 대비 낮습니다. API 이용 시 가용성과 SLA도 확인이 필요합니다. 단, API를 통해 이용한다면 이러한 리스크는 크게 줄어듭니다.

Q: 하나의 모델만 선택해야 한다면 어떤 것을 추천하나요?

일반적인 개발 팀이라면 Claude Sonnet 4.6를 기본으로 사용하는 것을 권장합니다. SWE-Bench 79.6%로 Opus와 거의 동급이면서 입력 $3/M로 5배 저렴합니다. 비용 민감 팀이나 비주얼 코딩이 많은 팀이라면 Kimi K2.5가 더 나은 선택입니다. 단일 모델 선택보다는 워크플로우별 라우팅 전략이 장기적으로 더 효과적입니다.

Kimi-K2 on RockB