바쁘신 여러분들을 위해 결론부터 말씀 드리겠습니다.
• 알리바바 Qwen3.6-35B-A3B는 350억 파라미터 중 30억만 활성화하는 희소 MoE 모델입니다
• 구글 Gemma 4-31B를 모든 코딩 벤치마크에서 압도합니다. SWE-bench 73.4 vs 52.0
• 에이전틱 코딩, 추론, 멀티모달까지 전방위에서 경쟁모델 능가하며 오픈소스 모델의 새 기준을 세웠습니다
여러분, AI 모델은 클수록 좋다는 생각하시죠?
알리바바가 그 고정관념을 깼습니다.
350억 파라미터 모델에서 30억만 쓴다. 나머지는 꺼져 있습니다.
이게 어떻게 가능한지, 왜 의미 있는지 하나씩 풀어보겠습니다.
1. 희소 MoE — 350억 중 30억만 쓰는 비밀
Qwen3.6-35B-A3B의 핵심 기술은 희소 전문가 혼합(Sparse Mixture-of-Experts)입니다.
일반 모델은 모든 파라미터를 매번 계산합니다. 350억 파라미터면 350억 개를 매번 돌려야 합니다.
하지만 MoE 모델은 다릅니다. 여러 전문가 중 상황에 맞는 것만 선택해서 씁니다.
Qwen3.6은 350억 파라미터 중 30억만 활성화합니다. 나머지 320억은 대기 상태입니다.
결과는? 계산 비용은 30억 모델 수준이면서, 성능은 350억 모델급입니다.
이게 알리바바가 말하는 “품질 저하 없이 비용 절감”의 비밀입니다.
2. Gemma 4-31B 압도 — 코딩 벤치마크 전승
구글의 Gemma 4-31B와의 비교가 가장 충격적입니다.
SWE-bench Verified: Qwen3.6 73.4 vs Gemma 4 52.0 — 21.4점 차이
Terminal-Bench 2.0: Qwen3.6 51.5 vs Gemma 4 42.9 — 8.6점 차이
코딩 벤치마크에서 전승입니다. 한 번도 지지 않았습니다.
SWE-bench Verified는 실제 GitHub 이슈를 해결하는 능력을 평가합니다. 73.4점은 오픈소스 모델 중 최고 수준입니다.
Terminal-Bench 2.0은 터미널 환경에서 에이전트가 코딩하는 능력을 측정합니다. 역시 압도적입니다.
알리바바는 전작 Qwen3.5-35B-A3B 대비해서도 에이전틱 코딩 성능이 대폭 향상됐다고 밝혔습니다.
3. 추론과 멀티모달도 경쟁력
코딩만 잘하는 게 아닙니다.
GPQA (박사급 추론): Qwen3.6 86.0 vs Gemma 4 84.3
AIME26 (수학 문제): Qwen3.6 92.7 vs Gemma 4 89.2
추론 벤치마크에서도 앞섭니다.
알리바바는 클로드 소넷 4.5와도 이미지·비디오 작업에서 동급 성능을 유지한다고 주장합니다.
텍스트뿐 아니라 비전-언어(Vision-Language) 능력까지 갖춘 멀티모달 모델입니다.
코딩, 추론, 멀티모달 — 세 마리 토끼를 다 잡은 셈입니다.
4. 생각 모드와 비생각 모드 — 선택 가능한 추론
Qwen3.6은 생각(Thinking) 모드와 비생각(Non-thinking) 모드를 제공합니다.
생각 모드는 복잡한 문제에 깊이 추론합니다. 시간이 걸리지만 정확도가 높습니다.
비생각 모드는 빠르게 답변합니다. 단순 질문이나 실시간 대화에 적합합니다.
상황에 따라 모드를 선택할 수 있습니다. 한 모델로 두 가지 방식을 다 쓰는 겁니다.
이건 클로드의 확장 사고(Extended Thinking)와 비슷한 접근이지만, 오픈소스라는 점이 다릅니다.
5. 어디서 쓸 수 있나 — 접근성
Qwen3.6은 여러 경로로 접근 가능합니다.
Qwen Studio: chat.qwen.ai에서 무료로 대화하며 테스트
API: 알리바바 클라우드 모델 스튜디오에서 Qwen3.6 Flash로 API 호출
다운로드: 허깅페이스와 모델스코프에서 가중치 다운로드 가능
오픈소스이므로 자체 서버에 배포해서 쓸 수도 있습니다.
30억 파라미터만 활성화하므로 중급 GPU에서도 실행 가능합니다.
이게 바로 MoE 구조의 실용적 장점입니다. 성능은 큰 모델급인데, 실행 비용은 작은 모델 수준입니다.
정리하면
-
Qwen3.6-35B-A3B는 350억 파라미터 중 30억만 활성화하는 희소 MoE 모델입니다
-
Gemma 4-31B를 모든 코딩 벤치마크에서 압도합니다. SWE-bench 73.4 vs 52.0
-
추론(GPQA 86.0)과 수학(AIME 92.7)에서도 경쟁모델을 앞섭니다
-
클로드 소넷 4.5와 이미지·비디오 작업에서 동급 성능을 주장합니다
-
생각/비생각 모드 전환, 무료 접근, 자체 배포 가능까지 실용성도 갖췄습니다
오픈소스 모델이 폐쇄형 모델을 위협하는 시대.
그리고 그 위협이 이제 코딩까지 넘어왔습니다. 이게 Qwen3.6이 보여주는 현실입니다.
자주 묻는 질문 (FAQ)
Q. MoE가 뭔가요?
Mixture-of-Experts의 약자입니다. 모델 내부에 여러 전문가(Expert)가 있고, 입력에 따라 가장 적합한 전문가만 선택해서 실행하는 구조입니다. 전체 파라미터는 많지만 실제로 쓰는 건 일부라서 효율적입니다.
Q. 오픈소스인데 상용으로 써도 되나요?
네. 알리바바는 Apache 2.0 라이선스로 공개했습니다. 상업적 사용, 수정, 배포가 모두 가능합니다.
Q. GPT 5.4나 클로드와 비교하면 어떤가요?
코딩 벤치마크에서 오픈소스 모델 중 최고 수준이지만, GPT 5.4(SWE-bench 57.7%)나 클로드 오퍼스와 직접 비교는 어렵습니다. 다만 에이전틱 코딩 작업에서는 경쟁력 있는 성능을 보여줍니다.
감자나라ai 유튜브 채널에서 오픈소스 AI 모델 최신 트렌드를 더 자세히 다룹니다.
구독해주시면 감사하겠습니다.
감사합니다. 다음 시간에 뵙겠습니다.
—
작성: 감자나라ai (오종현)
발행: potato-ai.xyz
