728x90
마누스는 에이전트 Ai 컨셉으로 출시되었는데요, 마누스가 다른 여러 Ai들을 직접 부려서 결과물을 만들어내서 보고를 한다는 점입니다.
가장 충격적인 부분이 Ai가 다른 Ai들을 통제해서 일을 시킨다는 점입니다. 바로 장안의 화제가 된 부분인데요. 그래서 생태계의 교란종이라는 소릴 듣고 있습니다.
아무튼 딥시크에 필적한다는 알리바바의 큐원과 마누스 Ai의 성능을 분석해보는 시간을 가져보죠. 정말 딥시크를 뛰어넘는 성능인지도 한번 알아보고요.
다만 마누스는 초대장이 있어야지만 사용할 수가 있어서 직접 이용까진 못해보고 발표된 제원가지고 비교를 해볼께요.
1. 큐원(Qwen) AI 성능 분석
큐원은 알리바바 클라우드에서 개발한 AI 모델로, 최신 버전인 ‘Qwen 2.5-Max’가 2025년 1월 29일에 발표됐어요. 알리바바는 이 모델이 GPT-4o, 딥시크-V3, 라마(LLaMA)-3.1-405B를 거의 모든 영역에서 능가한다고 주장했죠.
-
규모와 데이터: 20조 토큰 이상으로 사전 훈련된 대규모 언어 모델이에요. 방대한 데이터 덕분에 일반 지식, 다국어 처리, 코드 생성 등 범용적인 작업에서 강점을 보인다고 해요.
-
성능: 공개된 벤치마크에 따르면, 수학(Math-500), 코드 생성(LiveCodeBench), 다국어 이해(MMLU)에서 경쟁 모델들과 비슷하거나 약간 우위에 있다고 주장돼요. 하지만 추론(Reasoning) 특화 모델은 아니어서, 복잡한 논리적 문제 해결에서는 다소 약하다는 평가도 있어요.
-
비교: 딥시크-V3(6,710억 파라미터)와 비교하면, 큐원은 파라미터 수는 공개되지 않았지만 범용 지식 모델로 설계된 만큼 추론보다는 지식 기반 태스크에 더 강점이 있어 보입니다.
2. 마누스(Manus) AI 성능 분석
마누스는 중국 스타트업 모니카(Monica)에서 2025년 3월 초에 발표한 AI 에이전트로, ‘제2의 딥시크’로 불리며 주목받고 있어요. 단순 챗봇을 넘어 자율적으로 작업을 수행하는 AI 비서라는 점이 특징이에요.
-
자율성: 마누스는 인간의 지시를 기다리지 않고 스스로 작업을 시작하고, 상황에 따라 접근 방식을 조정할 수 있어요. 예를 들어, 소셜 미디어를 스크랩해 전기를 작성하고 웹사이트를 코딩한 사례가 화제가 됐죠(3월 10일 포브스 보도 참고)
-
성능: GAIA 벤치마크 테스트에서 오픈AI를 능가하는 성능(SOTA, State-of-the-Art)을 기록했다고 회사 측이 밝혔어요. 이는 범용인공지능(AGI) 수준의 작업 처리 능력을 시사해요. 다만, 구체적인 수치나 타 모델과의 상세 비교는 아직 공개된 게 많지 않아요.
-
특화: 딥시크나 큐원 같은 언어 모델과 달리, 마누스는 ‘행동 중심’ AI로 설계됐어요. 단순히 텍스트 생성을 넘어 실질적인 결과물을 만들어내는 데 초점이 맞춰져 있죠.
3. 딥시크(DeepSeek)와의 비교 및 검증
딥시크는 V3와 R1 시리즈로 유명한데, 특히 R1은 추론 특화 모델로 오픈AI의 o1과 경쟁하며 화제가 됐어요. 큐원과 마누스가 딥시크를 뛰어넘는지 검증하려면 기준을 명확히 해야겠죠. 제가 세운 기준은 추론 능력, 범용성, 비용 효율성이에요.
-
추론 능력 (Reasoning):
-
딥시크 R1: Math-500에서 90.2점, AIME 등 수학/코드 벤치마크에서 뛰어난 성능을 보여요. 강화학습(RL)으로 체인 오브 소트(Chain-of-Thought)와 자기 검증 능력을 갖췄죠.
-
큐원: 추론보다는 범용 지식에 강점이 있어요. Math-500 같은 테스트에서 딥시크 R1을 넘는다고 보기는 어렵고, 오히려 GPT-4o 수준에 근접한다고 볼 수 있겠네요.
-
마누스: GAIA 벤치마크에서 오픈AI를 넘었다는 주장이 있지만, 이는 작업 수행 능력에 초점이 맞춰진 결과로 보입니다. 수학이나 코드 같은 순수 추론 태스크에서의 성능은 아직 불명확해요. 딥시크 R1 수준을 넘었다고 단정하기엔 데이터가 부족해요.
-
-
범용성 (Versatility):
-
딥시크 V3: 6,710억 파라미터에 멀티모달(텍스트, 이미지, 음성) 기능까지 갖춰 범용성이 뛰어나요.
-
큐원: 20조 토큰 훈련으로 다국어, 코드, 일반 지식에서 강점을 보이며 딥시크 V3와 비슷하거나 약간 우위일 수 있어요.
-
마누스: 범용 언어 모델이라기보다는 자율 에이전트로 특화돼 있어요. 텍스트 생성보다는 작업 실행에 강점이 있으니 범용성 면에서는 딥시크나 큐원에 비해 제한적이에요.
-
-
비용 효율성:
-
딥시크: V3는 약 600만 달러로 개발됐고, R1은 오픈소스로 무료 제공돼 가성비의 대명사죠.
-
큐원: 알리바바의 자본력을 고려하면 개발 비용이 딥시크보다 높을 가능성이 크지만, API 비용은 공개되지 않았어요.
-
마누스: 현재 초대 사용자 중심으로 제한된 접근만 가능해서 비용 구조가 불명확해요. 딥시크처럼 무료 오픈소스가 아니니 단기적으로는 효율성에서 뒤질 수 있겠네요.
-
4. 결론: 딥시크를 뛰어넘었나?
-
큐원: 딥시크 V3와 비슷한 범용성을 갖췄지만, 추론 능력에서 R1을 넘는다고 보긴 어려워요. 특정 태스크(지식 기반 질문)에서는 우위를 점할 수 있지만, 전체적으로 ‘초월’했다고 단정하기엔 무리가 있어요.
-
마누스: 자율성이라는 새로운 영역에서 혁신적이지만, 딥시크 R1의 추론 능력이나 V3의 범용성을 직접적으로 넘었다고 보기는 힘들어요. '에이전트' 기능으로서 다른 Ai들에게 명령을 내릴 수 있다는 건 다른 차원의 AI로 봐야 할 것 같아요. 다만, 작업 수행 능력에서 딥시크를 앞설 가능성은 충분히 있어 보입니다.
5. 결론 : 이게 맞나?
마누스가 자율 AI 비서로 매력적이긴 하지만, 아직까지는 초대제로 일반인의 이용이 제한돼 있고, 윤리적/규제적 논란(자율 AI의 책임 문제 등)도 있으니 바로 사용하기엔 어렵죠.
그리고 여러 Ai를 동시에 이용하니 효율성도 높지만, 그 전에 윤리적인 규제가 필요할 것 같아요. Ai윤리에 위배되기 때문에 어떤식으로 상용화가 될지 그 쟁점도 중요한 부분이라고 생각됩니다.