본문 바로가기
카테고리 없음

AI 스스로 배우고 더 똑똑해지는 성장하는 '딥시크-GRM'

by 컴사마 2025. 4. 26.

인공지능이 스스로 배우고 성장합니다! 차세대 언어모델의 패러다임을 바꿀 '딥시크-GRM' 기술을 소개합니다.

안녕하세요! 우리가 매일 사용하는 스마트폰 앱이나 인터넷 검색, 그리고 점점 더 똑똑해지는 인공지능(AI) 챗봇 뒤에는 아주 복잡한 기술들이 숨어 있습니다. 특히 AI가 사람처럼 글을 쓰고, 대화하고, 복잡한 문제를 이해하는 능력은 '거대 언어 모델(Large Language Model, LLM)'이라는 최첨단 기술 덕분입니다. 구글의 제미나이, 오픈AI의 GPT 시리즈, 메타의 라마 등이 바로 이런 거대 언어 모델들입니다.

 

이런 AI 모델들은 마치 어린아이가 배우듯이 아주 많은 양의 데이터(글, 그림, 소리 등)를 보고 학습하면서 똑똑해집니다. 그런데 AI를 더 똑똑하게 만들려면 학습 과정에서 '이건 잘했어', '저건 틀렸어' 하고 알려주는 피드백이 꼭 필요합니다. 지금까지는 대부분 사람이 직접 AI의 결과물을 평가하고 피드백을 주는 방식으로 AI를 학습시켰습니다.

 

하지만 최근 중국의 AI 스타트업 '딥시크(DeepSeek)'가 정말 놀라운 기술을 개발했습니다! 바로 인공지능 모델 스스로가 자신의 성능을 평가하고 개선하는 기술입니다. 마치 AI가 스스로 공부하고 자신을 가르치는 선생님이 되는 것과 같습니다. 이 신기술은 '딥시크-GRM(DeepSeek-GRM)'이라는 이름으로 공개되었습니다.

 

딥시크가 발표한 이 혁신적인 기술이 무엇이고, 어떤 의미를 가지며, 앞으로 AI 기술의 미래를 어떻게 바꿀 수 있을지 쉽고 자세하게 알아보겠습니다.


딥시크-GRM, 무엇이 그렇게 특별한가요?

딥시크-GRM 기술의 가장 핵심적인 특징은 바로 AI 모델이 '스스로' 학습하고 개선한다는 점입니다. 기존의 AI 학습 방식과 비교했을 때 몇 가지 중요한 차이가 있습니다.

  1. 사람의 피드백 없이 스스로 평가하고 개선합니다:
    기존에는 AI가 응답을 만들면 사람이 보고 '이건 좋아', '이건 나빠' 하고 평가해서 AI에게 알려줬습니다. AI는 이 피드백을 바탕으로 다음에 더 좋은 응답을 만들려고 노력했습니다. 하지만 딥시크-GRM은 다릅니다. AI가 스스로 '좋은 응답은 이런 것이야' 하는 기준(원칙)을 만들거나 학습하고, 자신이 만든 응답이 그 기준에 얼마나 맞는지 스스로 평가합니다. 그리고 잘했다고 판단되면 스스로에게 '보상'을 주고, 더 나은 응답을 만들기 위해 자신을 조정합니다. 이 방식은 '자가 원칙 기반 비평 조정(Self-Principled Critique Tuning, SPCT)'이라고 불립니다. 사람의 수고를 크게 줄이면서 AI를 학습시킬 수 있게 된 것입니다.
  2. 적은 컴퓨터 성능으로도 뛰어난 능력을 발휘합니다:
    일반적으로 AI 모델의 성능을 높이려면 모델의 크기를 키우거나 아주 많은 양의 데이터를 학습시켜야 합니다. 이는 엄청나게 비싼 컴퓨터(연산 자원)와 많은 시간이 필요하다는 의미입니다. 하지만 딥시크의 연구 결과에 따르면, 딥시크-GRM은 모델이 스스로 학습하고 개선하는 효율적인 방식 덕분에 기존의 크고 강력한 AI 모델(GPT-4o, 제미나이, 라마 등)과 비교했을 때, 훨씬 적은 컴퓨터 성능(소규모 연산 환경)에서도 유사하거나 더 나은 성능을 보여주었다고 합니다. 이것은 AI 기술을 개발하고 사용하는 데 드는 비용을 크게 줄일 수 있다는 의미이며, 더 많은 기업이나 연구자들이 고성능 AI 기술에 접근할 수 있게 만들 수 있습니다.
  3. 복잡한 문제 해결(추론) 능력이 뛰어납니다:
    딥시크는 이 기술이 AI가 단순히 정보를 찾는 것을 넘어, 복잡한 상황을 이해하고 논리적으로 생각해서 문제를 해결하는 '추론 능력'을 높이는 데 도움이 된다고 밝혔습니다. 실제로 다른 주요 AI 모델들과 비교했을 때, 정답을 맞히는 것뿐만 아니라 왜 그렇게 생각했는지 설명하는 능력이나 사람이 원하는 내용을 얼마나 잘 이해했는지(인간 의도 적합성) 등 여러 면에서 뛰어난 성능을 보였다고 합니다.

딥시크-GRM은 어떻게 작동하나요?

딥시크가 개발한 이 '범용 보상 모델링(Generative Reward Modeling, GRM)' 시스템의 핵심은 앞서 말한 'SPCT(자가 원칙 기반 비평 조정)'입니다.

 

기존의 '보상 모델링(Reward Modeling)'은 사람이 '이 응답은 좋아, 저 응답은 나빠' 하고 점수를 매기거나 순위를 정해주면, AI는 그 평가를 받아서 다음 응답을 개선하는 방식이었습니다. (Stiennon et al., 2020 - 사람이 작성한 평가 데이터를 활용하는 강화 학습 관련 연구)

하지만 SPCT는 AI 모델 안에 '평가자' 역할을 하는 또 다른 시스템을 두는 것입니다. 이 평가 시스템은 미리 학습된 원칙이나 기준을 바탕으로, AI 모델이 새롭게 생성한 응답을 보고 스스로 '이 응답은 얼마나 좋은가?'를 판단합니다.

마치 자기 시험지를 자기가 채점하되, 채점 기준표는 이미 가지고 있는 것과 같습니다. 그리고 좋은 응답에는 긍정적인 신호(보상)를 줘서, AI 모델이 다음에 비슷한 상황에서 더 좋은 응답을 만들도록 유도하는 것입니다. (논문: "Inference-Time Scaling for Generalist Reward Modeling")

 

이 방식은 사람이 일일이 평가하는 것보다 훨씬 빠르고 자동적이며, 사람마다 평가 기준이 다를 수 있는 문제를 줄일 수 있습니다. 또한, AI 모델 스스로가 어떤 종류의 응답이 좋은지 기준을 만들어가는 과정 자체가 모델의 이해력과 추론 능력을 높이는 데 기여한다고 합니다.


기술적인 바탕: '전문가 혼합(Mixture of Experts, MoE)' 모델

딥시크-GRM 기술이 효율적으로 작동할 수 있는 기술적인 바탕에는 '전문가 혼합(Mixture of Experts, MoE)'이라는 모델 구조가 중요한 역할을 합니다.

 

일반적인 거대 언어 모델은 하나의 거대한 신경망으로 이루어져 있습니다. 하지만 MoE 모델은 여러 개의 작은 '전문가' 신경망들로 구성되어 있습니다. 어떤 질문이나 작업이 들어오면, 모델 안에 있는 '게이트(Gate)' 역할을 하는 부분이 그 질문에 가장 적합한 '전문가'를 선택하여 해당 부분만 작동시킵니다.

예를 들어, 질문이 과학에 관한 것이면 과학 전문가 모델을, 역사에 관한 것이면 역사 전문가 모델을 주로 사용하고, 두 분야가 섞인 질문에는 두 전문가를 모두 활용하는 식입니다. (Fedus et al., 2021 - MoE 모델 구조에 대한 연구)

 

이 MoE 구조는 모든 질문에 대해 모델 전체를 작동시키는 것보다 훨씬 효율적으로 컴퓨터 자원을 사용할 수 있게 합니다. 마치 모든 문제를 한 명의 만능 박사가 다 푸는 것보다, 문제 종류에 따라 가장 잘 아는 전문가에게 맡기는 것이 더 빠르고 효율적인 것과 같습니다. 딥시크-GRM이 적은 연산 자원으로도 뛰어난 성능을 낼 수 있는 이유 중 하나가 바로 이 MoE 구조를 활용했기 때문입니다. 최근 메타의 라마 4 모델 등 다른 최신 AI 모델들도 이 MoE 구조를 채택하고 있다고 합니다.


왜 이 기술이 '차세대 언어모델의 패러다임을 바꾼다'고 할까요? (기술의 의미)

'패러다임(Paradigm)'이란 어떤 분야에서 생각하거나 연구하는 기본적인 틀이나 방식을 말합니다. 딥시크-GRM이 패러다임을 바꿀 수 있다고 말하는 것은, 지금까지 AI를 학습시키는 기본적인 방식이나 AI 모델을 만드는 방향 자체가 바뀔 수 있다는 의미입니다.

  1. 학습 비용 절감: AI 모델을 학습시키는 데 드는 막대한 비용(컴퓨터 사용료, 사람의 평가 비용 등)을 크게 줄일 수 있습니다. 이는 AI 기술의 '접근성'을 높여서 더 많은 연구자나 기업들이 AI 개발에 뛰어들 수 있도록 만들 수 있습니다.
  2. 더 빠른 발전 가능성: AI 스스로가 끊임없이 자신을 평가하고 개선한다면, 사람의 개입 속도에 맞춰야 했던 기존 방식보다 훨씬 빠른 속도로 AI의 성능을 발전시킬 수 있습니다.
  3. 새로운 응용 분야: AI가 복잡한 추론이나 의사결정 과정을 스스로 평가하고 개선할 수 있다면, 사람의 복잡한 업무나 연구를 돕는 '생각하는 조력자'로서의 역할이 더욱 중요해질 것입니다. 예를 들어, 법률 문서를 분석하고 중요한 부분을 스스로 판단하거나, 새로운 과학 이론을 검토하고 개선 아이디어를 제시하는 등, 인간의 고차원적인 사고를 지원하는 데 활용될 수 있습니다.
  4. 오픈 소스 공개 계획: 딥시크는 이 딥시크-GRM 모델을 오픈 소스(Open Source)로 공개할 계획이라고 밝혔습니다. 오픈 소스는 프로그램의 설계도(코드)를 누구나 보고 자유롭게 사용하고 개선할 수 있도록 공개하는 것을 말합니다. 딥시크-GRM이 오픈 소스로 공개되면 전 세계의 수많은 개발자와 연구자들이 이 기술을 활용하여 또 다른 혁신을 만들어낼 수 있을 것입니다.

앞으로의 전망

딥시크가 이렇게 혁신적인 기술을 공개하면서, 글로벌 AI 시장의 경쟁은 더욱 치열해질 것으로 보입니다. 특히 적은 자원으로도 고성능 AI를 만들 수 있게 된다면, 자금력이 부족한 스타트업이나 연구기관들도 거대 기업들과 경쟁할 수 있는 기회가 생길 수 있습니다.

 

딥시크는 앞으로 이 기술을 바탕으로 더욱 발전된 새로운 모델(R2 등으로 예상됨)을 선보일 가능성이 높습니다. '스스로 배우고 성장하는 AI'는 아직 초기 단계의 기술이지만, 이번 딥시크-GRM의 등장은 AI가 단순히 '대답하는 기계'를 넘어 '진화하는 존재'가 될 수 있다는 가능성을 보여주며 AI 기술 발전의 새로운 문을 열었다고 평가받고 있습니다. 중국의 딥시크가 앞으로 글로벌 AI 기술 판도에서 어떤 중요한 역할을 할지 주목됩니다.


참고문헌

  1. DeepSeek AI. (2024). Inference-Time Scaling for Generalist Reward Modeling. arXiv preprint arXiv:2405.01951. (딥시크와 칭화대학교 공동 연구팀의 딥시크-GRM 기술 관련 논문 원본 https://arxiv.org/pdf/2504.02495)
  2. Stiennon, N., Ouyang, L., Wu, J., Ziegler, D., Lowe, R., Voss, J., ... & Christiano, P. F. (2020). Learning to summarize from human feedback. Advances in Neural Information Processing Systems, 33, 3001-3013. (사람의 피드백을 활용한 강화 학습, 즉 기존의 보상 모델링 방식과 관련된 대표적인 연구)
  3. Fedus, W., Zoph, B., & Shazeer, N. (2021). Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. arXiv preprint arXiv:2101.03961. (Mixture of Experts (MoE) 모델 구조 및 효율성에 대한 연구)