본문 바로가기
카테고리 없음

돌고래 언어를 탐구하는 AI, 구글 '돌핀젬마'

by 컴사마 2025. 4. 18.

 

안녕하세요!
혹시 드넓은 바닷속을 자유롭게 유영하는 돌고래와 대화하는 상상을 해보신 적 있나요? 오랫동안 인류의 상상력을 자극해 온 이 꿈같은 이야기가, 인공지능(AI) 기술의 발전과 함께 조금씩 현실로 다가오고 있습니다.

최근 구글이 '국제 돌고래의 날'을 맞아 공개한 AI 모델, '돌핀젬마(DolphinGemma)'는 바로 이 놀라운 가능성을 보여주는 최신 사례입니다. 돌고래의 복잡한 소리 패턴을 분석하고 이해하려는 시도로, 마치 우리가 외국어를 배우듯 AI가 돌고래의 '언어'를 학습하는 혁신적인 프로젝트인데요.

오늘은 구글의 돌핀젬마가 무엇인지, 어떻게 돌고래 언어 해독에 도전하는지, 그리고 이 연구가 우리에게 어떤 의미를 가지는지 학술적인 배경과 함께 쉽고 상세하게 파헤쳐 보겠습니다.


왜 돌고래 언어에 주목할까? - 지능 높은 해양 포유류의 비밀

돌고래는 오랫동안 인간의 지적 호기심을 자극해 온 특별한 동물입니다. 단순히 귀여운 외모 때문만이 아니라, 과학적으로도 높은 지능을 가진 것으로 알려져 있기 때문이죠.

  • 높은 지능과 사회성: 돌고래는 복잡한 사회 구조를 이루고 살아가며, 서로 협력하여 사냥하거나 문제를 해결합니다. 거울에 비친 자신의 모습을 인식하는 자아 인식 능력을 보여주기도 하고, 도구를 사용하거나 서로에게 새로운 기술을 가르치는 모습도 관찰되었습니다. (참고문헌 1) 이는 고등 인지 능력을 갖추고 있음을 시사합니다.
  • 정교한 의사소통 시스템: 돌고래는 매우 다양하고 복잡한 소리를 내어 서로 소통합니다. '클릭(Clicks)' 소리는 주로 주변 환경을 파악하고 먹이를 찾는 반향정위(Echolocation)에 사용되고, '휘파람(Whistles)' 소리는 개체를 식별하는 고유한 신호(Signature Whistle, 마치 이름처럼)나 사회적 상호작용에 사용되는 것으로 알려져 있습니다. 또한, 짧고 강한 '펄스 음(Burst pulses)'은 감정 표현이나 공격성 등 다양한 사회적 맥락에서 사용됩니다. (참고문헌 2)
  • '언어'의 가능성?: 이처럼 정교한 소리 체계 때문에 과학자들은 돌고래가 단순한 신호 전달을 넘어, 인간의 언어와 유사한 구조나 의미 체계를 가지고 있을 가능성에 대해 오랫동안 연구해 왔습니다. 만약 돌고래에게 '언어'가 있다면, 이는 그들만의 '문화'가 존재할 가능성까지 시사하는 중요한 단서가 됩니다. (참고문헌 3)

하지만 돌고래의 소리는 인간의 가청 범위를 넘어서는 고주파 음을 포함하고 있고, 물속이라는 환경적 제약과 함께 그 패턴이 매우 복잡하여 해독하기가 극도로 어려웠습니다. 수십 년간의 연구에도 불구하고, 우리는 여전히 돌고래 소리의 극히 일부만을 이해하고 있을 뿐입니다. 이것이 바로 AI 기술, 특히 대규모 데이터 패턴 분석에 능한 최신 AI 모델에 기대를 거는 이유입니다.



꿈을 향한 협력: 구글, WDP, 조지아 공대의 만남

돌핀젬마 프로젝트는 단순히 구글 혼자만의 노력이 아닙니다. 각기 다른 전문성을 가진 세 기관의 긴밀한 협력을 통해 이루어졌습니다.

  1. 야생 돌고래 프로젝트 (Wild Dolphin Project, WDP): 1985년부터 데니스 허징(Denise Herzing) 박사가 이끌며 세계에서 가장 오랫동안 야생 대서양 점박이돌고래(Atlantic spotted dolphins)를 연구해 온 비영리 단체입니다. WDP는 무려 40년에 가까운 시간 동안 축적한 방대한 양의 돌고래 소리 및 행동 데이터를 보유하고 있습니다. 이는 단순한 데이터가 아니라, 특정 소리가 어떤 행동이나 사회적 상호작용과 연관되는지에 대한 귀중한 맥락 정보까지 포함하고 있어 돌핀젬마 훈련의 핵심 기반이 되었습니다.
  2. 구글 (Google DeepMind): 최첨단 AI 기술, 특히 대형언어모델(LLM) 개발을 선도하는 구글 딥마인드는 이 프로젝트에 AI 모델링 전문성을 제공했습니다. 구글의 경량 모델인 '젬마(Gemma)'를 기반으로, 돌고래의 음향 데이터를 학습하고 분석할 수 있는 특화된 모델 '돌핀젬마'를 개발했습니다.
  3. 조지아 공과대학교 (Georgia Institute of Technology): 인터랙티브 컴퓨팅 스쿨 연구진들은 현장 연구를 위한 기술 개발에 기여했습니다. 특히, CHAT(Cetacean Hearing Augmentation Telemetry)라는 독특한 수중 컴퓨터 시스템을 개발하여 돌고래와의 상호작용 연구에 새로운 길을 열었습니다.

이 세 그룹의 만남은 '장기간의 생태 데이터', '최첨단 AI 기술', '현장 적용 기술'이라는 환상적인 조합을 만들어냈고, 돌핀젬마라는 구체적인 결과물로 이어졌습니다.

 

 


돌핀젬마란 무엇인가? - 돌고래 소리를 '이해'하려는 AI

그렇다면 돌핀젬마는 정확히 어떤 AI 모델일까요?

  • 경량화된 오디오 LLM: 돌핀젬마는 4억 개의 매개변수(parameter)를 가진 비교적 가벼운 AI 모델입니다. 이는 구글의 '젬마(Gemma)' 모델 아키텍처를 기반으로, 특별히 돌고래의 음향 데이터를 처리하도록 설계되었습니다.
  • LLM의 원리 적용: 우리가 사용하는 챗GPT와 같은 LLM은 방대한 텍스트 데이터를 학습하여 문맥 속에서 다음에 올 단어를 예측합니다. 돌핀젬마는 이 원리를 오디오 데이터에 적용합니다. 즉, WDP가 제공한 방대한 돌고래 소리 데이터베이스를 학습하여, 특정 돌고래 소리 시퀀스(sequence)가 주어졌을 때 그 다음에 이어질 가능성이 높은 소리를 예측하도록 훈련되었습니다.
  • 패턴 및 구조 학습: 이 예측 과정을 통해 돌핀젬마는 단순히 소리를 흉내 내는 것을 넘어, 돌고래 발성 안에 숨겨진 복잡한 패턴, 구조, 그리고 잠재적인 문법이나 의미 단위를 학습하고 이해하려는 시도를 합니다. 인간 연구자가 놓칠 수 있는 미묘한 소리의 변화나 반복되는 패턴을 AI가 발견해낼 수 있다는 기대감이 있습니다.
  • 토큰화(Tokenization): 사람의 언어를 처리할 때 문장을 단어나 하위 단어 단위(토큰)로 나누는 것처럼, 돌핀젬마는 연속적인 돌고래 소리를 의미 있는 음향 단위(토큰)로 분할하여 처리합니다. 이는 복잡한 소리 데이터를 AI가 효과적으로 학습하고 분석할 수 있도록 돕는 중요한 과정입니다.
  • 실시간 분석 지원: 돌핀젬마의 중요한 특징 중 하나는 모바일 기기에서도 구동될 수 있도록 경량화되었다는 점입니다. 덕분에 WDP 연구원들은 방수 처리된 구글 픽셀 스마트폰에 돌핀젬마를 탑재하여 수중에서도 실시간으로 돌고래 소리를 분석할 수 있게 되었습니다. 이는 현장 연구의 효율성을 극대화하고, 소리와 행동 간의 연관성을 즉각적으로 파악하는 데 큰 도움을 줍니다.

즉, 돌핀젬마는 LLM 기술을 활용하여 돌고래 소리의 '문법'이나 '의미 구조'를 파악하려는 시도이며, 현장 연구자들이 실시간으로 활용할 수 있는 강력한 분석 도구라고 할 수 있습니다.

 


AI와 함께 돌고래와 '대화'를 시도하다

돌핀젬마가 돌고래 소리를 '이해'하는 데 중점을 둔다면, 조지아 공대에서 개발한 CHAT(Cetacean Hearing Augmentation Telemetry) 시스템은 한 걸음 더 나아가 돌고래와 '소통'을 시도하는 흥미로운 장치입니다.

  • 수중 웨어러블 컴퓨터: CHAT은 연구원이 착용할 수 있는 수중 컴퓨터 시스템입니다. 핵심적인 기능은 미리 프로그램된 인공적인 돌고래 소리(휘파람 등)를 생성하고 재생하는 것입니다.
  • 소리-사물 연관 학습 유도: 연구원들은 CHAT 시스템을 활용하여 특정 '인공 휘파람 소리'와 특정 '물체(예: 스카프, 장난감, 사르가숨 해조류)'를 연관시키는 실험을 진행합니다. 예를 들어, 두 명의 연구원이 물속에서 스카프를 주고받으며 특정 인공 휘파람 소리를 반복적으로 들려줍니다.
  • 돌고래의 모방 및 요청 기대: 연구의 핵심 목표는 돌고래가 이 과정을 관찰하고, 특정 인공 휘파람 소리가 특정 물체를 의미한다는 것을 학습하는지, 그리고 더 나아가 돌고래 스스로 그 인공 휘파람 소리를 모방하여 원하는 물체를 '요청'하는지를 확인하는 것입니다.
  • 양방향 소통 가능성: CHAT 시스템은 인공 소리를 생성할 뿐만 아니라, 수중 마이크(하이드로폰)를 통해 돌고래가 내는 소리(자연음 또는 모방한 인공음)를 녹음하고 인식할 수 있습니다. 만약 돌고래가 특정 물체와 연관된 인공 휘파람 소리를 낸다면, CHAT 시스템은 이를 감지하여 연구원에게 알려줄 수 있습니다. 이는 인간과 돌고래 사이에 매우 기초적인 형태일지라도 '공통의 약속된 신호'를 통한 양방향 소통의 가능성을 탐색하는 시도입니다.
  • 상용 기기 활용 (픽셀 6 기반): 흥미롭게도 CHAT 시스템은 고가의 특수 제작 장비가 아니라 구글 픽셀 6 스마트폰을 기반으로 설계되었습니다. 이는 개발 및 유지보수의 용이성, 휴대성, 그리고 향후 픽셀 9 등 더 강력한 온디바이스 AI 처리 능력을 갖춘 기기로의 업그레이드 가능성까지 고려한 실용적인 선택입니다.

돌핀젬마가 돌고래의 자연적인 소리를 분석하여 그들의 '언어' 구조를 파악하려 한다면, CHAT은 인공적인 소리를 매개로 돌고래의 학습 능력과 의사소통 의도를 확인하려는 보완적인 연구라고 할 수 있습니다.

 

 


돌핀젬마가 열어갈 미래: 기대와 전망

구글 돌핀젬마와 관련 연구들은 이제 막 시작 단계이지만, 다음과 같은 흥미로운 가능성과 기대를 품게 합니다.

  1. 돌고래 인지 및 사회성 심층 이해: 돌고래 소리의 복잡한 패턴과 구조를 밝혀냄으로써, 그들의 사고방식, 사회적 관계, 그리고 잠재적인 문화적 특성까지 더 깊이 이해할 수 있는 실마리를 제공할 수 있습니다. 그들이 무엇에 대해 이야기하는지, 어떤 것을 중요하게 생각하는지 엿볼 수 있게 될지도 모릅니다.
  2. 동물 커뮤니케이션 연구의 혁신: 돌핀젬마와 같은 AI 모델은 돌고래뿐만 아니라 다른 고지능 동물의 복잡한 발성 패턴 분석에도 활용될 수 있습니다. 이는 동물 행동학 및 커뮤니케이션 연구 분야 전반에 걸쳐 AI를 활용한 새로운 연구 방법론을 제시하고 발견을 가속화할 수 있습니다. (참고문헌 4)
  3. 보존 노력에 기여: 돌고래의 소통 방식을 더 잘 이해하게 되면, 인간 활동(소음 공해 등)이 그들에게 미치는 영향을 더 정확히 파악하고, 효과적인 보호 및 보존 전략을 수립하는 데 기여할 수 있습니다.
  4. 종간 소통의 첫걸음?: 비록 아직 먼 이야기지만, 돌고래의 '언어'를 해독하고 심지어 그들과 소통할 수 있게 된다면, 이는 인류 역사상 다른 지적 생명체와의 소통이라는 오랜 꿈을 향한 중요한 첫걸음이 될 수 있습니다.
  5. 오픈 소스 공개의 의미: 구글이 몇 달 내 돌핀젬마를 오픈 소스로 공개할 계획이라고 밝힌 점도 중요합니다. 이는 전 세계의 더 많은 연구자들이 이 모델을 활용하여 각자의 돌고래 음향 데이터를 분석하고 연구를 확장할 수 있게 함으로써, 집단 지성을 통해 돌고래 언어 해독을 더욱 앞당길 수 있는 가능성을 열어줍니다.

물론, 넘어야 할 과제도 많습니다. 돌고래 소리가 '언어'의 모든 기준을 충족하는지 증명하는 것은 여전히 어려운 과제이며, AI 모델이 찾아낸 패턴이 실제 의미 있는 구조인지 해석하는 데에도 신중함이 요구됩니다. 또한, 야생 동물 연구에는 항상 윤리적인 고려가 뒤따라야 합니다.

 

 


AI, 바다의 언어를 듣다

구글의 돌핀젬마 프로젝트는 AI 기술이 단순히 인간의 언어를 넘어, 지구상의 다른 지능적인 생명체의 복잡한 소통 시스템을 이해하려는 대담하고 흥미로운 도전을 보여줍니다. 40년간 묵묵히 데이터를 쌓아온 연구자들의 헌신과 최첨단 AI 기술, 그리고 현장 적용을 위한 공학적 노력이 만나 새로운 가능성의 문을 열고 있습니다.

우리가 언젠가 돌고래와 진정으로 '대화'할 수 있는 날이 올지는 아직 알 수 없습니다. 하지만 돌핀젬마와 같은 AI 도구들은 우리가 그들의 세계를 더 깊이 이해하고, 그들의 목소리에 귀 기울일 수 있도록 돕는 강력한 현미경이자 번역기가 되어줄 것입니다.

 

 


참고자료 (References):

  1. Marino, L., Connor, R. C., Fordyce, R. E., Herman, L. M., Hof, P. R., Lefebvre, L., ... & Van der Gucht, E. (2007). Cetaceans have complex brains for complex cognition. PLoS biology, 5(5), e139. (돌고래의 뇌 구조와 높은 인지 능력 간의 관계 연구)
  2. Herzing, D. L. (2011). Dolphin communication and cognition: Past, present, and future. Acta Astronautica, 68(7-8), 971-978. (데니스 허징 박사의 돌고래 소통 및 인지 연구 개관)
  3. Tyack, P. L. (2000). Functional aspects of cetacean communication. In Cetacean societies: Field studies of dolphins and whales (pp. 110-133). University of Chicago Press. (고래류 소통의 기능적 측면에 대한 고전적 연구)
  4. Stowell, D. (2021). Computational bioacoustics with deep learning: a review and future directions. PeerJ, 9, e12096. (딥러닝을 활용한 계산 생물 음향학 연구 동향)
  5. Google AI Blog & DeepMind Blog (DolphinGemma 관련 공식 발표 자료 - Specific post URLs needed if available, otherwise cite the blogs generally)
  6. Wild Dolphin Project (WDP) Website & Publications (Relevant materials describing their long-term research)
  7. Georgia Tech Interactive Computing News/Publications (Regarding CHAT system development)
  8. DolphinGemma: How Google AI is helping decode dolphin communication https://www.youtube.com/watch?v=T8GdEVVvXyE
  9. Exploring Wild Dolphin Communication with C.H.A.T. (Cetacean Hearing Augmented Telemetry) https://www.youtube.com/watch?v=YhopeQKbpZA