안녕하세요. 사업하는 철학자입니다.
중국이 개발한 인공 지능 딥시크 이야기로 떠들썩한데요.
딥시크는 R1이 여러 AI 모델 테스트에서 작년 9월 출시한 오픈 AI의 ‘o1′(오원)을 능가했다고 주장하는 한편,
이 딥시크에 대해 경제와 사회 여러 측면에서 다양한 대안을 마련하고 있습니다.
그럼에도, 딥시크는 미국의 대중국 제재로 인해
최신 GPU를 사용할 수 없는 상황에서 이뤄낸 혁신적인 성과라고 평가받고 있습니다.
이로인해, 사용자의 의도를 파악해서 자율적으로 생각하고 행동하는 인공지능인 에이전틱 AI(Agentic AI)로의 전환이 가속화되고,
휴머노이드 로봇과 같은 물리적 AI(피지컬 ai)의 상용화가 예상보다 빨리 실현될 가능성이 높아진다고 예상되고 있습니다.
오늘은 딥시크에 대해 알아보고, 그 유용성과 위험성을 생각해 볼게요.
딥시크: 회사명이자 언어 모델 제품
DeepSeek(深度求索, shēndùqiúsuǒ)는
중국의 헤지펀드 회사 환팡퀀트(幻方量化) 소속 인공지능 연구 기업의 이름이자 동명 회사에서 개발한
오픈 웨이트(Open-Weights) 언어 모델 제품군의 모델명입니다.
딥시크는 2025년 1월 20일, 오픈 소스 AI 모델 '딥시크-R1'을 출시했고
딥시크는 구글, 페이스북 모회사 메타플랫폼 같은 미국 AI 업체들이 쓰는 것보다 훨씬 적은 비용인 600만 달러(한화 88억 가량) 미만의 비용으로
단 두 달 만에 개발했다고 주장해 간밤 뉴욕 증시에서 엔비디아 등 AI 관련주 폭락을 주도했습니다.
창업자 량원펑: 15년도 환팡퀀트 공동 창립, 23년 딥시크 창립
회사 창업자는 량원펑(梁文锋, 1985년생)으로,
15년부터 환팡퀀트 CEO이며, 23년부터 딥시크 CEO입니다.
초등학교 교사 부부 사이에서 태어난 량원펑은
17세에 중국 공학 명문인 저장대(절강대)에 입학해 정보전자공학 학사와 석사 학위를 취득했습니다.
대학 친구들과 인공지능(AI)을 사용해서 주식 투자를 자동화하는 방법을 연구했으며,
해당 경험을 바탕으로 2015년,
중국 본토에서 가장 큰 양적 헤지펀드 중 하나를 관리하기 위해 AI를 활용하는 환팡퀀트(幻方量化, 영문명 High-Flyer Quant, 宁波幻方量化投资管理合伙企业(有限合伙), 닝보 환팡퀀트 투자 관리 동업회사)의 총 3명의 공동 창립자(co-founder) 중 한 명이 되었습니다.
량원펑이 설립한 환팡퀀트는 운용 자산 규모가
2016년 10억 위안(한화 2000억 원)에서 2019년 100억 위안(한화 2조 원) 이상으로 4년간 10배 이상 증가한 바 있습니다.
*深度求索:
깊이를 의미하는 深度(shēndù)와 탐색을 의미하는 求索(qiúsuǒ)의 합성어입니다.
*퀀트:
퀀트는 기본적으로 영어 단어의 뜻대로 ‘양적인’, ‘정량적인’ 행위 등을 뜻하나, 여러 가지 뜻을 지닌 다의어이다.
이런 뜻대로 금융 업계에서는 통계학과 수학에 기반하여 정량적인 전략을 짜는 행위를 퀀트투자라고 일컫는다.
*오픈 웨이트:
DeepSeek측에서는 소스 코드, 디자인 문서, 또는 제품의 내용을 사용할 권한이 포함된 오픈 소스(open source)로 홍보한다.
하지만, 학습 데이터를 공개하지 않고 가중치(weights)만 공개한다.
따라서, 오픈 소스 이니셔티브(OSI, Open Source Initiative)에서 제시한 오픈 소스의 정의를 충족하지 않는다.
이런 모델은 통상 오픈 웨이트 모델이라고 분류되는데,
비슷한 방식으로 가중치만 공개한 메타의 LLaMA(Large Language Model Meta AI)가 자기들을 오픈 소스 언어 모델이라고 홍보하는 바람에 요즘 마케팅적인 관점에서는 이렇게 가중치만 공개하는 경우에도 오픈 소스라고 부르기도 한다.
*언어 모델(LM, Language Model):
언어 모델은 입력값(자연어, 보통은 사용자의 문장)을 기반으로
통계학적으로 가장 적절한 출력값을 출력하도록 학습된 모델이다.
언어 모델 구조는 크게 통계학 기반과 인공신경망 기반으로 구분된다.
현시점에서는 후자가 더 대중적으로 쓰인다.
인공신경망 중에서도 비지도학습 방식의 트랜스포머(Transformer) 아키텍처(Architecture)를 기반으로 알고리즘이 구현되어 있다.
(*트랜스포머(Transformer)는 구글 브레인 연구진이 2017년에 발표한 인공지능 신경망이다.)
텍스트(자연어: 사람들이 쓰는 언어, 자연적으로 발생한 언어), 이미지(2차원), 포인트 클라우드(3차원), 오디오 등
여러 포맷의 대규모 데이터셋을 모아서 토큰화시키고 멀티모달을 구축하여 학습시키면, 파운데이션 모델이 구축된다.
(*멀티모달(Multi Modal)은 다양한 유형의 데이터를 함께 활용하는 것을 뜻한다.
멀티모달 AI는 인공지능 시스템을 구축하는 접근 방식으로,
텍스트, 이미지, 오디오, 비디오 등 다양한 데이터를 함께 고려하여 학습 및 처리한다.)
(*파운데이션 모델(foundation model)은 광범위한 사용 사례에 적용할 수 있도록 광범위한 데이터에 대해 훈련된 기계 학습 또는 딥 러닝모델이다. 파운데이션 모델은 인공지능(AI)을 변화시켜 ChatGPT와 같은 탁월한 생성형 AI 애플리케이션을 지원한다.
스탠퍼드 인간 중심 인공 지능 연구소(HAI)의 파운데이션 모델 연구 센터(CRFM)가 이 용어를 만들고 대중화했다.)
이후 분야별로 별도의 파인튜닝을 거친 뒤 프롬프트를 입력하면
추론을 통해 여러 종류의 출력을 지원하는 생성형 인공지능 서비스를 만들 수 있게 된다.
모델 개발사는 본인이 서비스를 직접 구축하는 방법 외에도 서드파티 개발사에 API를 지원하여 수익을 창출할 수 있다.
(*파인튜닝(Fine-tuning)은 딥 러닝에서 사전 훈련된 모델의 가중치가 새로운 데이터에 대해 훈련되는 전이학습에 대한 접근 방식이다.
파인 튜닝은 전체 신경망에서 수행될 수도 있고, 해당 레이어의 하위 집합에서만 수행될 수도 있다.)
(*애플리케이션 프로그래밍 인터페이스(API, application programming interface, 응용 프로그램 프로그래밍 인터페이스)는 소프트웨어 애플리케이션 간에 데이터, 기능, 특징을 교환할 수 있도록 하는 규칙이나 프로토콜이다.
일종의 소프트웨어 인터페이스이며 다른 종류의 소프트웨어에 서비스를 제공한다.)
언어모델은 2023년 ChatGPT의 성공으로 인하여 큰 인기를 얻은 바 있으며,
산업계뿐만 아니라 학계에서도 가장 화두가 되고 있는 분야이다.
규모가 작은 언어 모델은 SLM(small Language Models)이라 하고,
규모가 커다란 언어모델(LM)을 대규모 언어모델(LLM, Large Language Models)이라고 부른다.
매개변수 규모가 막대한, GPT-4 같은 모델들이 이에 해당한다.
LLM의 경우는 주로 메인프레임, 슈퍼컴퓨터에서 돌아가고,
SLM은 워크스테이션, 심지어는 일부 고성능 PC에서 실행된다.
딥시크 구성원과 그 이력에 대해서 더 궁금하다면, 다음 기사를 참고하세요.
딥시크 주역 53명 추적해 보니… 베이징대·MS 인턴 ‘AI 인재’ 자급자족
https://www.khan.co.kr/article/202502041648001
[단독]딥시크 주역 53명 추적해보니…베이징대·MS 인턴 ‘AI 인재’ 자급자족 [딥시크 충격①]
“1998년 전후 출생자. 5년 이하의 경력. 과학·공학에 능통한 인재.” 중국 정보기술(IT) 헤드헌터가 현지 매체에 전한, 인공지능(AI) 스타트업 딥시크가 원하는 인재상이다. 딥시크가 저렴한 비용
www.khan.co.kr
딥시크 유용성: 성능과 저비용 개발, 저렴한 가격
2025년 1월 20일 출시한 오픈 소스 AI 모델 '딥시크-R1'은
일부 성능 테스트에서 OpenAI 챗GPT가 2024년 9월 출시한 추론 AI 모델을 앞선다는 평가를 받고 있습니다.
AIME 2024(79.8%), MATH-500(92.3%), MMLU(89.8%) 등 대부분의 AI 모델 평가 플랫폼에서
오픈AI 모델과 유사하거나 더 나은 성능을 보여주고 있으며,
DeepSeek-R1은 supervised fine-tuning 기법을 건너뛰고,
'혼합 전문가' 방식과 FP8(8비트 부동소수점) 기술을 도입하고,
강화학습(Reinforcement Learning)에 집중해 뛰어난 추론 성능을 얻어낼 수 있음을 증명했다는 높은 평가를 받았습니다.
특히, OpenAI o1 모델과 비교하여 수학, 영어, 코딩 부문에 있어 경쟁할 수 있는 수준의 성능을 갖추면서도,
학습과 추론 비용을 획기적으로 절감해,
개발비는 기존 V3보다도 적은 558만달러(약 78억원)를 사용했다고 알려졌습니다.
토큰당 비용을 기존 모델 대비 30-50배 저렴한 0.10-1.10달러로 책정해,
최대 95%까지 더 저렴한 가격으로 제공하고 있습니다.
딥시크는 기존 AI 모델들이 10만개의 GPU를 사용한 것과 달리
약 2,000여개의 엔비디아의 저렴한 AI 칩인 H800칩(GPU)만으로도 뛰어난 성능을 구현했습니다.
최신 AI 모델에 대한 보고서에서 딥시크에 따르면,
엔비디아의 ‘H800 그래픽처리장치(GPU)’를 시간당 2달러에 2개월 동안 빌린 비용을 계산한 것으로
557만6000달러(약 81억3000만원)의 비용이 들었다고 밝혔습니다.
이 때문에 딥시크가 AI 개발 비용 구조를 근본적으로 변화시키고 있다고 평가 받습니다.
기존 대규모 범용 모델에서 벗어나 특정 산업이나 목적에 맞춘 도메인 특화 모델 개발이 증가할 전망이며,
이에 따라, AMD, Intel, ASIC 등 중저가 칩 공급업체들에게 새로운 기회가 열리고 있으며,
HBM과 클라우드 분야에서의 협력 가능성도 커지고 있습니다.
특히, AI 특화 칩 개발 투자가 확대되면서 NPU(신경망 처리 장치) 및 PIM(Processing-in-Memory) 등
AI 최적화 반도체 개발이 가속화될 것으로 예상됩니다.
딥시크 R1에 앞서, 2024년 12월에 발표된 DeepSeek-V3 모델은
서구권에서 개발된 LLM 모델과 경쟁할 수 있을 정도의 성능을 보여 많은 주목을 받았습니다.
특히, OpenAI 같은 기존의 선두 그룹들은 조 단위의 천문학적인 자금을 AI 개발에 투입하는 상황에서,
V3를 개발하는 데 있어 557만 6000달러(약 81억 원)이라는 적은 비용이 들었다는 사실이 알려지면서,
학습에 필요한 자금을 축소하여 발표한 것이 아니냐는 의혹이 제기되었는데요.
학습 방법을 공개한 논문을 발표했고,
홍콩대 연구진이 비교적 적은 비용으로 논문의 결과가 재현된다고 확인하여,
학습 비용을 속이는 게 불가능하다는 의견도 있습니다.
그러나, R1이 공개된 후,
25년 2월 1일(현지 시각) 미국 경제 매체 CNBC 방송에 따르면
반도체 연구 및 컨설팅 업체인 세미애널리시스는
“AI 모델을 개발하기 위해 수많은 실험과 새로운 아키텍처 개발, 데이터 수집, 직원 급여 등 다양한 비용이 발생하기 때문에, (중략)
연구개발(R&D) 비용과 운영 및 유지보수에도 상당한 비용이 들어가고
AI 모델 훈련을 위한 ‘합성 데이터(synthetic data)’ 생성에도 엄청난 컴퓨팅 자원이 필요하다”라고 지적하며,
딥시크의 AI 모델 개발에 필요한 AI 모델 구동에 필요한 AI 칩, 서버 비용 등 하드웨어 지출이
“현재까지 투입된 비용만 5억 달러(약 7300억원)를 훨씬 웃돌 것”이라고 추정했습니다.
이는 딥시크가 당초 주장한 총 훈련 비용의 약 90배에 달하는데요.
딥시크의 R1 모델이 매우 우수하며,
이 정도의 논리적 추론 능력에 빠르게 도달한 것은 객관적으로 인상적
그러면서도, 결론적으로는 딥시크가 가장 최근 내놓은 추론 모델인 R1을 인정하고 있습니다.
[참고: https://zdnet.co.kr/view/?no=20250205152321, https://biz.chosun.com/international/international_general/2025/02/02/EZRD2556ZRGDBOGPKBRQW2Q7PE/]
딥시크 위험성: 데이터 도용 의혹과 세계적인 사용 금지 처분
창업자가
"전 세계에AGI(인간과 비슷한 수준의 지능을 가진 인공 일반 지능, Artificial General Intelligence)를 오픈 소스로 제공하는 것이 목표"라고 밝힌 만큼,
실제로 DeepSeek에서 개발된 각종 모델들과 관련 논문들은 오픈 소스로 배포되고 있습니다.
OpenAI가 정작 이름과는 달리, 모든 모델을 클로즈드 소스로 서비스하고있는 만큼
중국의 DeepSeek야말로 어떤 의미에서는 진정한 "Open" AI라는 평가도 나오고 있는데요.
그러나,
오픈AI와 마이크로소프트는 딥시크의 데이터 도용 의혹을 조사하고 있으며,
미 해군과 텍사스 주는 딥시크 사용 금지 명령을 내렸습니다.
이용자 기기 정보와 IP, 키보드 입력(타이핑) 패턴 등을 광범위하게 수집해
중국 서버에 저장하는 문제가 있다
그간 딥시크는 AI 학습 과정에서 이용자의 정보를 지나치게 많이 수집한다는 지적을 받아왔습니다.
이에 대응해 중국은 3,340억 위안(약 66조 5천억원) 규모의 반도체 산업 '빅 펀드' 3기를 추진하고 있습니다.
그러나,
이는 단지 미국만으로 그치지 않고 있는데요.
호주와 일본, 대만 등은 정부 소유 기기에서의 딥시크 사용을 금지했고,
이탈리아는 앱 시장에서 전면 차단했습니다.
딥시크 이용을 금지하는 움직임은 세계 각국으로 퍼지고 있으며,
우리 정부 또한 제한하고 있습니다.
행정안전부, 산업통상자원부, 외교부, 국방부가 중국 인공지능 '딥시크'의 이용을 차단하기로 했습니다.
행정안전부는 2월 3일,
"챗GPT, 딥시크 등에 대해 보안상 우려가 지속되고 있으니 충분한 검증 없이 활용하지 않도록 유의하라"라며
중앙부처와 17개 광역지방자치단체에 생성형 AI 사용에 유의하라는 공문을 보냈고,
각 부처 자체 판단 결과, 업무망에서 외부 접속이 가능한 컴퓨터의 딥시크 접근을 한시적으로 제한했습니다.
정부 부처 차원에서 첫 제한 조치로서,
외교·통상·안보 분야의 정보 유출 우려로 내린 결정으로 여겨집니다.
지난 1월 31일,
개인정보보호위원회는 중국 딥시크 본사에
개인정보 수집 항목과 절차, 처리 및 보관 방법 등의 확인을 요청하는 질의서를 보내기도 했습니다.
답변서에 따라 개인정보 유출 위험성을 판단하고, 불법적인 부분에 대해서는 개선을 요청한다는 입장을 밝혔습니다.
딥시크 '금지령'은 민간 영역에서도 내려졌습니다.
오픈AI와 손을 잡은
카카오, 그리고 LG유플러스 등 주요 IT 기업들은 사내에서 업무 목적의 딥시크 사용을 금지했습니다.
네이버는 기존 사내 가이드라인에 따라 딥시크를 업무용으로 활용할 수 없도록 했습니다.
한국수력원자력과 한전KPS도 국내 공공분야 처음으로 사내 업무용 컴퓨터 등에서 제한 조처를 취했습니다.
트럼프 정부의 스타게이트 프로젝트는 2025년부터 4년간 총 5,000억 달러(약 670조 원)를 투입해
데이터센터와 AI 반도체 인프라를 구축하려 하고 있습니다.
AI 기반 사이버 방어 시스템 및 군용 드론 기술 강화, 범용 인공지능(AGI) 개발이 핵심 목표인데요.
이를 위해, 오픈AI, 소프트뱅크, 오라클, 아부다비 국영펀드 MGX가 참여하며 마이크로소프트(MS)가 기술 지원을 담당하는
텍사스 애빌린의 AI 데이터 센터 건설에만 1,000억 달러를 투자할 예정이라고 합니다.
그러나 딥시크의 등장으로
고비용 인프라 투자 대신, 알고리즘 효율화 방향으로의 전략 전환 압력이 증가하고 있습니다.
결론: 장기적 안전을 위해 당장은 사용 제한
앱·리테일 분석 서비스 와이즈앱·리테일에 따르면,
1월 4주 차, 딥시크 국내 사용자 수는 121만 명으로 챗GPT(493만 명)에 이어 2위를 기록했습니다.
하지만 국내외에서 개인정보 유출 우려가 나오고 있으며,
5일 국내 정부기관과 기업들도 사용 제한에 나섰습니다.
딥시크의 개인정보보호정책의 수집 정보 공개 범위가 불분명하고,
다른 AI에서는 수집하지 않는 추가 정보인 타이핑 패턴을 수집하는 등 우려스러운 점이 발견됐기 때문입니다.
현재 미국은 생성형 AI(GPT-4), 양자 컴퓨팅, 바이오 분야에서 우위를 점하고 있는 반면,
중국은 5G와 초고속 컴퓨팅 분야에서 강세를 보이고 있습니다.
이러한 상황에서, 24년 5월 25일 발효된
유럽연합의 개인정보보호법인 GDPR(일반정보보호 규정(General Data Protection Regulation) 강화로 인한
기술 블록화가 심화되고 있으며,
유럽, 일본, 한국 등과의 기술 협력이 새로운 변수로 떠오르고 있습니다.
우리나라도 로봇과 ai에 뒤쳐지지 않기 위한
정부와 민간의 재빠른 움직임이 필요하겠습니다.
인문학도 필요하지만, 과학 기술의 혁신은 참 대단합니다.
'사회' 카테고리의 다른 글
한국어 바로하기: 한자 교육 필요성 (0) | 2025.02.26 |
---|---|
노인 생존권, 노동권에 대한 사회적 규제의 적합성 판단 (3) | 2025.02.20 |
경기도 지역상담소과 그 실효성 여부 (1) | 2024.11.22 |
중국 비자 면제-일방적 조처와 일대일로 사상 (12) | 2024.11.08 |
한복(韩服)과 기모노(吳服)에 대한 중국적 태도 (11) | 2024.10.24 |
기후위기와 그 대응 (16) | 2024.10.20 |
오은영 선생님: 과연 출산율에 독일까 (10) | 2024.10.15 |
공동체주의와 사이퍼펑크 (17) | 2024.10.13 |