메뉴 바로가기 본문 바로가기 하단 바로가기

KOBICian’s Story

프로필사진
[제46호] 달러 패권의 주요 사건과 시사점(3) - 중국몽은 유효한가?
  • 작성자 박강민 (KOBIC 선임기술원)
  • 작성일2025-03-21 20:34:48
  • 조회수140

지난 2개의 글을 통해 미국 달러화가 어떻게 전 세계에 널리 퍼지게 되었고 일본 경제와 엔화가 어떤 과정으로 달러 패권에 백기를 들게 됐는지 말씀드렸습니다. 마지막으로 위안화 이야기를 해보겠습니다. 2기 트럼프 행정부 출범이후 미국은 무역적자를 빌미로 전 세계에 관세 폭탄을 투하하고 있습니다. 그 표적의 중심에는 역시 중국이 있습니다.

<이미지 출처: 조선일보(https://www.chosun.com/economy/economy_general/2025/02/20/2YJIMYY4ZJCOHBL7LPMVBKRJXQ/)>

위 이미지는 뉴스기사에서 발췌한 2024년도 대미 무역흑자 국가 순위입니다. 역사는 반복됩니다. 미국은 중국에게 2의 플라자 합의를 요구할 수 있을지, 그리고 어떤 방향으로 판을 짜 갈지 궁금해집니다.

1편에서 네트워크 외부성 개념을 설명하면서 화폐가 국제적으로 통용되기 위한 몇몇 조건을 설명 드렸습니다. 중국몽(China Dream)을 아시나요? 이는 2012년 시진핑이 중국 최고 리더로 부임하면서 내세운 정치지도 개념입니다. 그 중심에는 위안화의 국제화가 있습니다. 하지만 중국은 일본의 사례와 1990년 중후반 아시아의 여러 나라들이 겪었던 외환위기 및 그 결과를 철저히 학습했습니다. 중국이 금융시장을 개방하지 않고 관리변동환율제를 고집하는 이유이지 않을까 싶습니다. 위안화의 국제화를 원하면서 금융시장은 개방하지 않는다니, 생각해 보면 조금은 모순적입니다.. 그렇다면 중국의 속셈은 무엇이었을까요.

먼저 일대일로(一帶一路) 프로젝트입니다. 이는 중국의 신()실크로드 전략으로 내륙과 해상의 경제벨트 구축을 의미합니다. 신중국 설립 100주년이 되는 2049년까지 현대판 실크로드를 재구축해 중국과 주변 국가의 경제·무역협력을 확대한다는 목적을 가지고 있습니다.

    

<이미지 출처: Economist(https://www.economist.com/special-report/2020/02/06/china-wants-to-put-itself-back-at-the-centre-of-the-world)>

쉽게 말해 내륙길(철도)과 해상길(항구)를 건설하는 대규모 인프라 사업을 벌이되 핵심은 이를 위안화로 지원한다는 것입니다. 그 구체적인 방안은 위안화 채권 발행과 통화 스왑(swap)의 두 가지입니다. 채권은 향후 중국에게 갚아야 하는 빚이 되는 것이고, 통화 스왑은 해당 국가의 통화와 위안화를 약정된 환율로 맞교환 하는 방식입니다. 금융시장 개방 없이 위안화를 중국 밖으로 내 보내는 방법이 이해가 되시나요? 2차 세계대전 이후 유럽 재건을 목적으로 하늘에서 달러를 뿌렸던 것과 유사한 방식입니다.

두 번째로는 페트로 위안화입니다. 중국은 미국이 장악하고 있는 석유 에너지 시스템을 벗어나고자 하는 동시에 위안화로 원유수입대금을 결제하기 위해 엄청난 노력을 기울이고 있습니다. 태양광, 풍력 등 석유대체 에너지원에 대한 기술개발 및 생산시설 투자를 늘리고 있으며 동시에 사우디아라비아, 러시아와 지속적으로 원유와 가스의 위안화 결제를 협의하고 있습니다. 사우디는 빈 살만, 러시아는 푸틴이라는 스트롱맨이 집권하고 있으니 가능성이 없는 이야기는 아닌 듯합니다. 최근 미국이 러시아-우크라이나 전쟁 종결에서 취하고 있는 입장은 이러한 맥락에서 이해한다면 납득이 갈 수도 있습니다.

달러 패권에 대한 위안화의 도전은 위기는 있었지만 아직 끝나지 않았습니다. 직접적인 통화 전략이 아닌 과학기술(, DeepSeek, KOBICian 45호), 외교 분야에서 지속적으로 방안을 찾고 있는 중입니다. 판을 흔들고 미국에 협상 카드로 쓸 수 있는 무언가가 나올 때 까지 계속되겠죠. 3개의 짧은 글을 통해 달러 패권과 일본 엔화, 중국 위안화의 도전에 대해서 알아보았습니다. 화폐로 주제를 정한 이유는 네트워크 외부성이라는 개념이 생명연구자원(데이터, 소재)에도 적용 될 수 있다는 아이디어 때문이었습니다. 그렇다면 앞으로 어떤 전략을 취해야 우리나라 생명연구자원이 글로벌 연구자들의 선택을 받을 수 있을까요? 우리가 내어주어야 할 것과 취할 수 있는 것이 무엇인지 깊이 있게 고민해야합니다. 다음 글에서는 이러한 고민들을 국가 정책으로 구체화하는 이야기를 해보고자 합니다. KOBIC은 현재 4차 국가생명연구자원 관리·활용 기본계획기획연구를 수행 중에 있습니다. 더 재밌는 이야기로 돌아오겠습니다.

 

 

KOBICian’s story는 KOBIC 멤버가 직접 작성하는 현장감 넘치는 글로서 KOBIC의 업무 방향이나 공식 입장과는 다를 수 있습니다.

다른 KOBICian’s Story 보기

KOBICian's Story Thumbnail

KOBIC에 입사한 지 어느덧 4개월여의 시간이 흘렀습니다. 짧다면 짧고, 또 길다면 길게 느껴지는 시간이었습니다. 이번 글에서는 최근까지 '등록 양식 고도화 작업'을 수행했던, 단일세포와 공간전사체 데이터에 관한 이야기를 나누고자 합니다. 

 

흔히 조직 수준의 평균적인 유전자 발현을 확인하는 bulk RNA-seq을 과일 셰이크에, 조직을 이루는 개별 세포 단위로 쪼개어 유전자 발현을 측정하는 단일세포 전사체 데이터를 개별 과일에 비교하곤 합니다. 그렇다면, 발현량에 세포나 조직의 위치 정보를 더해 조직 구조와 세포 상호작용을 이해할 수 있는 공간 전사체 데이터는 개별 식재료들을 정교하게 배치한 정찬이라고 볼 수 있을 것입니다. High-throughput sequencing(HTS) 기술은 어떻게 이러한 샘플의 복잡성을 반영하는 방향으로 발전할 수 있었을까요?

 

제가 처음 대학원 문을 두드리던 무렵에는 RNA-seq이 Microarray를 대체하고 주류 전사체 데이터 생산 기술로 자리매김하고 있었습니다. 이 데이터들에 익숙해질 무렵 단일세포 시퀀싱 기술로 생성된 전사체 데이터를 처음 접하고, 충격을 받았습니다. 여러 연구자가 경쟁하며 개별 연구에서 다루는 세포 수가 순식간에 백만 단위 규모로 폭발적으로 증가했죠. 그러나 시간이 지나며 세포 수라는 양적 가치에서 복합적인 정보들을 통합하는 질적 가치로 연구의 무게중심이 옮겨가는 흐름이 뚜렷해졌습니다. 여전히 많은 세포를 분석하는 연구는 계속되고 있지만, 이제는 여러 오믹스 기술과 공간 정보를 통합하여 개별 샘플로부터 더 풍부한 정보를 얻고, 이를 바탕으로 더 복잡한 생물학적 질문에 답하는 방향으로 연구가 진화하고 있습니다.  

 

이러한 변화를 지켜보며 자연스레 떠오른 개념이 '양질전화(量質轉化)'입니다. 양적 변화가 점진적으로 축적되다 보면 어느 순간 질적 변화가 일어난다는 철학적 개념인데, HTS 기술 발전에 따라 단일세포와 공간전사체 기술의 등장을 지켜보며 이러한 개념을 엿볼 수 있었습니다.  

 

HTS 기술이 성숙함에 따라 단순히 '더 많은 양'의 데이터를 생산한 것이 아닙니다. 단일 실험에서 수십억 개의 시퀀싱 read를 생산할 수 있게 되었고, 이는 단순한 양적 증가를 넘어 질적 변화를 가능하게 했습니다. 데이터 처리량의 규모가 특정 임계점을 넘어서자, 이전에는 불가능했던 패턴 인식과 통찰이 가능해진 것입니다. 세포 단위 정보를 식별하여 고해상도 데이터를 생산하거나, 공간 정보를 추가하여 기존의 유전자 발현 데이터에 새로운 맥락을 더하는 기술적 발전은 모두 시퀀싱 기술의 발전을 통해 점진적으로 증가한 생산량이 어느 수준에 도달하여 나타난 결과일 것입니다.

 

이렇게 생산된 단일세포와 공간전사체 데이터는 기존의 시퀀싱 데이터와는 상이한 특성들을 지닙니다. 세포 분리 방법, 세포 포집 효율, 이미징 정보 획득을 위한 조직 처리 과정 등 생산과정이 훨씬 복잡할 뿐만 아니라, 생성되는 데이터 자체도 세포 유형별 정보, 세포 간 상호작용, 공간적 분포 등 다층적인 정보를 포함합니다. 그동안 단일세포와 공간전사체 데이터가 국가 바이오 데이터 스테이션(K-BDS)에 등록되지 않은 것은 아니지만, 기존 양식으로는 데이터와 생산과정의 다양한 특성을 충분히 담아내지 못했기에 등록양식 고도화 작업이 필요했습니다. 

 

고도화를 통해 담아내고자 했던 것은 먼저 다양한 데이터의 형태였습니다. 과거에는 몇 가지 표준화된 형식으로 데이터를 관리할 수 있었지만, 이제는 다양한 플랫폼과 기술에서 생성된 데이터의 이질성이 더욱 커졌습니다. 다양한 단일세포 및 공간전사체 기술들은 기존의 KRA뿐 아니라 서로 간에도 다른 형식과 해상도의 데이터를 생성하지만, '단일세포' 또는 '공간전사체'라는 범주 내에서 이들 데이터의 등록이 간편하게 이루어질 수 있도록 했습니다.  

 

또한 메타데이터에 작성해야 할 항목들이 크게 늘어났습니다. 새로운 플랫폼과 기술에 따라 데이터를 해석하고 재현하기 위해서는 더 많은 실험 조건과 기술적 세부 사항이 기록되어야 합니다. 예를 들어, 단일세포 실험에서는 세포 분리 방법, 캡처 효율, 시퀀싱 깊이 등이, 공간전사체 실험에서는 조직 처리 방법, 섹션 두께 등 이미징 정보뿐 아니라 시퀀싱 정보와 산출된 이미지 정보를 연결하는 프로토콜 또한 중요한 메타데이터가 됩니다.  

 

특히 이번 등록 양식 고도화에서는 발현량 매트릭스뿐 아니라 사용자가 제출하는 분석 데이터의 주요 유형을 정의하고 이들이 유래한 샘플 정보와의 연계성을 검증하여 사용자들의 편의를 도모하고자 했습니다. 이는 현재 NCBI GEO나 EBI의 Biostudies를 비롯한 주요 데이터베이스에서도 제공하지 않는 기능이라, 활용성 증대를 통해 K-BDS의 경쟁력을 강화하는 데 도움이 될 것으로 기대합니다.  

 

시퀀싱 기술을 비롯한 바이오 데이터 생산 기술은 앞으로도 계속 발전할 것이며, 새로운 형태의 데이터들이 지속적으로 등장할 것입니다. K-BDS에서도 이러한 기술적 발전을 적시에 파악하고 반영하고자 노력하지만, 등록 양식의 고도화는 기술의 발전 속도를 따라가기 어려운 것이 현실입니다. 그럼에도 불구하고 이러한 노력은 필수적입니다. 새로운 기술로 생산된 데이터는 그에 맞는 메타데이터 없이 제대로 사용하기 어렵고, 충분한 부가 정보 없이 등록된 데이터는 추후 활용 가치가 크게 떨어지기 때문입니다. 그렇기 때문에 이번에 고도화될 단일세포와 공간전사체 데이터 등록양식이 오래도록 유용함을 잃지 않고 연구자들의 데이터 등록에 사용될 수 있기를 바랍니다.

  • 작성자백부경
  • 작성일2025-03-31
  • 조회수155
KOBICian's Story Thumbnail

202412월 중국에서 개발되어 발표된 DeepSeek-V3, 그리고 뒤이어 올해 1월에 발표된 증류모델 DeepSeek-R1는 딥러닝 기반의 인공지능 분야에 큰 충격을 주고 있습니다. 이전 서비스들에 비해서 너무나 싼 개발·구축 비용, 그리고 MIT 라이센스, 즉 오픈소스라서 사용자가 직접 설치하여 활용할 수 있기 때문입니다. 그럼에도 불구하고 그 성능은 GPT 서비스 등과 유사하다고 하니 놀라운 따름입니다.

DeepSeek는 헤지펀드 회사의 CEO이면서, 동시에 인공지능 연구회사(회사이름도 DeepSeek)의 창립자인 량원펑이 만들었습니다. DeepSeek-V3와 함께 발표된 기술 문서에 따르면 GPT-4o등 기존 LLM 모델에 비해서 벤치마킹 성능이 전혀 부족하지 않으면서도 모델 학습을 위해 사용한 비용은 557만 달러에 불과했다고 합니다(실제 인프라 구축 비용은 아니며, 모델 학습 시간동안 GPU를 빌린다고 가정할 때 드는 비용-실제 모델학습에 사용된 H800 GPU2,048개 이며, GPU 1개를 사용한다고 가정할 때 총 2788천 시간이 소요되었고, H800 GPU 1개당 1시간 빌릴 때 비용 2달러로 계산). 통상적으로 수천억 원 이상의 비용을 들여 엄청난 연산 자원을 구축해야만 고성능의 AI 서비스를 개발할 수 있다고 믿었던 고정관념을 깨뜨리는 계기가 되었습니다.

<DeepSeek-V3와 유사 모델의 성능비교, https://github.com/deepseek-ai/DeepSeek-V3>

 

그렇다면 DeepSeek는 어떤 방법으로 비용을 획기적으로 줄이면서 비슷한 성능을 낼 수 있었을까요? 결론부터 말씀드리면 인공지능 분야에서 수십 년 이상 연구 되어온 다양한 기법의 총망라로 가능하였으며, 엄밀하게 말해서 그 성능도 GPT-4o와 거의 동일하지만 추론 능력이 더욱 뛰어난 GPT-o1보다는 부족한 부분이 있는 것 같습니다.

LLM 모델이나 딥러닝의 상세 설계를 하는 연구자가 아니라면, 사실 어떻게 DeepSeek가 비용을 줄이는지 별로 궁금하게 여기지 않을 것 같으니 이 글에서는 간단하게 다음의 표로 대신하겠습니다.

<DeepSeek의 저비용 고성능 개발 방법>

방법

설명

부동소수점 8비트(FP8) 연산사용

전통적인 LLM 모델에서 가중치 계산을 위해 사용하는 부동소수점 32비트 혹은 16비트 연산 대신 8비트 연산을 사용하여 낮은 가격의 H800을 사용하더라도 가중치 연산 성능은 비슷함 (8비트에 대한 연산 성능은 H100H800이 동일)

CoT (Chain of Thought)/추론

곧바로 답을 찾는 것이 아니라 답을 찾기 위해서 여러 과정으로 나누어서 단계별로 접근하면 성능이 향상됨

MoE(Mixture of Experts)

큰 규모의 범용 모델을 만들기보다는 여러 개의 전문가 그룹으로 나누어서 결과를 취합하면 적은 비용으로 비슷한 성능 구현이 가능함

강화학습, Agent/SFT

(Supervised Fine Tuning)

모델 학습 진행과 수정을 관리 감독하는 agent가 인간 피드백이나 평가지표의 측정을 통해서 모델을 조금씩 인위적으로 수정하면서 최적화하여 성능향상

증류(Distillation)

노드수와 파라미터 수가 많은 딥러닝 모델을 통해 미리 학습한 후 핵심 네트워크만 추려서 노드수와 파라미터 수를 줄임으로써 일정 수준의 성능은 보장하면서 딥러닝 모델을 실행할 수 있는 인프라 환경을 축소하는 기술

동시 연산-정보교환

통상적인 CUDA기반 모델은 데이터 이동시간은 GPU가 아무 일도 하지 못하지만 알고리즘 변형을 통해 정보교환과 연산이 동시에 가능하게 수정

CUDA/Assembly 레벨 최적화

CUDA 코딩의 최적화 및 Assembly언어 레벨의 코딩을 통해 성능 최적화

최적 모델 성과평가 개발

GRPO(Group Relative Policy Optimization)의 개발을 통해서 모델 학습 시 성과를 잘 평가하고 반영

 

위 방법 중에서 CoT(Chain of Thought)/추론과 관련하여 2022년에 발표된 흥미로운 연구 결과가 있습니다(“Large Language Models are Zero-Shot Reasoners”). 이에 따르면 어떤 수학문제에 대한 정답률이 17.7%LLM 모델(Large InstructGPT)에게 차근차근 생각해 봐라고 한마디 더 지시하면 정답률이 78.7%까지 높아진다는 것입니다. 통상적으로 일반적인 LLM 모델은 학습된 모델을 통해서 한번에 답을 찾으려 하지만, 이런 식으로 명령을 하게 되면 검토과정을 거치거나 추론 단계를 자체적으로 거쳐서 더 나은 결과를 가져올 수 있다는 것입니다. DeepSeek에서는 이러한 추론과정을 아예 강제함으로써 성능을 향상 시킬 수 있었을 것으로 생각됩니다.

기술문서에서는 통상적인 벤치마킹 결과 DeepSeek의 성능이 유수의 기존 서비스들과 유사하다고 하였습니다. 하지만 조금 어려운 추리문제 등에서는 GPT-o1보다 정답률이 떨어진다는 보고도 있습니다. 사실 GPT-o1은 작년 수능의 국어와 수학 문제를 풀 때 거의 만점을 받는다고 하니, GPT-4o보다 개선된 부분이 많은 것 같기도 합니다.

DeepSeek는 현재 무료로 사용 가능하지만, 보안 등의 이슈로 정부기관이나 공공공기관 등에서는 접속이 제한됩니다. 아쉽게도 휴대폰용 앱 역시 우리나라에서는 현재 다운로드가 되지 않습니다. 만약 업무에 활용하고자 한다면, 로컬에서 직접 설치하는 방법을 추천드립니다. LLM모델을 로컬에서 실행하게 해주는 Ollama를 설치한 후, ollama프롬프트에서 간단한 명령어로 모델 선택하여 다운로드 및 설치가 가능합니다. 윈도우, , 리눅스 환경 모두 가능합니다. 파라미터의 개수가 가장 많은 DeepSeek-R1버전은 고성능 GPU128GB 이상의 메모리가 탑재된 고사양 컴퓨터가 필요하며, 증류 버전인 DeepSeek-R1-Distill-Qwen-1.5B은 일반적인 GPU 카드를 탑재한 PC에서도 충분히 실행이 가능합니다. 한글 사용을 고려한다면, 32B이상의 버전을 사용하는 것이 좋습니다.

DeepSeek의 발표로 인공지능서비스의 연구방향은 두 갈래로 나누어지고 있는 것 같습니다. 하나는 기존 LLM 모델이 추구하는 “Scaling은 계속된다입니다. GPU의 처리속도가 점점 더 빨라짐에 따라, 더 많은 파라미터와 학습 데이터를 투입하여 고성능의 범용 인공지능 서비스를 개발하려는 움직임입니다. 다른 하나는 DeepSeek로 인해 가속화되는 “on premise” 또는 더 나아가 “on device”입니다. 개별 PC에서도 설치가 가능한 현재 버전의 DeepSeek만 잘 활용한다면, 이제는 특정 연구분야의 데이터만을 학습시킨 소규모 자체 인공지능 서비스를 제공할 수 있는 시기가 된 것 같습니다. 이와 함께 데이터의 중요성은 점점 더 커지고 있습니다. 지금까지 공개된 LLM 모델인 Llama3, Qwen, DeepSeek-R1 등도 어떤 학습 데이터로 어떻게 학습 시켰는지는 전혀 공개하지 않고 있습니다. 프로그램 코드는 공개하더라도 데이터는 공개하지 않는다는 것을 볼 때 어떤 데이터로 모델을 학습시키는가가 더 핵심적인 부분이란 생각도 듭니다.

  • 작성자김판규
  • 작성일2025-03-14
  • 조회수253
KOBICian's Story Thumbnail

최근 생명정보 분야의 데이터를 다루다 보니, 또 다른 고민이 생겼다. 바로 인체유래물, 즉 인간 유전체 데이터의 공개에 대한 문제이다. 연구자의 시선에서 데이터를 분석하는 것과 별개로, 이 데이터가 사회적으로 민감한 이슈를 유발할 수 있다는 점을 새삼 깨닫고 있다. 이 부분에 대해서 이야기를 시작하면 정말 재밌는 토론거리가 되겠지만 오늘은 데이터 공개의 측면에서 평소 들었던 생각들을 간단히 이야기해보고 싶다.

 

공개비공개라는 두 단어는 어쩌면 KOBIC에서 가장 자주 언급되는 단어 중 하나일 것이다. 데이터 보안과 관련한 이슈는 피할 수 없는 현실이 되었고, 개인정보 보호에 대한 사회적 관심과 제도적 장치는 점점 더 정교해지고 있다. 기본적으로 개인정보로 간주되는 정보는 함부로 공개해서는 안될 보호 대상이며, 각 개인은 개인정보 수집·이용(및 제3자 제공) 동의서에 서명함으로써 자신의 정보를 개인이나 기관이 특정 목적으로 활용할 수 있도록 허용한다. 하지만 이는 후속 연구들을 위한 데이터 공유의 장애물이 되기도 한다.

 

그렇다면 서두에 이야기했듯이 유전체 데이터를 왜 보호해야 하는가라는 단순한 의문점부터 짚어볼 필요가 있다. 한 개인의 혈액이나 세포에서 얻어진 유전체 데이터를 살펴보자. 대략적으로 사람 한 명 당 30억개의 염기서열이 존재하고, 그중 약 400만 개 단일염기정보가 세계 표준과 다르다고 가정할 때, 한국인 집단 내에서는 임의의 두 사람을 선택했을 때 60%가 유사하므로, 160만 개의 단일 염기변이는 한국인 안에서 두 사람을 구분짓는 정보가 된다. 따라서 이 160만 개의 변이는 개인정보로 간주할 수 있으며, 이에 대한 염기서열 정보는 개인의 동의 없이 공개해서는 안된다는 논리가 적용된다. 이렇게 단순한 계산 수치만 보더라도 비공개 데이터가 되어야 하는 근거는 충분했으리라 본다.

 

이제 이 데이터를 바라보는 다른 관점을 생각해보자. 첫째로 이러한 데이터로 만들어진 논문을 제공하는 저널들의 입장이다. A 연구자 또는 연구팀이 논문을 제출하면, 연구 결과는 제3자인 연구자가 접근할 수 있게 된다. 이를 통해 또 다른 B 연구자가 해당 논문을 참고하여 후속 연구를 진행할 수도 있을 것이다. 하지만 B 연구자는 A 연구자의 연구 결과를 100% 신뢰할까? 그렇지 않을 가능성이 높다. 직접 실험하거나 데이터를 분석해보기 전까지는 오히려 의심부터 할지도 모른다. 이러한 이유로 저널은 A 연구자에게 몇 가지 요구를 하게 된다. 그중 제일 우선은 데이터(특히 raw data) 공유이다. 연구 결과의 재현성을 높이기 위해 원본 데이터를 공개하는 것이 점점 더 중요한 요소로 자리 잡고 있는 것이다. 그러나 앞서 언급한 유전체 데이터처럼 개인정보와 직결된 연구의 경우, 데이터를 어느 수준까지 공개해야 하는지에 대한 논의가 필요하다. 연구의 투명성과 신뢰성을 보장하면서도 개인정보 보호를 충족하는 균형점을 찾는 것이 중요한 과제가 된다. 이 문제를 해결하기 위해 일부 저널과 연구기관에서는 가명화된 데이터 공유, 제한적 접근(controlled access)을 통한 데이터 제공 등의 대안을 마련하고 있다. 연구자가 직접 데이터를 공유하기 어려운 경우, 공신력 있는 데이터베이스를 활용하는 방안도 고려될 수 있다. 예를 들어, 국제적으로 인정받는 INSDC 등에 소속된 기관들이 이러한 역할을 수행하고 있고, 최근 NIH에서는 더욱 강화된 데이터 관리 및 공유(Data Management and Sharing, DMS) 정책을 통해 연구 성과의 투명성과 접근성을 높이고 있다.

 

연구자 입장에서 보면 어떨까? 연구자는 논문에서 데이터를 저장한 위치를 명시함으로써 연구의 신뢰성을 높일 수 있다. 결국, 논문을 완성하고 이를 공유하는 과정은 단순한 연구 발표가 아닌, 학문적 신뢰와 사회적 책임 사이에서 균형을 맞추는 과정이라 할 수 있다. 하지만 다소 이기적이지만 논문을 작성할 때에는 일단 연구내용에 초점을 두는 게 우선이라, 분석 결과가 나오기 전에는 데이터를 어디에 등록할지 미리 정해 두지는 않는다. 막상 투고시점이 되어 오면 저널 에디터의 요구대로 어디든 저장하여 출판되기만을 바라고 있지 않을까.

 

실제로 최근 논문 한편을 꽤 긴 시간 끝에 마무리 지은 일이 있다. 한국인의 long read 기반 유전체 데이터를 통하여 지놈 지도를 만들고 구조변이들을 규명하는 연구였는데(PMID: 39778865), 내용도 중요했지만 심의가 시작되기도 전에 저널 측에서는 데이터 공개를 요구하였고, 단순한 개인 임의의 저장소는 허용하지 않았다.(물론 모든 저널이 그렇다고는 볼수 없다). 최근 저널에서는 보통 아래와 같은 생물학데이터 저장소를 제시하고 있으며, 해당 DB 사이트에 자료를 등록한 뒤 접근 번호를 발급받아 논문에 실어야 한다.

 

Data types

Sites

Proteomics data and Protein sequences

can be deposited in Uniprot or PRIDE

DNA and RNA sequences

can be deposited in any INSDC member repository

Genetic polymorphisms

can be deposited in dbSNP, dbVar, clinVAR or European Variation Archive (EVA)

Linked genotype and phenotype data

can be deposited in dbGAP or The European Genome-phenome Archive (EGA)

Macromolecular structure

can be deposited in the Worldwide Protein Data Bank (wwPDB), the Biological Magnetic Resonance Data Bank (BMRB) or Electron Microscopy Data Bank (EMDB)

Gene expression data

can be deposited in Gene Expression Omnibus (GEO) or ArrayExpress

Crystallographic data for small molecules

can be deposited in Crystallography Open Database (COD)

 

각 사이트들은 대부분 잘 만들어져 있지만 운이 나쁘면 논문 투고 시에 데이터 업로드에만 한 달 이상이 걸리는 경우도 있다. 실제 이번 논문에서 사용한 유전체 데이터는 비공개 원칙을 준수하면서도 저널의 공개 요구에 부응하기 위하여 KOBIC에서 운영하는 K-BDS를 저장소로 택하였다. 데이터공개 저장위치를 묻는 저널 측의 질문에 대한 우리의 답변은 “The Korean HiFi long-read sequencing datasets produced in this study are deposited in the Korea BioData Station (K-BDS) (https://kbds.re.kr/; accession number KAP220172 and KAP241043). However, the data underlying this article cannot be shared publicly due to Korea Bioethics and Safety Act. The data will be shared on reasonable request to the corresponding author ...” 으로, 다소 구구절절하지만 저널 측에서는 납득하고 받아들여 주었다.

 

위에서 언급한 경험 하나만으로 연구 데이터 공유 상황을 모두 설명할 수는 없지만, 중요한 것은 연구 데이터를 올바르게 저장하고 공유하는 것이 연구의 신뢰성과 투명성을 높여서 오픈 사이언스에 기여하는 필수 요건이라는 점은 의심의 여지가 없다. 그러나 앞서 말했듯이 각 데이터 저장소는 필요에 따라 공개 및 비공개 기능을 전부 갖추고 있어야 하며, 대부분의 경우 비공개 데이터는 사용을 원하는 연구자가 별도의 절차를 거쳐 요구해야 한다. 연구 발전을 위해 데이터 공유가 필수적인 요소임은 분명하지만, 개인정보 보호법과 생명윤리법 준수를 고려하여 데이터의 올바른 저장소 선택과 그 사용에 관한 신중한 접근이 더욱 중요한 시대가 되었다. 이러한 균형을 맞추기 위해 연구자는 K-BDS와 같은 신뢰할 수 있는 데이터 저장소를 적극적으로 활용하고, 데이터 공유 정책을 지속적으로 고려하는 것이 필요하다.

  • 작성자조수복
  • 작성일2025-03-10
  • 조회수266
TOP