챗GPT는 암 치료제를 개발할 수 있을까?

3월 23일, explained

간편한 도구를 넘어서는 인공지능이 출현하기 위해서는 데이터의 제도적, 기술적 빗장이 열려야 한다.

ⓒ일러스트: 김지연/북저널리즘
NOW THIS

수많은 프로그램에 ‘챗GPT’가 덧붙고 있다. 국내 AI 스타트업 ‘업스테이지’는 카카오톡 채널에서 사용 가능한 인공지능 챗봇 서비스 ‘아숙업(AskUp)’을 출시했고, 지난 3월 20일에는 ‘아숙업 비즈(AskUp Biz)’를 내놨다. ‘뤼튼 테크놀로지스’는 문장을 완성하는 인공지능을 만들고 있고, 미국 주요 기업의 절반이 AI 챗봇을 업무에 활용하기 위한 지침을 마련 중이라는 조사 결과가 나왔다. 확장 프로그램이 된 생성형 인공지능은 차세대 AI 시장의 정복자가 될 것으로 보인다.

WHY NOW

그런데, 이게 전부일까? 초거대 인공지능의 정보 조합과 생성 능력을 활용해 지식을 생산할 수는 없을까? 암의 치료법을 고민하는 생성형 인공지능이 출현할 수는 없을까? AI가 양질의 지식 데이터를 흡수하기 위해서는 빗장 속에 갇힌 학술 정보의 해방이 필요하다. 논문의 구조, 지식 정보 콘텐츠의 파일 형태, 저작권이라는 기존의 제도가 인공지능 시대에 맞춰 변해야 한다는 뜻이다. AI 시대의 지식 생산을 위해 오픈 액세스, 디지털 아카이빙을 고려해야 한다. 제도적 전환이 시급하다.

변호사 시험 상위 10퍼센트

지난 3월 15일, 오픈AI가 초대규모 인공지능 모델 ‘GPT-4’를 내놨다. GPT-4는 미국 변호사 시험에서 상위 10퍼센트의 성적을 기록할 정도로 똑똑하다. 이전 모델인 GPT-3의 성적이 하위 10퍼센트에 그쳤다는 걸 감안하면 엄청난 발전이다. 오픈AI는 “두 버전이 유사해 보일 수 있지만, 작업이 복잡해질수록 GPT-4가 더욱 안정적이고 창의적인 모습을 보일 것”이라며 자신했다.

간편한 도구, 인공지능

인공지능은 그 발전 속도만큼 빠르게 일상생활에 침투하고 있다. 계속해 화두가 되는 챗GPT가 대표적이다. 대한상공회의소가 지난달 전국 20~60대 성인을 대상으로 조사한 결과, 전체 응답자의 35.8퍼센트가 한 번 이상 챗GPT를 사용해 봤다고 답했다. 응답자 중 50.7퍼센트는 챗GPT의 유용한 기능으로 정보 검색 기능을 꼽았다. 대화를 통한 아이디어 습득, 대필과 작문 등에 사용한다는 응답이 그 뒤를 이었다. 기업들이 그를 바라보는 관점도 크게 다르지 않다. MS는 더 편리한 업무를 위해, 토스는 더 편리한 애플리케이션을 위해 인공지능을 도입하고 있다. 몇 차례의 번거로운 과정을 줄이는 것에 인공지능이 활용되는 셈이다.

중요한 건 데이터

챗GPT와 같은 생성형 인공지능은 무한에 가까운 데이터를 짧은 시간에 분류하고, 학습해 결과물을 내놓는다. 투입 데이터를 축적하기 위해 AI 모델은 인터넷에 공개된 정보를 크롤링한다. 그러나 현재 인공지능이 학습할 수 있는 인터넷의 정보는 인간이 생산한 정보의 극소수에 지나지 않는다. 단적인 예시로, AI는 인터넷에 공개된 유명인의 얼굴 이미지를 학습할 수 있지만, 42만 건 이상의 임상 실험을 거친 암 치료제에 대한 연구는 학습할 수 없다. 제목과 초록을 읽고 극히 일부의 정보를 학습하는 것에 그칠 뿐이다.

논문의 구조와 파일 형태

그렇다면 왜 인공지능은 생산된 모든 학술 데이터를 학습할 수 없을까? 논문의 구성, 파일 형태가 첫 번째 문턱이다. 과학·공학 논문에서 자주 쓰이는 그래프와 표, 사진과 같은 시각 자료는 인공지능 친화적인 자료가 아니다. 예컨대, 항암 치료를 통해 줄어든 암 세포를 보여 주는 MRI 결과 이미지는 인공지능에게 제한적인 정보만 전달한다. 챗 GPT에게 직접 물어본 결과, 답변은 다음과 같았다. “AI 언어 모델로서 간단한 시각 자료는 어느 정도 이해할 수 있습니다. 그러나 복잡한 그래프나 여러 유형의 데이터가 통합된 시각 자료의 경우, 이해가 어려울 수 있습니다.” 또한 대부분의 논문이 택하는 PDF라는 파일 형태도 문제다. PDF는 인쇄만을 염두에 둔 확장자다. 인공지능에게는 낯선 형태라는 뜻이다. 대부분의 논문이 취하는 2단 구성의 PDF 문서는 검색조차 쉽지 않다.

논문의 저작권

저작권 문제도 있다. 저자와 저널, 학술 정보 사이트까지 게시된 논문에 대한 저작권을 나눠 갖고 있다. 챗GPT는 “유료 사이트이거나 저작권 제한이 있는 과학 논문에는 직접 접근할 수 없다.”고 말했다. “저작권이 학술지에 대한 접근을 제한하고 있다”고 덧붙이기도 했다. 현재 모든 학술 출판물의 72퍼센트가 유료다. 학생과 연구자는 학교와 연구소가 맺은 계약을 통해 제한적으로 학술 정보 업체에 접근할 수 있지만, 그 테두리를 벗어난다면 사실상 논문을 쉽고 빠르게 읽는 건 사치에 가깝다. 일반 시민의 접근조차 어려운데, 인공지능이 접근하기 쉬울 리 없다.

구글의 실험

구글의 딥마인드는 2022년 7월, 양질의 데이터를 다량 투입했을 때 인공지능이 할 수 있는 일을 보여 줬다. 딥마인드가 개발한 AI 단백질 구조 예측 프로그램 ‘알파폴드(AlphaFold)’는 2억 개 이상의 단백질 구조를 예측했다. 지구상 알려진 거의 모든 단백질의 구조다. 과학자가 만든 데이터를 알파폴드가 학습하고, 알파폴드가 내놓은 결과물은 과학자들의 신약 개발로 이어진다. 알파폴드의 사례처럼, 과학계와 의료 현장 내부에서 생산되는 지식들이 GPT-4에 담긴다면 어떻게 될까? 임상 시험 자료에는 예방, 치료 방법, 진단, 추적, 유전, 역학, 삶의 질까지 질병에 관한 수많은 정보가 담겨 있다. 다만 하나의 임상 시험이 다루는 세부 주제와 지역적·언어적 한계로 인해 산발적인 정보로 남는다. AI가 암을 다룬 42만 건의 임상 시험 정보를 모두 학습한다면, 암 치료가 가능한 조건을 ‘생성’할 수 있다.

HTML과 오픈 액세스 운동

기술적·제도적 이유에서 인공지능은 인간 사회의 지식 중 상당 부분을 놓치고 있다. 인공지능이 이해할 수 있는 양질의 데이터를 생산하는 것, 그 첫걸음은 기존 제도에 갇힌 학술 데이터의 해방일지 모른다. 2001년 12월, 부다페스트에서 개최된 작은 모임에서 힌트를 얻을 수 있다. ‘BOAI(부다페스트 오픈 액세스 이니셔티브)’는 모든 학문 분야에서 산출된 학술 논문이 인터넷상에서 자유롭게 이용 가능해야 한다고 주장했다. 제도적으로는 오픈 액세스 운동을, 기술적으로는 HTML 형태의 지식 정보 텍스트를 생산하는 것이 필요하다. 학계에는 철저한 동료 평가와 리뷰를 통해 안전하고 알찬 학술장을 꾸려나가야 한다는 과제가 주어진다.

IT MATTERS

AI의 시대 앞에서 지금 정부가 해야 할 일은 명확하다. AI를 만드는 것보다 AI를 더 잘 활용할 수 있도록 데이터를 개방해야 한다. 이달 중, 과학기술정보통신부는 초거대 인공지능과 관련한 정책 방향을 제시하기로 계획했다. 이 발표에서 데이터 공개와 형태 변환 계획 등을 눈여겨볼 필요가 있다.

한편으로 우리는 지식의 속성을 물어야 한다. 지식은 공공재일까? 지난 3월 21일, 디지털 도서관을 운영하는 ‘인터넷 아카이브(Internet Archive)’와 대형 출판사는 구두 변론을 진행했다. 출판사는 책을 디지털 자료로 스캔하는 인터넷 아카이브의 행태가 불법적인 저작권 침해임을 말하고, 인터넷 아카이브는 시대적·사회적 배경에 상관없이 모두가 지식 정보에 접근할 수 있어야 한다고 말한다. 인공지능이 소용돌이처럼 모든 정보를 빨아들이는 시대다. 지식 정보를 둘러싼 법도 재고될 필요가 있지 않을까.

지식 정보의 생산과 전달 방식이 진화해야만 인공지능과 인간의 합작이 시너지를 낼 수 있다. 전통적인 형태의 물성만으로, 일부 연구자들에게만 열린 논문만으로, 과거의 법적 제도에 갇힌 채로 우리는 인공지능이 발휘할 수 있는 능력을 충분히 누릴 수 없다.
다음 이야기가 궁금하신가요?
프라임 멤버가 되시고 모든 콘텐츠를 무제한 이용하세요.
프라임 가입하기
추천 콘텐츠
Close