미디어의 미디어 9
10화

카카오 루빅스; 국내 최초 실시간 인공지능 뉴스 추천

국내 최초 실시간 인공지능 뉴스 추천


카카오 루빅스(RUBICS, Realtime User Behavior-based Interactive Content recommender System)는 이용자의 콘텐츠 소비 성향에 반응해 적절한 콘텐츠를 실시간 추천하는 인공지능 기술로, 2015년 카카오가 국내 최초로 개발했다.

루빅스 개발 전에는 에디터들이 다음뉴스 메인 화면에 기사를 직접 배치했다. 하지만 기사 양이 점점 늘면서 ‘기사 수만 개를 일일이 판단하고, 관심사가 다른 사용자가 같은 뉴스를 소비해도 될까’라는 의문을 갖게 됐다는 게 카카오의 설명이다. 다음뉴스에는 하루 3만여 건의 기사가 들어온다.

카카오는 모바일 시대에 맞는 뉴스 편집을 고민한 결과 ‘실시간 이용자 반응형 콘텐츠 추천 시스템’인 루빅스를 개발했다. 루빅스라는 이름에서 짐작할 수 있듯 나에게 맞는 뉴스 콘텐츠를 루빅스 큐브 돌리듯 보여 준다는 의미도 있다.

루빅스는 사용자가 관심을 가질 만한 콘텐츠를 자동으로 선별해 보여 준다. 사용자 개인의 콘텐츠 소비 성향과 사용자 집단의 특징을 종합해 판단한다. 루빅스는 사용자가 평소에 관심을 가지는 뉴스, 같은 성별과 비슷한 연령의 사람들이 많이 보는 뉴스, 상대적으로 오랜 시간을 들여 꼼꼼하게 읽는 뉴스, 관심을 가진 뉴스와 같은 주제의 뉴스 등 다양한 데이터를 활용해 콘텐츠를 추천한다.

이전에는 이런 데이터를 고려하지 않아 누구나 같은 뉴스 콘텐츠를 다음에서 접했지만, 루빅스 적용 후에는 이용자마다 첫 화면이 달라졌다. 가령 경제 기사를 즐겨 보는 30대 여성에게는 부동산 정책과 대출 금리 기사가, 스포츠 기사를 자주 보는 20대 남성에게는 영국 프리미어리그 경기 결과와 프로 농구 기사가 우선 추천된다.

루빅스의 뉴스 추천 과정은 크게 세 단계다. 다음뉴스의 콘텐츠는 클러스터링[1] 단계를 지나 문서 중복과 어뷰징(동일 기사 반복 전송)을 걸러 내고 루빅스풀에 들어간다. 이 과정을 거치고 나면 루빅스 시스템이 다음뉴스 첫 화면에 기사를 자동 배치한다. 인공지능 뉴스 추천 기술을 적용한 이후 다음뉴스 모바일 첫 화면의 클릭 수는 두 배 이상 늘었고, 하루 평균 방문자 수는 43퍼센트 증가했다.

다음뉴스가 모든 기사를 자동 배치하는 건 아니다. 대형 사고, 재난 재해, 기상 특보처럼 큰 뉴스는 전체 이용자에게 똑같이 배치된다.

루빅스를 개발한 루빅스TF팀은 PM, 뉴스 에디터, 응용분석 엔지니어로 이뤄져 있다. PM은 서비스를 기획하고, 에디터는 속보와 사건 사고, 스포츠 생중계 등 뉴스를 모니터링하고 루빅스 기본 풀을 관리한다. 엔지니어는 루빅스 알고리즘을 설계하고 실시간 반응을 측정한다.[2]

루빅스는 사용자의 기사 소비 패턴을 실시간으로 학습해 기사 노출 여부와 위치를 정한다. 루빅스 적용 후 내가 원하는 콘텐츠를 접할 기회가 많아졌다는 게 이용자의 전반적인 반응이다. 루빅스가 적용되면서 다음뉴스 첫 화면에 소개되는 기사의 종류도 다양해졌다. 이전에는 정치, 사회, 경제 기사가 주를 이뤘다면, 루빅스 도입 후에는 IT와 문화 기사 소비가 부쩍 늘었다.

2015년 6월 다음뉴스 모바일을 시작으로 카카오톡 채널에도 루빅스가 적용됐다. 카카오 브런치를 포함한 전문가 수준의 블로거와 각종 커뮤니티의 글도 조회 수 상위 목록에 이름을 올린다. 카카오는 루빅스 알고리즘 도입 후 전체 페이지뷰가 증가하고, 체류 시간과 소비 시간도 함께 올랐다고 밝혔다.

카카오 루빅스는 네이버의 ‘모두를 위한 AiRS 추천’과 종종 비교된다. 카카오에 이어 네이버는 2017년 3월 인공지능 기반 추천 알고리즘을 뉴스 영역에 도입했다. 2017년 7월에는 ‘경제M’, ‘연예’, ‘스포츠’, ‘연재와 칼럼’ 판 등으로 확대 적용했다.

네이버가 베타 서비스를 시작한 2017년 2월을 기준으로 삼아도 카카오에 비해서는 1년 8개월이나 늦은 출발이었다. 그럼에도 다음 모바일 뉴스에 대한 주목도는 높았다고 볼 수 없다. 네이버가 포털 뉴스 이용자 수 1위인 걸 감안하더라도[3] 카카오 루빅스는 시장에서 제대로 된 평가를 받지 못했다.

두 포털의 추천 서비스는 아직 불완전한 단계다. 네이버 공식 블로그에는 ‘에어스’ 서비스에 대한 불만을 제기한 댓글이 500개 가까이 달렸다. 이 서비스는 관심이 없는 뉴스를 추천하는 경우가 종종 있다. 다음뉴스의 ‘나를 위한 추천’ 코너에는 12시간이 지난 기사가 종종 걸려 있다. 이에 대해 카카오 측은 다음과 같이 설명한다.

“해당 영역은 최신 콘텐츠보다 관심사 중심으로 추천하기 위한 의도가 있다. 어떤 기사가 발행된 지 12시간이 지났다고 해서 추천해서 안 될 이유는 없다. 최신 기사 중심의 뉴스 구조를 조금이나마 탈피해 보기 위한 영역이다. 사실 관계가 중요한 이슈가 생겼을 때는 개인화 추천 대신 최신 중심으로 알고리즘을 바꿔 제공하기도 한다. 카카오는 네이버에 비해 약 3년 이상 추천 서비스를 먼저 시작했으며, 많이 읽는 글뿐 아니라 열독률이라는 지표를 개발해 꼼꼼히 읽은 기사까지 분석해 추천에 반영한다는 점에서 네이버와 크게 다르다.”

인공지능 기반 뉴스 추천 기술이 편리한 서비스라는 데에는 이견이 없지만, 정보 편향이나 언론사의 가치 판단이 침해되는 등 여러 부작용이 드러나고 있다. 이런 상황에서 뉴스를 대리 제공하는 포털은 언론의 역할을 더욱 강하게 요구받고 있다. 하지만 국내 양대 포털 기업은 스스로를 IT 기업이라 선을 그으며 책임을 피하고 있다.

2018년 5월 카카오는 다음 앱에 ‘추천’ 섹션을 추가했다. 여기에는 루빅스 대신 스마트 스피커 카카오 미니를 구동하는 ‘카카오i’가 적용됐다. ‘뉴스’ 섹션을 두 번째로 밀어낸 것으로 볼 때 ‘네이버 뉴스 댓글 조작 사건’ 이후 네이버가 “뉴스 편집을 더 이상 하지 않겠다”고 선언한 데에 따른, 포털 뉴스에 집중되는 관심을 분산하기 위한 조치로 보인다.

구글은 2018년 5월 연례 개발자 회의 ‘구글 I/O’에서 인공지능과 머신러닝 기술을 적용한 구글 뉴스를 공개했다. 구글의 뉴스 서비스는 카카오과 네이버의 뉴스 서비스에 비해 사용자 추천의 수준이 높다는 평가를 받는다. 구글 뉴스를 보면 국내 포털이 제공할 인공지능 추천 뉴스 서비스를 미리 내다볼 수 있다.

 

카카오 루빅스 TF팀 인터뷰; “슬롯머신 베팅 전략을 뉴스 서비스에 적용”


미국 마케팅 전문연구기관 마케팅프로프스(MarketingProfs)에 따르면 매일 생산되는 온라인 기사는 2017년 기준 200만 개가 넘는다. 저 많은 기사 중 내 입맛에 맞는 것만 고를 수 없을까. 뉴스 소비자라면 한번쯤 해봤을 고민이다. 내 취향을 고려해 지금 봐야 할 뉴스를 골라 주는 영리한 앱이 있다면 어떨까. 사람이 아닌 인공지능이 실시간 편집하는 뉴스 앱 말이다.

2015년 6월 카카오가 국내 최초의 인공지능 뉴스 추천 알고리즘 ‘루빅스’를 다음뉴스 모바일에 적용한 지 2년이 지난 2017년 7월, ‘열심히 읽은 기사’를 선별한 ‘꼼꼼히 본 뉴스’가 다음뉴스에 새로 적용됐다. 루빅스는 이용자의 뉴스 소비 패턴에 따라 뉴스의 노출과 배열을 효율적으로 결정하는 시스템이다.

앞서 2017년 3월에는 루빅스의 초기 알고리즘 개발 과정과 주요 내용을 담은 학술 논문이 발표됐다. 자사 주요 서비스의 알고리즘을 공개한 사례는 국내 인터넷 기업 중 카카오가 처음이다.

루빅스는 계속 진화한다. 축적된 데이터를 스스로 학습한다. 루빅스가 모바일 앱에 적용된 이후 뉴스 이용량이 늘고 제공되는 뉴스가 다양해졌다. 다음 첫 화면의 뉴스 개수는 평균 3.5배 늘었다. IT 과학 분야는 3.3배, 국제는 5.1배, 문화는 5.5배를 기록했다.

카카오는 2017년 5월 AI 추천 플랫폼 ‘토로스(TOROS)’를 공개하고 맞춤형 추천 시스템을 강화했다. 루빅스가 뉴스와 콘텐츠를 추천하는 시스템이라면, 토로스는 다음tv팟 영상을 시작으로 브런치와 카카오페이지에 주로 적용되는 시스템이다.

루빅스 시스템을 이끄는 성인재 루빅스 TF장, 문성원 루빅스 PM, 윤승재 커뮤니케이션팀 매니저를 카카오 판교 사옥에서 만났다.
성인재 루빅스 TF장(오른쪽)과 문성원 루빅스 PM
AI 뉴스 추천 시스템을 기획하면서 주로 고려한 점이 있다면.

과거 다음뉴스는 모든 사용자에게 같은 기사 20개를 제공했다. 화면의 제약 때문에 ‘버려지는’ 기사가 아까웠다. 루빅스 기획 초기 단계부터 모두가 같은 기사를 보는 걸 벗어나려 했다. 2014년 5월 다음과 카카오가 합병되고 루빅스 개발을 진지하게 논의했다.

루빅스 TF팀은 어떻게 구성되나?

루빅스 PM, 뉴스 에디터, 응용분석 엔지니어다. PM은 서비스 기획을 맡는다. 기술을 제외한 모든 부분을 챙긴다. 엔지니어는 루빅스의 뉴스 추천 알고리즘을 개발한다. 이용자 행동 데이터를 분석하고 새로운 뉴스 추천 방식을 적용한 알고리즘을 만든다.

2017년 ‘꼼꼼히 본 뉴스’ 섹션을 개설했다.

루빅스를 개발하면서 뉴스 클릭 수 등 ‘양적 성장’을 예상했다. 다만 시작 단계부터 질적 성장에 대한 고민이 있었다. 기존의 알고리즘에서는 이용자가 어떤 콘텐츠를 봤는지만 알 수 있었다. 하지만 얼마나 ‘열심히’ 봤는지는 알 수 없었다. 이걸 어떻게 해결할까 고민했고 2017년 7월 ‘꼼꼼히 본 뉴스’ 섹션을 개설하면서 문제를 일부 해결했다. 측정 기준은 체류 시간이지만, 단순히 해당 페이지에 머문 시간이 아닌 본문을 읽은 시간이다.

꼼꼼히 본 뉴스의 기준이 되는 ‘열독률 지수(Deep Reading Index·DRI)’를 설명해 달라.

본문 내 이미지의 개수와 글의 길이를 보면 평균 체류 시간이 나온다. 그런데 가령 그림이 두 개, 본문이 300자인 기사의 평균 체류 시간이 30초인데, 같은 조건의 특정 기사는 60초가 나왔다. 그렇다면 두 번째 기사의 본문 집중도가 높다고 판단한다. 그걸 지수화한 게 카카오가 자체 개발한 ‘열독률 지수’다. 글의 길이뿐 아니라 본문 내 이미지의 개수, 영상의 길이도 고려한다. 이 지수를 도입하고 본문 집중도가 높은 기사를 발굴하고 낚시성 기사를 걸러내는 효과를 얻었다.
DRI는 기대 체류 시간 대비 해당 콘텐츠 체류 시간의 상대적인 크기로 정의된다. ‘상대적인 체류 시간’을 통해 사용자의 본문 선호도를 측정한다. ‘기사를 봤다’는 개념을 클릭 후 얼마나 ‘열심히 읽었나’까지 확장한 것이다. DRI 도입 이후 기사당 평균 체류 시간이 8.07퍼센트, 1인당 평균 체류 시간이 18.85퍼센트 늘었다. 기존 CTR(Click-Through Rate, 콘텐츠 클릭률) 기반 추천보다 사용자들이 더 오래 머무르며 기사를 읽었다는 것을 확인할 수 있다.
2018년 2월에는 ‘더 보기’ 기능을 더했다. 뉴스 더 보기는 모바일 첫 화면에만 적용했다. 특정 기사를 보고 다시 메인 화면으로 돌아오면 더 볼만한 기사를 두 개 추천하는 기능이다.
 
열독률 지수가 높은 기사의 공통된 특징이 있​나?​​​​

연재, 단독, 기획 기사, 주요 이슈에 대한 심층 인터뷰, 주간지 콘텐츠가 꼼꼼히 본 뉴스 상위 목록에 오르는 경우가 많다. 분야는 국제, 정치, IT가 많은 편이다.

루빅스를 다음뉴스에 적용한 지 3년이 되어 간다. 성과를 자체 평가한다면.

2015년 6월 다음뉴스 모바일 서비스를 시작으로 연예, 스포츠, 콘텐츠가 포함된 미디어랩, 홈, 쿠킹, 스타일, 자동차+, 여행 맛집, 쇼핑, 1boon 등 섹션과 카카오톡 채널, 다음 TV탭에도 루빅스가 적용됐다. 2017년 4월 다음뉴스를 개편하면서 PC 영역에도 루빅스가 100퍼센트 적용됐다. 모바일은 루빅스 초기 단계부터 전면 도입했다.
가장 큰 성과는 루빅스 시스템이 자연스레 정착한 것이다. 이용자 반응을 다채롭게 알 수 있게 됐고 사용자가 뭘 원하는지 알게 됐다. 이용자들의 긍정적인 피드백이 있었기에 다양한 시도를 하며 계속 변화할 수 있었다.
 
루빅스 도입으로 뉴스 소비자의 수요를 세분화하게 됐다는 의미인가?

스포츠를 예로 들면 대부분의 이용자가 모든 종목에 골고루 관심을 두기보다는 야구, 해외 축구 등 특정 종목을 보는 경우가 많다. 루빅스를 적용하기 전에는 여러 종목을 추천했던 반면, 이제는 사용자의 취향을 고려한 종목별 큐레이션이 가능하다.
뉴스 소비 패턴을 분석한 결과, 읽은 뉴스를 다시 클릭하는 이용자는 극히 적다. 이미 접한 기사를 추천 화면에서 제외하고 새로운 뉴스로 대체함으로써 다양한 뉴스를 제공할 수 있었다. 루빅스에는 특정 이용자에게 여러 번 추천된 뉴스는 사용자의 클릭 여부와 상관없이 페널티를 부여하는 알고리즘이 내재돼 있다. 뉴스 서비스를 자주 사용하는 이용자에게만 적용된다.

내가 어떤 뉴스를 좋아하는지 루빅스가 어떻게 알 수 있나?

루빅스의 추천 방식에는 그룹 맞춤과 개인 맞춤이 있다. 그룹 맞춤은 같은 성별, 연령대의 이용자 집단에서 소비된 뉴스의 클릭률을 측정하고 콘텐츠 소비 성향을 분석해 반영한다. 20대 여성은 뷰티와 취업, 30대 여성은 육아, 40대 여성은 교육, 50대 여성은 건강 뉴스를 많이 소비한다. 개인 맞춤 서비스에는 루빅스를 포함한 다양한 알고리즘이 적용된다. 협업 필터링이 대표적이다. 루빅스에는 카카오에서 자체 개발한 맞춤형 멀티암드밴딧(Multi-Armed Bandit·MAB)이라는 알고리즘이 적용됐다. 멀티암드밴딧은 카지노 슬롯머신에 비유된다. 도박장에서 승률을 높이는 방법의 하나는 돈을 딸 가능성이 높은 기계에서 베팅하는 것이다. 즉, 관건은 승률이 높은 슬롯머신을 ‘얼마나 빨리’ 찾아내는가이다. 승률을 확인하는 횟수를 줄이고, 돈을 따는 데 집중하는 것이 수익을 극대화하는 방법이다. 뉴스에 이 구조를 적용하면, MAB로 이용자들이 선택할 가능성이 높은 뉴스가 무엇인지를 파악할 수 있다. 

각각의 슬롯머신은 개별 뉴스를 의미하나?

그렇다. 슬롯머신의 승률은 뉴스가 클릭될 확률(CTR)에 해당한다. 실시간으로 변하는 뉴스의 클릭률을 정확하게 측정하기 위해, 루빅스는 분 단위로 각 뉴스의 클릭률을 측정한다. 본래 MAB는 뉴스라는 특성을 온전히 소화하기에는 한계가 있어서 뉴스 서비스에 맞게 개량했다.[4]

알고리즘끼리 경쟁하는 구조인가?

사용자 반응을 보고 새로운 알고리즘을 개발해 적용한다. 그렇게 보면 알고리즘 간의 경쟁인 셈이다. 열독률 지수에도 그런 테스트를 계속한다.

인공지능 뉴스 추천이 다양한 뉴스를 접할 기회를 제한한다는 우려가 있다. 맞춤형 서비스로 인해 결국 제한된 정보만 제공받게 되는 ‘필터 버블’이 대표적인 예다.

개인의 관심사와 대중의 관심사를 모두 고려한다. 어떤 사람이 여행 기사를 많이 본다고 여행 기사만 추천하는 건 아니다. 스포츠 분야에는 그 방식이 적용된다. 야구 스코어를 많이 보면 해당 기사를 더 많이 추천한다. 스포츠 외 분야에서는 적절한 추천이 아니라고 판단해 적용하지 않는다.

인공지능 뉴스 추천 시스템을 적용한 후 편집자의 역할은 어떻게 바뀌었나?

메인 화면에 노출되는 20개의 기사를 교체하던 역할에서 뉴스를 큰 틀에서 관장하는 쪽으로 바뀌었다. 업무가 오히려 늘었다. 루빅스에서 작동하는 모든 콘텐츠를 모니터링해야 한다. 특집 페이지 기획과 알고리즘 향상에 공을 들인다.

인공지능이 편집하는 중국의 뉴스 앱 ‘진르터우탸오(今日頭條)’는 이용자 수가 10억 명을 넘어섰다. 다음뉴스도 장기적으로 보면, AI가 편집자의 역할을 100퍼센트 대체하지 않을까?

다음뉴스는 이미 2015년 6월부터 첫 화면의 뉴스 대부분을 인공지능이 배치하고 있다. 뉴스 편집의 주체가 사람인가, 인공지능인가는 중요하지 않다. 가령 넷플릭스는 자동화된 영상 추천을 하지만 모든 영상의 태그는 사람이 직접 등록한다. 자동으로 할 수 있지만, 사람이 등록하는 게 결과가 더 좋기 때문이다. 어떤 방식이 이용자에게 더 나은 뉴스 서비스를 제공하는지가 중요하다. 다음뉴스가 현재 방식으로 발전한 큰 이유 중 하나는 모두가 같은 기사를 보는 비효율을 개선하기 위해서다.

루빅스의 발전 방향을 어떻게 기대하나?

카카오는 사용자 특성에 최적화된 콘텐츠를 제공하고자 한다. 기사 실시간 업데이트와 (방문이 상대적으로 적은 이용자를 위한) 주요 콘텐츠 추천, 둘 다 중요하다. 상황별 이슈를 알려 주는 맞춤 추천과 개인의 관심사를 상세히 반영한 특성이 조화를 이룬 추천을 제공하고자 한다.

루빅스가 적용된 카카오톡 채널은 지난 수개월간 알고리즘이 여러 번 바뀌었다. 편집 기준을 몰라 혼란스럽다는 매체들도 있었다. 카카오톡 채널에는 흥미 위주의 글이 넘쳐난다는 비판도 있다.

채널 탭에서의 콘텐츠 추천은 이용자 행동 패턴과 의견을 종합적으로 고려해 지속적으로 알고리즘을 고도화해 나가고 있다. 예를 들어 선정적이고 자극적인 콘텐츠를 지양하는 식이다. 조금 더 지켜봐 달라.
[1]
클러스터링은 같은 키워드별로 기사를 묶어 보여 주는 기술로 지금 중요한 주제와 정보량을 한눈에 알 수 있게 해준다.
[2]
카카오 정책산업 연구 브런치, 〈카카오 뉴스 추천 AI 알고리즘 ‘루빅스’의 비밀〉, 2017. 5. 4.
kakao 블로그, 〈내 입맛에 딱 맞는 뉴스를 보여주는 루빅스(RUBICS)!〉, 2015. 6. 23.
[3]
네이버의 하루 방문자 3000만 명 가운데 뉴스 분야 이용자는 1300만 명에 달한다. 다음은 뉴스 분야의 이용자 수를 공개하지 않고 있다. 성호철·강동철·임경업, 〈‘뉴스 가두리’ 네이버, 댓글 부추기고 랭킹뉴스로 장사〉, 《조선비즈》, 2018. 4. 24.
[4]
카카오 정책산업 연구 브런치, 〈카카오 뉴스 추천 AI 알고리즘 ‘루빅스’의 비밀〉, 2017. 5. 4.
다음 이야기가 궁금하신가요?
프라임 멤버가 되시고 모든 콘텐츠를 무제한 이용하세요.
프라임 가입하기
THREECHAIRS
PUBLISHING COMPANY
(주)스리체어스 서울시 종로구 사직로 67 2층
Business Registration No. : 101-86-90847
Mail Order Sales No. : 2014-서울종로-0959
대표 : 이연대
02)
396-6266