인공지능, 말을 걸다
1화

프롤로그; 가상 비서와의 대화는 이미 시작됐다

“오케이 구글, 좋은 아침!” 아침에 일어나면 구글 어시스턴트에게 말을 건다. 구글 어시스턴트는 “좋은 아침입니다. 오늘의 일정은 두 개가 있습니다” 하고 일정을 알려 준다. “오늘 서울 날씨는 맑겠습니다. 최고 기온은 29도, 최저 기온은 18도입니다. 오늘의 주요 뉴스입니다……” 이어서 말해 주는 날씨 정보와 오늘의 뉴스를 귀로 들으면서 아침 식사를 하거나 외출 준비를 한다. 운전을 하는 동안에는 “강남역 가는 길 알려줘”라고 목적지까지 안내를 명령하고, 집에 오면 “휴식 모드”라고 명령한다. 그러면 구글 어시스턴트는 “오늘도 고생 많으셨어요”라는 메시지와 함께 에어컨을 켜고 음악을 재생한다. 가상 비서(virtual assistant)는 일상의 단축키이자 반려 기기다.

산업 전문가들은 2021년까지 지구에 사람 수보다 음성 기반 가상 비서가 더 많을 것이라고 예상한다.[1] 음성 기반 가상 비서들은 단순한 음악 재생에서부터 긴급 구조 요청까지 한 달에 약 10억 개의 작업을 수행한다.[2] 미국에서는 이미 네 가구 중 한 가구가 음성 기반 가상 비서를 일상적으로 사용한다. 국내에서도 판매량이 증가 추세에 있고, 공공, 사회 복지 등 여러 분야에서 활용이 모색되고 있다. 아마존, 구글, 삼성, 네이버, 카카오, SKT, KT 등 우리가 아는 거의 모든 IT 기업들이 인공지능 스피커를 출시했고, 지금도 시장에서 치열한 경쟁을 벌이고 있다. 특히 최근 비대면 추세가 가속화하면서 인공지능 스피커에 대한 관심과 수요는 비약적으로 증가하고 있다.

인공지능 스피커가 세력을 넓히는 동안 주로 논의되어 온 것은 기술적 측면이었다. 몇 년 전부터 인공지능 스피커의 토대인 챗봇(chatbot)이나 인공지능 스피커의 애플리케이션을 제작하기 위한 기술적인 방법을 안내하는 가이드가 많이 나왔다. 이에 비해 사람과 인공지능 스피커 간의 상호 작용이 다양한 맥락에서 어떤 사용자 경험을 만들며, 인간의 커뮤니케이션에 어떤 영향을 미칠 것인지에 대한 논의는 부족했다. 인공지능 스피커는 음성 혁명의 시대를 열고 있다. 이제 인간은 가장 편안하고 익숙한 자연어를 통해 컴퓨터와 상호 작용할 수 있다. 컴퓨터가 인간의 커뮤니케이션 방식을 습득한 것이다. 사람과 기술이 상호 작용하는 방식은 크게 변화할 것이다. 인공지능 스피커와 인간 간의 상호 작용이 사람들의 일상에 어떻게 통합되고 있고, 개인적이고 사회적인 측면에서 어떤 변화를 가져오고 있는지 살펴볼 필요가 있다.

지난 5년간 인공지능 스피커와 사람 간의 상호 작용 경험을 연구하고 인공지능 스피커의 애플리케이션 격인 스킬(skill)을 기획하면서 말하는 인터페이스에 대한 인간의 사용자 경험을 다각적으로 조사했다. 인공지능 스피커와 처음 대화하는 어린이와 초기 사용자, 사물 인터넷(IoT·Internet of Things) 기기와 인공지능 스피커를 연동해서 사용하는 헤비 유저들을 만나고 해외 연구 동향을 살폈다. 이를 통해 사람들이 다양한 상황과 맥락에서 서로 다른 목적과 기대 수준을 갖고 인공지능 스피커를 사용한다는 것을 알 수 있었다. 그리고 인공지능 스피커와의 상호 작용 경험이 인간의 커뮤니케이션을 재조직할 수 있다는 것을 발견했다.

물론 아직 인공지능 스피커의 기술 수준이나 사용성에는 한계가 있다. 사람의 말을 잘 알아듣지 못할 때도 있고, 대화도 한두 번의 질문과 응답 이상을 넘어가지 않는다. 수행할 수 있는 기능이 많지 않고, 사용자 입장에서는 어떤 명령을 해야 할지 알기 어렵다. 그러다 보니 많은 사용자들이 단 몇 번의 사용 경험으로도 실망을 하고 사용을 중단한다. 애써 시도한 음성 명령에 “죄송해요, 제가 할 수 없는 일이에요”라는 대답을 들으면 힘이 빠지는 것도 사실이다.

그러나 인공지능 스피커의 여러 한계를 극복하기 위한 산업계와 학계의 실험과 탐색은 활발히 진행되고 있다. 2018년 구글은 개발자 대회에서 사람과 자유자재로 대화하는 인공지능을 소개해 월등한 음성 인식과 음성 합성 기술을 선보인 바 있다. 국내 인공지능 스피커의 경우 한국어의 특성상 음성 인식 고도화가 쉽지 않은 편이지만, 2022년까지 국어 정보화 사업을 통한 말뭉치(자연어 연구를 위해 언어의 표본을 추출한 집합) 구축을 추진하고 있다. 음성 인식의 정확도가 높아지는 데는 시간이 걸리겠지만, 사람들이 인공지능 스피커가 할 수 있는 기능들을 정확히 파악하고, 명령하는 방식에 익숙해지면 오류율은 줄어들 것이다. 말하는 인터페이스가 탑재된 사물들을 증가시켜 사용자와의 접점을 확대해 나가는 글로벌한 추세는 사람들이 점점 음성 명령에 익숙해지도록 유도하고 있다.

말하는 인터페이스는 점점 우리의 주변 환경을 에워싸고 있다. 가전이나 웨어러블 기기뿐 아니라 자동차나 아파트 등 수많은 사물과 주변 환경에 탑재되고 있고, 향후에는 물리적 신체를 가진 로봇에도 탑재될 것이다. 말하는 인터페이스와 상호 작용하는 것은 앞으로 도래할 로봇 사회로 가는 징검다리이기도 하다. 우리와 비슷한 이름과 말투, 목소리를 사용하는 인공지능 스피커는 우리에게 친근하게 말을 걸기 시작한 최초의 인공지능이다. 인공지능 비서와의 대화에 참여하는 것은 이제 피할 수 없는 선택이 될 것이다.
[1]
Ronan De Renesse, 〈Virtual Digital Assistants to Overtake World Population by 2021〉, Ovum, 2017.
[2]
Joe Svetlik, 〈Alexa, Cortana, Google Assistant: What Are Voice Assistants and How Do They Work?〉, BT, 2019.
다음 이야기가 궁금하신가요?
프라임 멤버가 되시고 모든 콘텐츠를 무제한 이용하세요.
프라임 가입하기
추천 콘텐츠
Close