“시리(Siri)야, 랩 해줘.” “네, 제가 작사 했어요…너와 나의 연결고리, 이건 우리 안의 소리…”

  2011년 애플은 음성 기반 개인비서 서비스인 ‘시리(Siri)’를 출시했다. 시리를 필두로 2016년 구글의 ‘구글 홈’, 마이크로소프트(MS)의 ‘인보크’, 국내기업 KT의 ‘기가지니’, SK텔레콤의 ‘누구’ 등 국내외 음성기반 서비스들이 쏟아지고 있다. 음성 서비스 관련 산업은 음성인식기술의 급격한 발전에 따라 꾸준한 성장세를 보이고 있다. 시장조사업체 가트너는 2015년 3억6000만 달러(약 4050억 원)였던 글로벌 음성인식 스피커 시장 규모가 연평균 40% 이상 성장해 2020년엔 21억 달러(약 2조3600억 원) 수준에 이를 것으로 전망했다. 이렇게 빠르게 발전하는 음성인식기술엔 어떤 원리가 적용되고, 음성인식기는 어떻게 작동할까.

  데이터 학습해 음성신호 분석

  음성인식기술은 컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호(acoustic speech signal)를 단어나 문장으로 변환시키는 기술을 말한다. 과거 음성인식기술의 범위는 소리를 문자로 바꾸는 것에 한정됐지만, 현재의 음성인식기술은 텍스트를 컴퓨터에 이해시켜 기계와 사용자의 대화를 가능케 하는 기술인 ‘자연어처리(natural language processing) 기술’까지 포괄한다.

  음성인식 기술의 첫 단계는 기계를 학습시키는 것이다. 인간이 그렇듯, 기계도 학습을 위해선 많은 정보와 경험이 필요하다. 따라서 음성인식기는 학습에 필요한 여러 음성신호의 특성을 데이터로 추출한다. 이 때 음성신호의 억양, 목소리 크기 등을 숫자 형태의 데이터로 추출한 것을 특징벡터라 한다. 음성인식기는 특징벡터를 활용해 음성신호의 의미를 판가름할 기준을 생성한다. 이후 음성인식기는 입력된 음성신호의 패턴을 분석하고, 특징벡터를 활용해 만들어진 기준과 비교해 가장 유사도가 높은 값을 최종 결과로 도출해낸다.

  음성인식기가 음성신호를 분석하는 주요 기준으로는 언어모델과 음향모델이 있다. 언어모델은 음성 정보의 문법성을 확률적으로 변환한 모델이고, 음향모델은 어떤 단어가 어떤 소리로 나는지를 확률적으로 변환한 모델이다. 음성인식기는 기본적으로 이 두 가지 모델이 동시에 작용할 확률이 높은 단어를 출력하는 구조다.

 

  딥러닝 기술로 더 빠르고 정확하게

  이러한 음성인식기술이 최근 비약적으로 발전한 배경엔 ‘딥러닝(deep learning) 기술’이 있다. 딥러닝 기술이란 사물이나 데이터를 군집화하거나 분류하는 데 사용하는 기술로, 많은 데이터를 컴퓨터에 입력하고 비슷한 것끼리 분류하도록 하는 ‘기계 학습’ 알고리즘 중 하나다.

  기계학습 알고리즘으로는 과거에도 ‘의사결정나무’, ‘베이지안망’, ‘서포트벡터머신(SVM)’, ‘인공신경망’이 있었다. 하지만 기존의 인공신경망 기술은 사람의 실제 신경망을 구현하는 데에 있어 복잡성과 규모에 한계가 있었다. 반면 딥러닝 기술은 얕고 단순한 기존 인공신경망의 한계를 극복하고 보완한 ‘심층 신경망’ 기계 학습 알고리즘이다. 이 딥러닝 알고리즘은 음성 데이터의 입력, 각 모델들의 특징벡터 추출, 출력까지 복잡한 ‘맵핑(mapping)’ 과정이 이전보다 훨씬 빠르고 정확하도록 만들어준다.

  딥러닝 기술이 최근부터 급격히 발전된 배경으론 크게 컴퓨터 하드웨어의 발전과 빅데이터 시대의 도래가 꼽힌다. 박천덕 교수(한림대 CVPR연구실)는 “신경망이 크고 복잡해질수록 많은 데이터가 필요한데, 과거엔 데이터가 부족하고 이를 처리할 컴퓨터 성능도 좋지 못했다”며 “지금은 빅데이터 시대로 데이터가 양적으로 많아졌고, 이런 방대한 양의 데이터를 처리할 CPU, GPU와 같은 하드웨어도 크게 발전했다”고 설명했다.

  음성신호와 같은 연속적인 데이터를 모델링하는 방법으론 전통적으로 HMM(Hidden Marcov Model, 은닉마르코프 모델)이 있었다. HMM은 음성신호의 변동을 확률 변수로 취급해 주어진 음성의 문자열을 찾아낸다. 하지만 이는 확률에 기반하므로 예외가 많이 발생한다는 단점이 있다. 그 돌파구로 현재의 음성인식기술은 정확성이 높은 딥러닝 기술과 HMM 기술을 함께 활용하고 있다. 딥러닝 기술은 HMM으로 대상을 만들어 학습하고 딥러닝으로 모델링하는 방법을 이용한다. 한국전자통신연구원(ETRI) 음성지능연구팀 김동현 연구원은 “최근에는 HMM 없이 모델링 하려는 시도도 있지만 일반적으로 HMM을 이용해 구분한 트라이폰(triphone, 3음소열) 모델들을 딥러닝에 구별대상으로 놓고 딥러닝 모델을 만들어 이용한다”고 말했다.

 

  데이터 확보, 기술 진보 통해 한계 극복해갈 것

  아직 음성인식기술엔 여러 장애물들이 남아 있는 상태다. 현재의 음성인식기술은 잡음처리와 정제되지 않은 음성정보인 ‘비정형 자연어(unstructured spontaneous speech)’ 처리 성능이 부족하다. 육동석(정보대 컴퓨터학과) 교수는 “현재 음성인식기술의 수준은 비교적 조용한 환경에서 또박또박 문법에 맞게 얘기 했을 때 알아듣는 수준”이라며 “사람간의 대화에선 주변 잡음도 섞이고 비문법적인 문장들도 많은데, 아직 현재 음성인식 기술은 그것까지 알아듣는 수준은 아니다”라고 말했다.

  이런 한계 극복을 위해선 데이터의 확보가 필수적이다. 김동현 연구원은 “비정형 자연어 처리를 위해 여러 방법들이 시도 되고 있다”며 “데이터를 기반으로 한 처리 접근법이 많고, 데이터 수집을 통한 큰 언어 네트워크 생성도 하나의 방법으로 제시되고 있다”고 설명했다. 잡음처리 문제 역시 해결을 위해선 데이터 확보가 필요하다. 김 연구원은 “잡음처리 문제의 경우 최근엔 잡음이 있는 데이터로 모델링해 잡음에 강인한 모델을 만드는 방법을 이용하기도 한다”면서 “결론적으로 성능향상을 위해선 데이터를 많이 확보해야 한다”고 설명했다.

  데이터 확보 뿐 아니라 인공지능 기술 자체의 발전도 필요하다. 육동석 교수는 “인공지능의 전반적인 기술적 진보가 필요하며, 이는 데이터의 양적인 문제로만 해결될 순 없다”라며 “진정으로 사람과 같이 작동하는 인공지능을 위해선 사람처럼 기본적인 상식, 논리적으로 생각하는 능력이 필요한데, 이는 많은 시간을 필요로 한다”고 설명했다.

  음성인식기술은 통역, 교육 방면뿐 아니라 생활 속 다양한 분야에 접목되며 삶에 편리성을 더하고 있다. 전문가들은 음성인식기술이 우리 생활에 혁신을 가져올 것이라 전망했다. 김동현 연구원은 “음성인식기술은 특히 통역이나 교육에 상용화되는 중”이라며 “실제로 연구원에서 자동 통역(지니톡), 영어 교육(지니 튜터), 기가지니 영·중·일어 인식, 콜센터 음성인식 등 다양한 응용연구를 진행하고 있다”고 말했다. 육동석 교수는 “음성인식은 기계와 사람간의 인터페이스를 바꿔놓을 것”이라며 “휴대폰이 터치로 바뀌며 버튼이 사라졌듯이 이젠 화면도 없어져 음성으로만 기계를 조작하게 될 것”이라고 말했다.

 

글|변은민 기자 victor@

일러스트|주재민 전문기자

저작권자 © 고대신문 무단전재 및 재배포 금지