음성 명령이 버튼을 대체하는 5G 시대

2019. 10. 14

“아리아, 비 올 때 듣는 음악 틀어줘~”, “시리, 엄마에게 전화 걸어 줘~”, “헤이 구글, 로봇 청소기 작동시켜~”, “알렉사, 75237 레고 블럭 주문해줘~”

이제는 일상생활 속에서 우리의 명령을 친근하게 듣고 수행해 주는 인공지능(AI) 스피커들. 사람이 말로 명령을 내리고, 기계가 업무를 수행하는 이 간단해 보이는 과정은 음성인식 기술 없이는 불가능합니다.

버튼이 사라지고 있다

▲ 인공지능을 탑재한 아마존의 전자레인지

최근 아마존은 AI 스피커에 음성으로 명령을 내리면 음식을 데워주는 전자레인지, 음성으로 알람을 맞출 수 있는 벽시계 등을 출시하며 음성 명령을 통한 기기의 종류와 제어 폭을 넓혀가고 있습니다. 이러한 변화는 손가락을 사용해서 버튼을 누르거나 터치를 통해 기계에게 명령을 내리던 시대에서 음성으로 명령을 내리는 시대로 변화하고 있다는 것을 의미합니다. 실제 우리는 AI 스피커나 스마트폰을 통해 집안의 전등, 에어컨, TV를 작동시킬 수 있을 뿐만 아니라 외출 시에도 음성 명령을 통해 집안의 보안 및 전자 기기들을 제어할 수 있는데요. 단순한 기기의 제어부터 음성으로 조종하는 드론, 음성으로 그리는 만화까지 음성 명령의 영역이 점차 넓어지고 있습니다.

음성인식 기술의 발전

▲ IBM의 영어 단어 인식 장비, 슈박스(Shoebox)

음성인식 기술은 컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 신호를 단어나 문장으로 변환시키는 기술입니다. 음성인식 연구는 1952년 미국 AT&T 벨 연구소에서 단일 음성으로 말하는 숫자 시스템 ‘오드레이(Audrey)’를 개발하면서 시작됐습니다. 이후 1963년 IBM에서 슈박스(Shoebox)라는 영어 단어 인식 장비를 공개했고, 1971년 미 국방성 산하 국방첨단 연구사업국(DARPA)의 음성 이해 연구(Speech Understanding Research) 프로그램을 통해 진일보했습니다.

* 참고: 한국콘텐츠진흥원(2011), 문화기술 심층리포트

▲ SKT의 인공지능 스피커 누구(NUGU) 캔들

하지만 음성 데이터를 확보하고 방대한 양의 데이터 처리를 처리할 수 있는 프로세서가 없었기 때문에 음성인식 연구가 일찍 시작됐음에도 불구하고 관련 기술은 2000년대 중반까지도 상용화되지 못했습니다. 하지만 근래 대용량의 데이터 처리가 가능한 고성능 프로세서와 인공지능과 같은 첨단 ICT 기술이 발전하면서 누구(NUGU), 시리(Siri), 빅스비(Bixby), Q보이스 등의 음성인식 및 처리 서비스가 상용화됐습니다. 더불어, 5G의 초연결성을 기반으로 AI 스피커에 연결될 수 있는 사물이 급격히 늘어나면서 음성을 통한 기기의 제어 및 활용이 더욱 편리해졌습니다.

IT취약계층이 편리하게 사용할 수 있는 음성 명령

▲ 세브란스병원과 인공지능 스피커를 도입하는 5G 디지털혁신병원을 추진하고 있는 SKT

음성 명령은 일상적인 편리함도 얻을 수 있지만, 버튼 조작에 어려움을 느낄 수 있는 장애인이나 노년층, 환자들에게 더욱 유용한 기술 분야입니다. 이에, 국내 상급병원과 통신사들 간의 협업이 이뤄지고 있는데요. 2020년 완공 예정인 용인 세브란스병원과 SKT는 5G의 대표적인 특징인 초연결성을 이용해 병원의 사물을 네트워크로 연결하고 병실 안에 인공지능 스피커 누구(NUGU)를 설치함으로써 환자가 음성 명령으로 침대, 조명, TV 등을 조작하고 응급 시 호출까지 가능하도록 하는 5G 디지털혁신병원을 추진하고 있습니다. 이러한 변화는 환자의 편리와 안전은 물론 병원의 효율적인 운영을 가능하게 할 것으로 기대됩니다.

음성 명령은 환자뿐만 아니라, 주변기기의 작동이 어려운 노년층과 장애인에게도 다양한 편리함을 제공해 줄 수 있습니다. 앞으로 음성인식 기술이 5G를 비롯한 ICT 기술의 발전으로 세밀한 작업이나 고차원적 업무를 처리할 수 있게 돼, 더 많은 사람들에게 다양한 편리함을 제공해주기를 기대해봅니다.

글. 김미예 박사(연세대학교 바른ICT연구소)