닫기 4차산업혁명시대
인간의 자리를 묻다
닫기

[채반석 칼럼]비약적으로 발전한 ‘번역 서비스’, 현재의 기술력

2017.03.23 FacebookTwitterNaver

2016년 2월 21일, 세종대학교에서는 인간 번역사와 인공지능 기계번역 솔루션 간 번역 대결 행사가 열렸다. 이 행사에는 경력 5년 이상의 번역사 4명과 시중에서 사용되고 있는 구글, 네이버 등 대표적인 인공지능 기계번역 솔루션이 주어진 지문을 번역하는 대결을 펼쳤다.
이날의 승리는 인간에게 돌아갔다. 물론 이벤트 행사지만, 사실 현재의 인공지능 기계번역 수준을 생각하면 번역 전문가와의 대결은 터무니없는 측면이 강하다. 불과 1~2년 전만해도 기계번역은 어지간한 수준의 언어를 학습한 일반인에도 훨씬 못 미치는 번역 결과물을 내놨다. 이런 대결이 기획됐다는 사실만으로도 번역기의 성능이 얼마나 올라갔는지를 짐작할 수 있다.

성능을 대폭 끌어올린 인공신경망 기계번역

기존에는 단위마다 번역하고, 통계에 기반을 둬 어순을 맞추는 방식을 번역기에 사용했다. 통계 기반 번역 방식이다. 새로운 방식은 ‘인공신경망 기계번역(Neural Translate)’이라고 부른다. 마치 사람이 생각하는 구조처럼 인공의 신경망을 구축하고, 사람이 판단하는 것처럼 생각하게 한다. 사람처럼 생각한다는 것은 어떤 의미일까? 예컨대 사람이 고양이를 보면 반사적으로 ‘이건 고양이다’라고 판단한다. 무척 짧은 시간이지만, 이 판단에는 여러가지 요소가 들어간다. 전체적인 눈코입 배치는 어떤지, 수염은 어떤지, 눈동자 모양, 콧대의 높이 등을 종합적으로 고려한다.
사람은 살면서 직접 고양이를 보거나, 사진을 보는 등의 학습을 통해 ‘고양이’를 판단할 수 있는 능력을 갖추게 된다. 컴퓨터에 이 과정을 가르치는 방법은 조금 다르다. 고양이 사진을 엄청나게 보여주면서 ‘자 이게 고양이다’라고 알려주면 스스로 학습을 통해서 ‘이런저런 특징이 이러저러하게 고려된 형태는 고양이’라고 판단할 수 있는 능력을 갖추게 된다. 요소별로 어떤 가중치를 어떻게 주면 최적의 판단 결과가 나오는지 배우는 방식이다.

인공신경망 기계번역도 같은 원리다. 컴퓨터에 번역 문장과 정답 문장으로 구성된 학습데이터 세트를 주고, ‘A를 번역하면 A가 된다’라고 알려준 다음 번역을 수행하기 위한 가중치를 스스로 학습하게 한다. 이전에는 어구 단위로 번역했다면, 최근의 방식은 문장을 통으로 번역한다. 인공신경망 번역 방식은 시스템이 단순하다. 입력문장과 출력문장만 있으면 알아서 학습하기 때문이다.
인공신경망 기계번역 기술 자체는 보편적으로 알려져 있다. 회사마다 확보한 학습데이터를 바탕으로 커스터마이징하는 정도다. 네이버도 같은 기술을 쓰는데, 그래서 각 사 번역 기술 이름도 비슷하다. 구글은 GNMT(Google Neural Machine Translation), 네이버는 N2MT(Naver Neural Machine Translation)라고 부른다.

앞으로가 기대되는 신경망 번역

새로운 방식을 적용한 번역기의 성능은 이전과 비교하기 어려울 정도로 비약적으로 상승했다. 네이버는 새로운 번역기가 기존 방식의 번역기보다 2배의 성능을 낸다고 자체적으로 평가하고 있다. 구글도 번역 오류를 55%~85%가량 줄였다. 단문은 거의 완벽하고, 복잡한 문장도 의미전달에 큰 무리가 없다.
학습데이터는 꾸준하게 늘어난다. 기계는 어제보다 오늘 조금 더 좋은 번역품질을 낼 수 있다. 인공신경망 기계번역의 장점은 이 뿐만 아니다. 다중 언어를 한 번에 학습할 수도 있는데, 언어적 특성이 비슷한 언어의 경우 한 번에 트레이닝이 가능하다. 구글 번역기의 경우 한국어・일본어・터키어는 언어적 특성이 유사해 묶어서 훈련됐다. 데이터가 부족한 언어의 학습이 가능한 것도 강점이다. 예컨대 힌디어 계열의 방언이라면 힌디어 데이터를 활용해 기계를 학습시킬 수 있다.

번역의 영역에서 사람의 자리는 없어질까? 영향이 없진 않겠지만, 지금의 기계번역도 기본적으로는 인간의 번역 결과를 가지고 학습한 결과다. 또한, 정확도를 높여가고는 있지만, 말이 가지는 뉘앙스, 어조, 수사적 표현 등까지 완벽하게 번역하지는 못한다. 기계번역은 좋은 도구로서, 언어 간 장벽을 해소하는데 큰 도움을 줄 것으로 전망된다.

출처: SK텔레콤 월간 디지털 매거진 CONNECT+ 3월호에서

FacebookTwitterNaver