닫기
닫기

초연결 사회를 가능하게 하는 조건, 데이터 공유화

2017.10.30 FacebookTwitterNaver

▲ 데이터의 공유화란 정부와 민간의 데이터를 정보침해에 대한 리스크 없이 안전하게 공유하고 가치 있게 쓰이는 시스템과 프로세스를 말합니다

2016년 스탠퍼드 대학에서 구글로 자리를 옮긴 이미지 넷(ImageNet) 프로젝트 담당자인 페이-페이 리(fei-fei lee)는 ‘구글 클라우드 넥스트(Google Cloud Next)2017’ 기조연설에서 “인공지능의 다음 행보는 민주화”라고 말했습니다. 구글은 ‘컴퓨팅의 민주화, 알고리즘의 민주화, 데이터의 민주화, 재능(인재)의 민주화’라는 네 가지 방향성으로 ‘인공지능 민주화’를 이끌고 있습니다.

구글은 2016년부터 컴퓨팅 민주화를 ‘클라우드 기계학습(Cloud Machine Learning)’을 통해 이끌고 있으며 알고리즘의 민주화는 각종 API를 공개함으로써 실현 중입니다. 구글은 자연어처리(Natural Language Processing), 음성인식(Cloud Speech) API뿐만 아니라 용량이 커서 제공이 어려웠던 동영상 인식(Cloud Vision) API까지를 제공하기 시작했습니다. 또한 데이터의 민주화는 케글(Kaggle) 인수 발표를 통해 가시화되고 있습니다.

케글은 세계의 데이터 과학자들이 모여 공개한 데이터 세트를 바탕으로 분석과제를 수행하는 오픈 데이터 플랫폼입니다. 구글은 케글 인수 후 구글이 보유한 데이터를 케글을 통해 공개할 예정입니다. 마지막으로 재능의 민주화를 위해 구글은 사내에 ’고등 솔루션 연구소(Advanced Solution Lab, ASL)’를 설립하고 이 조직을 통해 기업대상 기계학습 알고리즘 교육을 지원하거나 클라우드 ML에 대한 이용방법을 제공합니다.

▲ 데이터 유통을 위한 SK텔레콤(이하 SKT)의 첫걸음은 빅데이터 허브(www. bigdatahub.co.kr)를 통해 확인이 가능합니다

현재 우리는 모든 것이 초연결되고 초지능화된 사회, ‘4차 산업혁명 시대’를 이야기하고 있습니다. 이러한 초연결, 초지능화된 사회로의 변화 구현을 위해서는 전제돼야 할 ‘필요충분조건’이 있습니다. 바로 ‘데이터의 민주화’입니다. 데이터의 민주화란 정부와 민간이 보유한 다양한 데이터를 개인정보 침해에 대한 리스크 없이 안전하고 활용성 있게 공유하고 교환할 수 있는 시스템과 프로세스를 의미합니다.

그런데 우리나라는 정부의 관련 법 제도가 미비, 기업의 데이터 이기주의와 시민단체의 프라이버시 침해 반발, 국민정서상의 프라이버시 침해 반감 등으로 데이터 민주화가 시행되기 어려운 환경에 처해있습니다.

지난 선거를 돌아보면 개인정보보호법에서도 가장 엄격하게 보호받는 개인의 정치성향은 민감 정보로 분류되는데도 개인은 스스럼없이 선호하는 후보나 본인의 정치성향을 사진과 댓글로 드러냈습니다. 그리고 빅데이터 분석업체나 언론에서는 이를 활용해 기사를 작성하거나 당선 후보를 예측하기도 했죠. 이렇듯 개인정보 공유, 활용에 대한 자발적 의사결정권은 개인에게 있고 만일 개인에 대한 사적 침해 없이 데이터가 적절하게 잘만 사용된다면 데이터로서의 디지털 라이프 로그(Digital Life Log)는 무한한 가치를 지닐 수 있습니다.

필자는 미래부의 미래 성장 동력 플래그십 과제의 일환으로 지난 6개월간 통신데이터의 비식별화를 통한 유통환경 구축 프로젝트를 수행했습니다. 2016년 6월에 발표된 비식별 조치 가이드라인은 정부 차원의 데이터 민주화를 위한 첫걸음이었다고 보입니다. 법으로 규정되지는 못했지만 적절한 비식별화 조치가 이루어졌을 때 데이터가 공유될 수 있고 이종 산업 간의 데이터의 결합을 통해 새로운 가치를 만들 수 있는 의미 있는 단초를 제공했기 때문입니다.

▲ 건강한 데이터 생태계가 조성되면 그 기반에서 활동하는 데이터 제공자, 가공자, 거래자, 분석가 등의 경제 가치 창출도 가능해집니다

혹자는 비식별 데이터의 공유와 유통을 1:1 마케팅 활용과 개인 프라이버시 침해로 보기도 합니다. 그러나 비식별화된 데이터는 가이드라인 상에도 명기되어 있듯이 1:1 마케팅 자료로 활용할 수 없습니다. 오히려 기존 정보가 주는 거시적 사회 관점을 보다 미시화하고 세분화할 수 있도록 해 이에 따른 맞춤형 정책이나 기업 서비스의 참조자료의 역할을 가능하게 합니다. 또한 이종 산업 간의 융합 데이터 생성으로 시장에서 진정으로 요구하는 활용성 있는 데이터를 생성할 수 있습니다.

그러므로 지능정보사회의 도래를 적극적으로 준비하고 대처하기 위해서 데이터 민주화를 통한 공유와 유통의 기반 마련이 필요합니다. 국민은 스스로의 자기 정보 결정권을 인지해야 하며 개인정보의 침해 없이 사회적으로 큰 가치를 제공할 수 있다면 기꺼이 그 권리 행사를 통한 사회발전에 기여 할 수 있어야 합니다. 정부는 국민의 자기 정보 결정권을 제대로 행사할 수 있도록 법적 정비를 수행해야 합니다. 일본이나 유럽 등의 선진국에서는 비식별화된 데이터가 동의하에 자유롭게 활용 가능한 법 제도와 프로세스 정비를 서두르고 있습니다.

기업은 개별 고객 데이터 활용에 대한 투명성을 확보하고 개인정보 처리에 대한 기술적, 관리적 보안 수준을 강화해야 합니다. 안전한 정보보호 환경 구현과 비식별화 조치를 통해 산업 생태계의 건전성은 유지하되 개별 고객의 프라이버시 침해에 대한 노력이 필요합니다. 또, 데이터 유통 거래환경 구축을 통한 신생기업이나 벤처의 데이터 기반 알고리즘 개발 및 서비스 구현을 지원하는 상생의 역할도 기대됩니다.

개인의 디지털 라이프 로그(Digital Life Log)를 정부나 기업이 활용하는 것에 리스크는 있을 수 있습니다. 그러나 리스크(risk)는 위험(danger)과는 다른 것이죠. 잠재적 위험요소를 인지하고 극복하는 것이야말로 리스크의 정의라고 할 수 있습니다. SKT의 방대하고 다양한 데이터는 분명 훌륭한 자원입니다. 인공지능뿐 아니라 4차 산업혁명을 대표하는 기술에는 모두 데이터가 바탕이 되기 때문이죠. 이러한 측면에서 데이터가 공유되고 개방되는 데이터 민주화는 반드시 이뤄내야 할 과제입니다.

※ 본 기고문은 아주경제(2017.5.30)에 실린 필자의 글을 일부 재인용 하였음을 밝힙니다.

FacebookTwitterNaver