사투리·국내 주요도로 등 AI 학습용 데이터 170종 개방

이원주 기자
발행 2021-06-18 17:24

‘AI 허브’ 통해 4억 8000만건 활용 가능

정부가 지난해부터 구축한 인공지능(AI) 학습용 데이터 170종을 개방한다.

과학기술정보통신부와 한국지능정보사회진흥원은 인공지능(AI) 허브(aihub.or.kr)를 통해 학습용 데이터 4억 8000만 건을 개방한다고 18일 밝혔다.

과기정통부는 지난 2017년부터 기업·연구자·개인 등이 시간 및 비용 문제로 개별 구축하기 어려운 인공지능 학습용 데이터를 구축·개방해왔다. 지난해부터는 디지털 뉴딜 ‘데이터 댐’ 구축 프로젝트의 일환으로 구축 규모를 대폭 확대해 추진 중이다.

인공지능 학습용 데이터는 인공지능 개발에 사용된다. 그동안 국내 인공지능 기업들은 인공지능 개발에 필요한 데이터 확보를 위해 해외 오픈데이터를 많이 활용해 왔다. 그러나 한국어, 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 국내 인공지능(AI) 서비스 개발에 활용되기 어려웠다.

이번에 개방되는 데이터에는 국내 지역별 방언과 국내 주요도로, 국내 환자 의료영상 등이 포함된다.

이달 30일 공개될 경상·전라·충청·강원·제주 등 한국어 방언 발화 데이터는 음성기반 AI 서비스에 적용할 수 있다.

이달 18∼30일 순차적으로 공개되는 자율주행 데이터 21종은 국내 도로주행 영상과 주차 장애물·이동체 인지영상·버스 노선 주행영상 등을 포함해 자율주행차 개발을 앞당길 것으로 전망된다.

헬스케어 데이터 27종과 개인정보·민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거친 후 이달 30일에 개방한다.

이번에 개방되는 인공지능 학습용 데이터는 데이터 기획부터 구축까지 산업계, 전문가뿐만 아니라 많은 일반 국민들이 참여해 함께 만들었다는 데 의미가 깊다고 과기정통부는 설명했다.

민간의 광범위한 수요를 바탕으로 분야별 산·학·연 전문가, 주요 활용기업 등이 직접 참여해 산업 파급효과가 크고 민간에서 대규모로 구축하기 어려운 인공지능 학습용 데이터를 기획했다.

데이터 구축에는 국내 주요 인공지능·데이터 전문기업은 물론 주요 대학(서울대·KAIST 등 48개), 병원(서울대병원·아산병원 등 25개) 등 총 674개 기업·기관이 대거 참여했다.

특히, 데이터 수집·가공 등 구축 과정에 경력단절여성, 취업준비청년 등 국민 누구나 참여할 수 있는 크라우드소싱 방식을 도입해 4만여명 국민들의 참여를 이끌어냈다.

또 인공지능(AI) 허브에 대규모로 개방되는 인공지능 학습용 데이터의 품질과 활용성을 검증하고 관리하는 과정에도 분야별 전문가와 전문기관, 활용기업 등이 힘을 보탰다.

지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 ‘품질자문위’를 운영, 전문적 품질관리 지원체계를 구축했고 주요 대기업(네이버·LG·삼성전자·KT·현대차 등), 스타트업(딥노이드·스트라드비젼·비바엔에스 등), 대학 및 연구기관(KAIST·GIST·ETRI·농정원 등) 등 20여개 기업·기관이 참여해 데이터 개방 전, 활용성 검토를 진행해 실제 수요자가 요구하는 데이터 품질 확보를 위한 노력을 기울였다.

과기정통부와 지능정보원(NIA)은 데이터 개방 후에도 이용자 참여형 집중개선기간 운영 등을 통해 이용자의 요구사항을 적극 반영하는 등 민·관 협력을 기반으로 데이터를 지속적으로 개선할 계획이다.

이를 위해 오는 9월말까지 3개월간의 참여형 데이터 집중 개선기간을 운영한다. 온라인 창구 및 전문기관(TTA, KISA 등)과 협력, 데이터 품질 등 이용자 의견에 신속하게 대응하기 위한 TF도 운영할 방침이다.

또 지능정보원(NIA)은 대규모 인공지능 학습용 데이터의 본격적인 개방에 맞춰 인공지능(AI) 허브(aihub.or.kr) 활용환경을 대폭 개선한다.

본인인증 한 번만으로 데이터에 대한 접근 및 활용이 가능하도록 회원가입 시스템을 바꾸고 직관적인 데이터 탐색을 위해 UI/UX도 개선했다.

올 하반기에는 데이터 검색체계를 과제명중심에서 자동차, 표지판 등 사물·객체 중심으로 개편할 계획이다.

이와 함께 인공지능 학습용 데이터를 활용한 알고리즘 고도화 등을 지원하기 위해 데이터 활용 경진대회를 열고 헬스케어 데이터의 활용 활성화를 위해 폐쇄형 안심존의 확대 및 클라우드 기반의 개방형 안심존 구축도 추진하기로 했다.

▲ 18일 서울 강서구 LG 사이언스파크 ISC에서 열린 ‘인공지능(AI) 데이터 활용협의회 출범식’에서 임혜숙 과기정통부 장관을 포함, 참석자들이 출범 선포를 마치고 기념촬영을 하고 있다.(사진=과학기술정보통신부)

인공지능 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업이나 스타트업뿐 아니라 대기업도 자체 확보하기 어려운 대규모 데이터를 제공한다는 점에서 그동안 국내 인공지능(AI) 산업계에서 가장 큰 걸림돌로 꼽은 ‘데이터 갈증’을 어느 정도 해소할 수 있을 것으로 과기정통부는 전망하고 있다.

한편, 이날 과기정통부는 ‘인공지능(AI) 데이터 활용협의회’ 출범식을 열고 데이터를 활용하는 기업·기관의 의견을 수렴했다.

‘인공지능(AI) 데이터 활용협의회’는 데이터 품질관리 전문기관인 한국정보통신기술협회(TTA)와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성됐다.

협의회는 AI 허브 데이터 활용 성과를 공유하고 데이터 품질 제고에 협력할 계획이다.

지능정보원(NIA)은 향후 참여를 희망하는 기업 및 기관을 중심으로 협의회를 지속적으로 확대해 나갈 계획이다.

임혜숙 과기정통부 장관은 “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이 이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다”며 “정부도 고품질의 인공지능 학습용 데이터를 지속적으로 제공하고 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다”고 밝혔다.

이원주 기자 다른기사보기