[우리문화신문=이한영 기자] 한국국학진흥원(원장 정종섭)은 기존 문자인식 프로그램으로는 고도서의 한자 인식에 한계가 많은 탓에 한국지능정보사회진흥원(NIA, 원장 문용식)의 지원을 받아 ㈜누리 IDT, ㈜NHN다이퀘스트, ㈜에프아이솔루션과 함께 고서 속의 한자를 자동 인식할 수 있는 시스템 개발을 진행하여, 1차년도 사업을 완료했다. 유교책판의 활자를 영인한 고서의 한자 인식률 70%를 목표로 시작했던 1차 사업은 현재 약 80%의 정확도로 문자를 인식하는 수준에 이르렀고, 이후 지속적 개발을 통해 정확도를 올릴 예정이다. 이 결과는 현재 최종 품질 검증을 거쳐 AI-Hub(http://www.aihub.or.kr)를 통해 공개될 예정이다.
전통문화 현대적 활용을 위한 첫걸음
한국의 세계기록유산 유교책판은 문집을 인쇄하기 위해 나무판에 활자를 새겨 만든 기록물이다. 유교책판의 활자를 찍어낸 문집 등의 고서는 전통 기록유산 중에서 가장 많은 양을 차지하고 있다. 그런데 고서에 대한 접근성을 높이는 것은 한국 전통 인문학의 발전을 앞당기고 전통문화 기반의 새로운 콘텐츠 제작의 가능성을 열어준다.
이를 위해 가장 중요한 첫걸음은 책으로만 남아 있던 고서 내용을 디지털 문자로 치환함으로써, 검색성과 활용도를 높이는 일이다. 그래서 한자 해독이 가능한 전문가들이 주요 경전의 내용을 한 글자 한 글자 입력하면서 디지털화 작업을 진행하고 있다. 이런 방식이라면 수많은 고서 내용을 디지털 문자로 전환하는 일은 요원하기만 하다.

따라서 이미지 중심인 고서 문자를 인식하고, 이를 디지털화된 문자로 입력하는 새로운 시스템이 절실히 필요하다. 현재 한글 및 영문, 기타 다양한 언어 영역에서 광학문자인식(OCR) 시스템이 폭넓게 활용되고 있다. 따라서 한국국학진흥원은 광학문자인식 인공지능 모델 개발 전문업체인 ㈜누리IDT 및 ㈜NHN다이퀘스트 등의 기술력을 적용하여 한자를 자동으로 인식하기 위한 OCR 시스템 개발에 착수했다.
AI와 한자의 만남
이번 ‘한자 인식 OCR 인공지능 모델 개발’은 인공지능(AI)이 가진 딥러닝(Deep Learnimg) 기술이 적극 차용되었다. 고서 속에 비교적 정자체로 기록된 한자의 다양한 이미지를 컴퓨터 텍스트 기호인 유니코드로 인식하도록 학습시키는 데이터셋을 구축함으로써, 스캔이나 촬영 등을 통해 이미지가 확보된 한자를 텍스트로 인식하여 변환할 수 있도록 했다. 이를 위해 고서 전체 이미지에서 한 글자 한 글자를 잘라내고(세그멘테이션), 그 글자 이미지를 텍스트로 인식할 수 있도록 치환하는 기술들이 적용되었다.
이번 1년차 사업을 통해 글자 수 기준 1천 만자의 이미지를 입력하고, 이를 인공지능이 지속해서 학습할 수 있도록 했다. 한국국학진흥원은 기존 DB구축 사업을 통해 확보된 이미지와 이번 사업을 위해 별도로 고해상도의 이미지 스캔을 해둔 결과물을 중심으로 다양한 글자들을 인공지능이 학습할 수 있도록 했다. 이를 통해 글자 수 기준 1천 만자 정도만으로도 고해상도의 이미지면 80%의 정확도를 보여주고 있으며, 향후 지속적인 사업을 통해 더 많은 글자 이미지를 입력하여 인공지능 학습이 이루어질 수 있게 하면 인식률은 더 높아질 것으로 기대하고 있다.
특히 이 사업이 본궤도에 오르면 일반 사용자들이 유적지 등을 방문했을 때 한자로 기록된 현판이나 문서들을 이미지로 촬영하여 한자의 뜻과 의미를 확인할 수 있게 될 것이며, 또 한자 텍스트를 기반으로 개발 중인 자동 번역 시스템과 연계할 때 한국 고전 번역에 획기적인 속도를 기대할 수 있다.
한국국학진흥원 정종섭 원장은 “산적해 있는 고서들을 활용하기 위한 첫 단계가 디지털화 작업인데, 이번 1년차 사업만으로도 디지털화 속도가 몇 배 이상 빨라졌다.”라면서, “앞으로 이미지 인식률을 높일 수 있는 사업을 계속 추진해나갈 것이며, 이 결과물이 일반인들이 실생활에서 활용할 수 있는 서비스까지 이어질 수 있도록 노력하겠다.”라고 밝혔다.