2024.03.29 (금)

  • 흐림동두천 1.0℃
  • 흐림강릉 1.3℃
  • 서울 3.2℃
  • 대전 3.3℃
  • 대구 6.8℃
  • 울산 6.6℃
  • 광주 8.3℃
  • 부산 7.7℃
  • 흐림고창 6.7℃
  • 흐림제주 10.7℃
  • 흐림강화 2.2℃
  • 흐림보은 3.2℃
  • 흐림금산 4.4℃
  • 흐림강진군 8.7℃
  • 흐림경주시 6.7℃
  • 흐림거제 8.0℃
기상청 제공
상세검색
닫기

문화 넓게 보기

고문헌 한자를 인공지능이 읽어준다!

누리IDT 고성능 고문헌 OCR 출시 6월 1일 출시
한문 고문헌 자료 토털 솔루션의 대표 서비스

[우리문화신문=김영조 기자]  

 

 

지능형 데이터 전문기업 ㈜누리아이디티(대표 배성진)는 6월 1일 인공지능 기반의 고문헌 한자 문자인식(OCR) 서비스를 출시했다. 누리IDT가 한문 고문헌 자료의 토털 솔루션으로 개발하고 있는 <고문헌한자시스템>의 대표 서비스로 개발하여 출시한 <고문헌 한자 OCR 서비스>는 우리나라의 고문헌 자료에 특화된 고성능 한자 자동인식 모델이다. 사용법은 간단해서, 화면의 원문 이미지 입력 창에 원문 한 면(JPG, PNG 포맷)씩을 올리면 인공지능(AI)이 이미지 속의 글자를 자동인식하고 곧바로 한자 텍스트로 출력해 준다.

 

인공지능 기반 평균 인식률 98%의 고성능 <고문헌 한자 OCR 서비스>

 

이 서비스의 개발 과정에서 인공지능 모델은 형태와 크기가 다양한 고문헌 속 한자를 3,000만 자 이상 학습하였다. 그 결과 일반적인 고문헌 형태, 곧 가장 많이 쓰이는 해서체나 행서체 글자에 세로쓰기로 제작된 목판본 자료에 대해서는 95~100%(평균 98%)란 높은 인식률을 구현하고 있다. 또한 손글씨로 작성된 필사본의 경우에도 전문가도 판독하기 어려운 초서 자료가 아니라면 상당한 수준의 인식률을 보이고 있다.

 

이 서비스는 이러한 한자 자동 텍스트화 기능과 함께 이미지에서 인식하여 텍스트로 출력한 한자 하나하나의 오인식 가능성에 대해 인공지능이 추천하는 유사 자형을 보여주며, 그 자형에 해당하는 상세한 한자 정보(음/뜻/이체자/유니코드)를 같이 제공한다. 이에 사용자는 한 화면에서 인공지능 간혹 잘못 인식한 한자에 대해 인공지능이 추천한 유사 자형 가운데 하나를 택해서, 또는 다른 글자를 수정 입력창에 직접 입력해서 수정할 수 있다. 그리고 마지막 결과물은 화면상에서 부분을 복사하거나 전체를 텍스트 파일로 내려받을 수 있다.

 

 

고문헌 자료는 대부분 한문으로 적혀 있어 일반인은 아예 접근조차 하기 어렵고, 전문가도 고문헌에 담긴 내용의 연구와 활용을 위해서는 원문을 일일이 옮겨 적어야 하는 노력을 기울여야 한다. 그동안 한문 고문헌 자료의 텍스트화 과정은 낱글자를 일일이 입력하는 수작업으로 이루어졌다. 곧 자료 원문의 스캐닝 또는 촬영을 통한 이미지 산출 -> 이미지를 대본으로 한 낱글자 입력 -> 입력된 텍스트 교정의 과정으로 진행되었다.

 

고문헌 텍스트화에 걸리는 인력, 시간, 비용을 1/10로 줄여

 

그에 견주면 이 누리IDT의 인공지능 기반 <고문헌 한자 OCR 서비스>를 사용하면 쉽고 신속하게 디지털 텍스트로 자동 변환할 수 있다. 수작업 입력보다 높은 정확도를 유지하면서도 텍스트화 과정에 들어가는 인력과 시간과 비용을 획기적으로 절감할 수 있는 것이다. 그래서 특히 한문 고문헌 자료를 다량 보유하고 있는 한국학 연구 기관, 대학과 연구소, 도서관, 문화원 등 각급 기관들의 경우 보유 고문헌의 텍스트화와 데이터베이스 구축에 투입되는 노력과 비용을 1/10 수준으로 줄일 수가 있다.

 

또한 전문 연구자는 물론이고 일반인들도 개인 자료나 집안 소장 고문헌을 손쉽게 텍스트로 변환하여 읽고 활용할 수 있다. 대상 자료를 펼쳐 개인 슬기말틀(스마트폰)로 사진을 찍고 그 이미지 파일을 OCR 서비스 화면에서 불러오기만 하면 곧바로 텍스트가 출력되는 것이다.

 

누리IDT의 한문 고문헌 토털 솔루션 <고문헌한자시스템>

 

이 고성능 한자 OCR 서비스를 개발 출시한 ㈜누리IDT는 지능형 데이터 전문기업으로 현재 한국고전번역원이 제공하고 있는 <한문고전 자동번역 서비스>를 2017~2019년 3년에 걸쳐 개발하였으며, 다년간 주요 한국학 연구 기관들의 DB 구축 사업을 수행한 바 있다. 그러한 업력을 바탕으로 고문헌 토털 솔루션 서비스인 <고문헌한자시스템>을 구축하고 있으며, 이번에 <고문헌 한자 OCR 서비스>와 함께 인공지능 OCR 기술을 응용한 <고문헌 이미지 검색>, <OCR API> 및 <한자 자형 검색> 서비스도 공개하였다.

 

 

<고문헌 이미지 검색>은 고문헌 원문 이미지들에서 찾고자 하는 단어를 검색하는 서비스다. 고문헌 원문 이미지에 OCR 기술을 이용하여 텍스트를 추출한 다음 글자 정보와 위치값을 포함한 DB를 생성하고 그 DB를 검색하여 찾고자 하는 단어가 들어 있는 원문 이미지의 목록과 해당 텍스트를 제공하는 것이다. 고문헌 원문 이미지를 다량 보유하고 있는 기관이라면 적극 활용할 만한 서비스로서, 현재 <고문헌한자시스템>에서는 서울대학교 규장각한국학연구원의 과학 문헌을 대상으로 하는 시범 서비스를 제공하고 있다.

 

 

<OCR API>는 고문헌 원문 이미지를 서비스하고 있는 기관들의 개별 이미지뷰어에 <고문헌한자시스템>의 OCR API 서비스를 연동하여 원문 이미지에서 OCR로 바로 텍스트를 추출하고 그 이미지와 텍스트를 함께 제공하는 서비스이다. 이 서비스를 통해 사용자는 원문 내용의 정확한 파악과 함께 추출된 텍스트를 복사해 편리하게 활용할 수 있다. 현재 <고문헌한자시스템>에서는 《경국대전》, 《경세유표》, 《대전회통》, 《연행록총간증보판》, 《한국과학기술사자료대계》, 《향약집성방》 등 KRpia의 고문헌 콘텐츠 11종에 대한 OCR API 시범 서비스를 제공하고 있다.

 

그리고 <한자 자형 검색>은 어떤 한자의 음이나 부수, 획수를 알지 못해도 직관적으로 비슷한 모양의 자형을 조합하여 해당 한자의 정보(음/훈/부수/획수/유니코드)를 확인할 수 있는 서비스이다. 누구나 쉽게 몇 번의 자형 클릭만으로 한자를 찾을 수 있다.

 

한문 고문헌 자료의 OCR -> 자동표점 -> 자동번역 서비스를 목표로

 

누리IDT의 <고문헌한자시스템>은 고문헌 자료의 글자 인식(OCR)에서 인식된 텍스트의 문장 분절과 표점, 나아가 한문 텍스트의 한글 번역에 이르는 과정을 인공지능 기반으로 자동 처리하는 한문 고문헌 자료의 토털 솔루션 서비스를 지향하고 있다.

 

누리IDT의 배성진 대표는 이번에 그 첫 단계로 고성능의 <고문헌 한자 OCR 서비스>를 출시하며, “최근 ChatGPT 등 초거대 모델 기반의 생성 인공지능이 주목받고 있지만 정작 콘텐츠의 보고인 고문헌 자료는 여전히 인공지능 기반의 자동 처리가 미치지 않는 영역으로 남아 있다. 300만 점 이상으로 추산되는 국내 고문헌 자료는 약 50% 정도가 디지털 원문 이미지로 구축되어 있을 뿐이고 텍스트 디지털화는 5%를 밑돌고 있는데, <고문헌 한자 OCR 서비스>가 적극 사용되어 원문의 텍스트화가 촉진되기를 바란다. 당사도 고문헌 처리에 특화된 인공지능 기반의 한문 자동표점과 자동번역 서비스를 단계적으로 개발해서 <고문헌한자시스템>을 이용해 누구나 쉽게 고문헌 자료를 읽고 데이터와 콘텐츠로써 활용할 수 있게 하겠다.”라고 포부를 밝혔다.

 

<고문헌한자시스템>의 대표 서비스인 <고문헌 한자 OCR 서비스>는 서버의 안정적인 운영을 위해 사용자는 간단한 회원 가입 절차를 거쳐 사용해 볼 수 있으며, 많은 자료의 텍스트화는 소정의 유료 서비스로 제공된다. <고문헌 한자 OCR 서비스> 말고도 <고문헌 이미지 검색>, <OCR API>, <한자 자형 검색> 서비스는 누구나 자유롭게 사용할 수 있다.

 

누리IDT <고문헌한자시스템> 바로 가기 https://ocr.nuriidt.co.kr/