2025.05.09 (금)

  • 구름많음동두천 17.6℃
  • 맑음강릉 20.3℃
  • 구름많음서울 18.2℃
  • 맑음대전 18.5℃
  • 맑음대구 19.0℃
  • 맑음울산 20.0℃
  • 맑음광주 18.4℃
  • 맑음부산 19.1℃
  • 맑음고창 18.4℃
  • 맑음제주 21.3℃
  • 구름많음강화 15.3℃
  • 구름조금보은 17.3℃
  • 맑음금산 18.1℃
  • 맑음강진군 18.7℃
  • 구름조금경주시 20.7℃
  • 맑음거제 19.7℃
기상청 제공
상세검색
닫기

문화 넓게 보기

국내 처음 고문헌 한문 AI 자동번역 프로그램 공개

누리IDT, 한문 원문을 1,000자까지 1초 만에 한글로 자동 번역
고성능의 AI 기반 대형 고문서 OCR도 개발 출시

[우리문화신문=김영조 기자]  지능형 데이터 전문 기업 (주)누리아이디티(대표 배성진)는 5월 12일 고문헌 한문을 현대 한국어로 옮겨 주는 <고문헌 자동 번역> 프로그램을 국내 기업 처음으로 개발해 공개했다. 인공지능(AI) 모델 기반의 이 프로그램은 전통 고문헌의 옛 한문을 글자로 입력하면 원문 1,000자까지 1초 이내에 한글로 자동 번역하여 출력해 준다. 이 자동 번역 프로그램을 이용하면 대부분 원문 형태로 산적해 있는 수많은 고문헌 콘텐츠를 전문 연구자는 물론 일반인도 손쉽게 이해하고 활용할 수가 있다.

 

일반인도 고문헌 콘텐츠에 접근할 수 있는 길 열어

 

최근 인공지능 기술의 발달에 힘입어 기계를 사용해 한 언어를 다른 언어로 자동 번역하는 기술도 주목할 만한 수준에 도달해 있다. 네이버 파파고, 구글 번역기 등 첨단 대기업들이 제공하는 자동 번역 서비스는 사용자들이 실생활에서 외국어 글자를 이해하는 데 큰 도움을 주고 있다. 하지만 이러한 지구촌 자동 번역 서비스는 영어, 중국어, 일본어 등 수요가 많은 현대의 주요 언어 간 번역 부문에 주력하고 있어, 전통 고문헌의 옛 한문과 같이 특수한 부문의 경우에는 간편한 사용과 양호한 번역 품질을 기대하기 어려운 실정이다.

 

 

이번에 누리IDT가 개발 공개한 <고문헌 자동 번역> 프로그램은 전통 고문헌의 언어인 옛 한문을 현대 한국어로 번역하는 데 특화된 인공지능 모델을 기반으로 한문 번역 전용 프로그램다운 사용의 편리성과 실용적인 수준의 번역 품질을 제공한다.

 

최신 트랜스포머(Transformer) 계열의 인공지능 모델을 조선 시대 자료에서 구축된 다량의 학습 데이터로 훈련시켜 개발한 이 프로그램은 표점이 된 한문 글자를 한 번에 1,000자까지 한글로 자동 번역해 주며, 특히 조선 후기의 사서와 문집류 한문의 경우에는 초벌 번역 이상의 번역 품질을 보인다. 전문 연구자 등 한문을 잘 아는 사용자는 이 프로그램을 이용하여 고문헌 관련 연구와 업무에 획기적인 시간 단축을 기대할 수 있고 일반인들도 낯설기만 했던 고문헌의 내용을 어느 정도 이해할 수 있다.

 

우리나라의 고문헌 자료는 문화 콘텐츠의 보고로 알려져 있다. 그런데 300만 점 이상으로 추산되는 국내 고문헌 자료는 약 50% 정도가 디지털 원문 이미지 형태이고, 원문의 글자화는 10% 수준에 머물러 있으며, 더욱이 현대어 번역은 3%를 밑돌고 있다. 고문헌 자료가 문화 콘텐츠로서 널리 활용되기 위해서는 원문이 디지털 글자로 전환되어 검색과 공유가 쉬어야 하며, 나아가 현대어로 번역되어 누구나 쉽게 읽을 수 있어야 한다.

 

 

하지만 조선 후기의 중요한 역사 자료로서 국가 기관에서 한창 번역 작업 중인 《승정원일기》나 《각사등록》만 해도 완역에 앞으로 각각 30년, 50년이 소요될 것이란 전망이다. 이처럼 고문헌 자료의 번역 보급이 쉽지 않은 상황에서 누리IDT의 <고문헌 자동 번역> 프로그램이 전문가는 물론 일반 사용자들도 원문에 머물러 있는 고문헌 콘텐츠에 쉽게 다가갈 수 있는 길을 열기 시작한 것이다.

 

두루마리 문서도 자동 인식하는 <대형 문서 OCR>, <영역 인식 OCR>도 개발 출시

 

이와 함께 누리IDT는 두루마리 문서처럼 크기가 큰 대형 고문서의 수록 문자를 한 번에 자동 인식하는 <대형 문서 OCR> 프로그램과 구조가 복잡한 문서에 대해 영역을 분할해 문자를 인식하는 <영역 인식 OCR> 프로그램도 개발해 이번에 공개했다. 누리IDT가 서비스 중인 <고문헌 AI 시스템>의 사용자들로부터 절대적인 요청을 받고 개발해 추가 서비스하게 된 이 두 종의 새로운 OCR 프로그램으로 그간 크기와 복잡성 때문에 유보되고 있던 대형 고문서 원문의 디지털 텍스트 전환이 속히 앞당겨지게 되었다.

 

 

누리IDT는 지난 2년 동안 인공지능 모델이 고문헌 한자를 평균 98%의 정확도로 자동 인식하여 디지털 텍스트로 변환해 주는 고성능 <한자 OCR> 서비스와 고문헌 한문을 자동으로 띄어쓰기해 주는 <고문헌 자동 표점> 프로그램을 연차적으로 개발하여 언론과 학계의 주목을 받은 바 있다. 그리고 이번에 <고문헌 자동 번역> 프로그램과 함께 <대형 문서 OCR>, <영역 인식 OCR>도 개발함으로써 ‘고문헌 텍스트 추출 – 표점 – 번역’의 3단계 과정을 인공지능 모델을 통해 자동 처리하는 고문헌 인공지능 토털 솔루션을 3년 만에 완성하게 된 것이다.

 

손말틀로 원문을 사진 찍고 번역까지 확인하는 한자리 서비스 개발이 목표

 

누리IDT의 <고문헌 AI 시스템>은 고문헌 자료의 자동 인식 -> 자동 표점 -> 자동 번역의 자동 처리 솔루션을 목표로 하는 서비스이다. <고문헌 자동 번역>과 <대형 문서 OCR>, <영역 인식 OCR>을 신규 서비스하면서 누리IDT의 배성진 대표는 “2년 전 <고문헌 한자 OCR>을 출시한 이후 마침내 고문헌 토털 솔루션의 최종 3단계에 도달하게 되었다.

 

이번에 새롭게 공개하는 자동 번역 서비스가 고문헌 콘텐츠의 활용에 적극 사용되기를 바란다. 이제 당사는 출시 서비스의 성능 향상에 노력하는 한편으로, 손말틀(휴대폰)로 고문헌 원문을 사진 찍고 그 자리에서 번역 결과까지 확인할 수 있는 한자리(원스톱) 서비스 개발을 목표로 하겠다.”라고 포부를 밝혔다. 대형 문서를 포함한 고문헌 OCR에서 자동 표점, 자동 번역을 망라한 누리 IDT의 고문헌 합계 서비스는 <고문헌 AI 시스템> 웹페이지에서 간단한 회원 가입을 거쳐 누구나 사용해 볼 수 있다.

 

▶ 누리IDT 고문헌 AI 시스템 바로가기 https://ocr.nuriidt.co.kr/