국립국어원, 인공지능 학습용 한국어 자료 ’22년 첫 공개

2022.04.02 11:58:33

감성ㆍ추론ㆍ개체명 분석, 개체 연결, 신문 등 11종 공개

[우리문화신문=김영조 기자]  국립국어원(원장 장소원)은 인공지능의 한국어 처리 능력 향상에 필수적인 인공지능 학습용 한국어 자료 11종(신규 8종, 정비 3종)을 4월 1일(금) 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에서 공개한다. 이번 공개 자료는 국립국어원에서 2021년 한 해 동안 구축하고 정비한 자료로 온라인 약정서를 작성하여 승인받으면 누구나 파일을 내려받아 이용할 수 있다.

* 말뭉치: 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료(언어 빅데이터)

 

최근 4차 산업혁명 시대가 다가옴에 따라 인공지능의 언어 능력을 강화하기 위하여 빅데이터 형태의 언어 학습 자료인 말뭉치의 중요성이 더욱 커지고 있다. 이에 국립국어원은 2021년에 수집한 신문, 국회 회의록, 온라인 대화 등을 담은 원시 자료 4종과 속성 기반의 감성, 추론 확신성, 개체명 정보를 분석한 자료, 개체명 분석 정보에 위키피디아 지식 정보를 연결한 개체 연결 자료 등 분석 자료 7종을 공개한다.

 

 

이번에 새롭게 수집하여 공개하는 자료는 ’21년에 생산된 35개 매체의 신문 기사와 ’03년부터 ’20년까지 만들어진 국회 소위원회 회의록, 온라인상의 대화 자료이다. 그리고 한국어의 특성을 반영하여 속성 기반으로 감성을 분석한 말뭉치, 일반인이 문장에서 추측할 수 있는 가설을 확신하는 정도를 표시한 추론 확신성 말뭉치 등도 공개한다.

 

특히 속성 기반 감성 분석 말뭉치*와 추론 확신성 말뭉치**는 국립국어원이 하반기에 열 예정인 ‘인공지능의 언어 능력 평가 대회’에 평가 자료로 쓸 예정이어서 이번 공개에서는 전체 자료의 절반 분량만 공개하였다. 해당 대회를 위해 하반기에는 비윤리 표현 말뭉치, 표/그림 등에 대한 유사문장 생성 말뭉치 등도 공개할 예정이다.

* 속성 기반 감성 분석 말뭉치: 주제별(여행, 영화, 제품)로 대표적인 속성(여행: 편의성/접근성/인지도, 영화: 연출/구성/연기, 제품: 가격/디자인/품질 등)을 정의해서 이에 대한 화자의 감성(긍정/부정/중립)을 분석한 말뭉치

** 추론 확신성 말뭉치: 문장이 포함하는 가설에 대한 화자의 확신성 정도를 표시한 말뭉치

 

 

이 밖에도 개체명 분석 말뭉치에 위키피디아의 지식 정보를 연결한 개체 연결 자료, 그리고 인공지능이 인터넷상의 우리말 자료를 좀 더 쉽게 분석할 수 있도록 교정한 맞춤법 교정 말뭉치도 공개한다.

 

국립국어원이 수집하고 구축한 한국어 말뭉치는 2020년 8월 공개한 이래로 1만여 건 이상 나누었으며 270여 개의 기업 및 기관이 활용하고 있다. 특히 법률 자료를 다루는 엘박스 등 중소기업 및 새싹기업이 따로 시간과 비용을 들이지 않고도 한국어 처리 기술 개발에 쉽게 접근하고 있으며 네이버, 삼성, 에스케이텔레콤 등 대기업이나 한국전자통신연구원(ETRI) 등 관련 연구기관도 인공지능 학습에 활용하여 다양한 서비스 개발과 성능 향상을 꾀하고 있다.

 

국립국어원 장소원 원장은 “국립국어원은 앞으로도 인공지능 기술 개발을 위한 전문적이고 분석적인 우리말 자료를 지속적으로 구축, 공개하여 인공지능의 우리말 능력을 향상하는 데 많은 도움이 되도록 지원할 계획이다.”라고 말했다.

 

 

김영조 기자 pine9969@hanmail.net
Copyright @2013 우리문화신문 Corp. All rights reserved.


서울시 영등포구 영신로 32. 그린오피스텔 306호 | 대표전화 : 02-733-5027 | 팩스 : 02-733-5028 발행·편집인 : 김영조 | 언론사 등록번호 : 서울 아03923 등록일자 : 2015년 | 발행일자 : 2015년 10월 6일 | 사업자등록번호 : 163-10-00275 Copyright © 2013 우리문화신문. All rights reserved. mail to pine9969@hanmail.net