국립국어원

보도 자료 상세보기

국립국어원, 인공지능 학습용 한국어 자료 2차 공개

작성자 국립국어원 등록일 2021. 3. 30. 조회수 11018

첨부파일 총1건 (0 MB) 전체 내려받기

210325_보도자료_인공지능 학습용 한국어 자료 2차 공개_최종수정.hwp 미리보기

국립국어원, 인공지능 학습용 한국어 자료 2차 공개
- 일상 대화 음성, 상호 참조 분석, 신문 등 한국어 자료(빅데이터) 8종 공개 -

국립국어원(원장 소강춘)은 인공지능의 한국어 처리 능력 향상에 필수적인 학습용 한국어 자료 8종(신규 5종, 수정 3종)을 3월 30일(화) 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에서 공개한다. 공개 자료는 ‘모두의 말뭉치’ 누리집에서 온라인 약정서를 작성하여 승인을 받으면 누구나 파일을 내려받아 이용할 수 있다.

국립국어원은 지난해 8월 ‘모두의 말뭉치’에서 한국어 빅데이터 자료인 인공지능 학습용 한국어 말뭉치 13종 18억 어절을 공개한 바 있다. 이번에 공개하는 자료는 새로 공개하는 자료 5종과 기존 공개 자료에서 내용을 추가하고 형식 오류를 수정한 3종의 자료로, 총 4백만 건의 자료와 900만 어절의 분석 자료로 구성되어 있다.

참여자 모두와 저작권 문제를 해결한 인공지능 한국어 학습 자료 공개

이번에 새로 공개하는 자료는 ’20년에 구축한 일상 대화 말뭉치 2,232건과 대화를 녹음한 음성 자료 500시간 분량, ’19년에 생산된 35개 매체의 신문 기사 63만여 건, 그리고 한국어의 특성을 정밀하게 분석한 상호 참조 해결 말뭉치와 무형 대용어 복원 말뭉치 6백만 어절이다. 상호 참조 해결 말뭉치는 같은 대상을 가리키는 표현을 서로 연결(상호 참조)한 자료이고 무형 대용어 복원 말뭉치는 생략된 주어나 목적어 등을 복원한 자료이다.

음성까지 제공한 일상 대화 자료는 연령별, 지역별로 고르게 선정한 2,500여 명의 참여자와 모두 이용 허락 계약을 체결하여 구축한 자료여서 음성을 활용한 대화 시스템 개발 등 다양한 인공지능 서비스 개발과 한국어 음성 연구에 폭넓게 활용할 수 있는 좋은 공공 자료가 될 것이다. 그리고 상호 참조 해결 말뭉치와 무형 대용어 복원 말뭉치는 기계가 인식하기 어려운 한국어의 특성을 심도 있게 분석한 자료로 한국어 인공지능 학습 및 개발에 중요한 역할을 할 것으로 기대된다.

인공지능에 필요한 전문적인 한국어 학습 자료 공급

이번에 새로 공개하는 자료는 수요는 많지만 구축에 많은 비용과 시간이 들고 한국어에 대한 전문적인 이해를 필요로 하기 때문에 기존에 구축된 자료의 양이 많지 않다. 따라서 이번 공개로 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업은 물론 대기업이나 관련 연구 기관 등에도 한국어 처리 기술을 한 단계 더 높이는 데 큰 도움이 될 것으로 기대된다.

이번 공개 자료에는 새로 공개한 자료 이외에도 기존에 배포한 신문 자료와 구문 분석 말뭉치를 수정, 보완한 자료도 포함하였다. 그리고 ’03년에 서울말 변화 양상을 연구할 목적으로 만들었던 ‘서울말 낭독체 발화 말뭉치’도 활용성을 높일 수 있도록 최근 구축하고 있는 말뭉치에 맞추어 형식과 내용을 다듬어 포함시켰다.

국립국어원 소강춘 원장은 “국립국어원은 앞으로 한국어 인공지능이 한국어다운 소통 능력을 갖출 수 있도록 전문적이고 분석적인 한국어 언어 자료를 지속적으로 구축, 공개하여 관련 학계 및 산업계에서 적극 활용할 수 있도록 지원할 계획이다.”라고 말했다.

문화체육관광부와 국립국어원은 ‘18년부터 한국어의 학습용 자료가 될 수 있는 전문적인 한국어 말뭉치를 본격적으로 구축하고 있으며 앞으로 보다 많은 수요 분석을 통하여 인공지능에게 필요한 한국어 말뭉치를 체계적으로 구축해 나갈 예정이다.

[붙임] 모두의 말뭉치 공개 대상 자료 내역

이 자료에 대하여 더욱 자세한 내용을 원하시면
국립국어원 언어정보과 학예연구사 유희정(☎ 02-2669-9638)에게
연락해 주시기 바랍니다.

공공저작물 자유이용허락 표시 기준(공공누리, KOGL) 제1 유형 조건에 따라 저작물의 출처를 구체적으로 표시한 후 이용할 수 있습니다.

이전글 ‘슬리포노믹스’는 ‘숙면 산업, 숙면 경제’로

다음글 ‘콜키지, 코르크 차지’는 ‘주류 반입비’로

알림

보도 자료 상세보기

국립국어원, 인공지능 학습용 한국어 자료 2차 공개