본문으로 바로가기

보도 자료 상세보기

'한국어 학습자 말뭉치' 지난 5년과 앞으로의 5년

작성자 국립국어원 등록일 2021. 6. 10. 조회수 35833
‘한국어 학습자 말뭉치’ 지난 5년과 앞으로의 5년
- 국립국어원, 한국어 학습자 말뭉치 1차 중장기 구축 결과 발표 -



□ 국립국어원(원장 소강춘)은 ‘한국어 학습자 말뭉치 1차 중장기 구축 결과’를 공개하고 앞으로의 2차 중장기 구축 계획을 수립하였다.

□ ‘한국어 학습자 말뭉치’란 외국인이 한국어를 학습하면서 만들어 낸 한국어 자료를 데이터화한 것으로, 한국어 학습자의 언어 사용 양상이나 오류 유형 등을 파악할 수 있어 한국어교육의 과학성과 효율성을 높이는 기초자료가 된다. 이에 국립국어원은 2015년 기초 연구를 시작으로 2020년까지 139개국, 92개 언어권의 표본을 수집하여 약 440만 어절(원시말뭉치 기준)을 구축하였는데, 이는 1차 구축 계획의 목표치인 370만 어절을 넘어선 것이다. 이 자료는 국립국어원 ‘한국어 학습자 말뭉치 나눔터(https://kcorpus.korean.go.kr)’에서 확인할 수 있다.

 

말뭉치 종류

합계

문어

구어

어절 수

표본 수

어절 수

표본 수

어절 수

표본 수

원시 말뭉치*

4,389,460

29,940

3,278,600

27,399

1,110,860

2,541

형태 주석 말뭉치**

3,503,606

23,906

2,502,135

21,641

1,001,471

2,265

오류 주석 말뭉치***

996,160

5,787

501,110

4,644

495,050

1,143

<한국어 학습자 말뭉치 구축 규모(2021. 4. 현황)>

* 원시 말뭉치: 학습자 자료를 가공하지 않은 상태로 모아 놓은 말뭉치를 말한다.

** 형태 주석 말뭉치: 학습자 자료에 한국어 품사 정보 등을 일관된 형식의 표지로 달아 놓은 말뭉치를 말한다.

*** 오류 주석 말뭉치: 학습자 자료에서 발생한 한국어 오류 정보를 일관된 형식의 표지로 달아 놓은 말뭉치를 말한다.

 

한국어 학습자 가장 많이 사용한 단어는 ‘사람’, 가장 많은 오류는 ‘조사’

□ 이번에 구축한 한국어 학습자 말뭉치 자료의 고빈도어를 분석한 결과, 표본 수가 가장 많은 5개 언어권(중국어, 일본어, 베트남어, 영어, 러시아어)의 한국어 학습자들이 많이 사용하는 단어(일반명사 기준)는 ‘사람’인 것으로 나타났다. ‘사람’ 다음으로 언어권별 일반명사 중 고빈도 어휘는 ‘친구, 생각, 때, 일, 공부, 집’이 공통적으로 나타났으며, 이 밖에 중국어권에서는 ‘사회’, 일본어권에서는 ‘이야기’, 베트남어권에서는 ‘여행’, 영어권에서는 ‘시간’, 러시아어권에서는 ‘가족, 남편’ 등이 나타나 언어권별 학습자마다 약간의 차이가 보였다.

주요 언어권 고빈도 어휘 사람 26퍼센트, 친구 18퍼센트, 생각 15퍼센트, 생각 15퍼센트, 때 15퍼센트, 일 10퍼센트, 공부 9퍼센트, 집 7퍼센트


□ 또한 한국어 학습자들이 한국어를 사용할 때 가장 많이 오류를 범하는 것은 ‘조사’인 것으로 나타났다. 오류 주석 말뭉치에서 오류 빈도 상위 100건을 분석한 결과, 조사 오류가 전체 평균 45%로 가장 많은 것으로 나타나 한국어 학습자들이 한국어에서 조사 사용에 특별히 어려움을 겪고 있음을 알 수 있다.

 

‘균형성’을 갖춘 국가 수준 한국어 학습자 말뭉치 2차 중장기 계획 수립

□ 국립국어원은 한국어 학습자 말뭉치 1차 중장기 구축 결과를 바탕으로, 국가 언어자원으로서 한국어 학습자 말뭉치 구축과 활용의 체계적 절차를 마련하고자 2차 중장기 구축 사업 계획을 수립하였다. 2021년부터 2025년까지 진행될 2차 중장기 사업에서는 한국어 학습자의 언어권별(일본어권·영어권·베트남어권·타이어권 학습자 확대)·수준별(학문 목적 고급 학습자 확대)·자료 유형별(구어 말뭉치 확대)·주석 유형별(오류 말뭉치 확대)로 ‘균형성’을 확보하며 560만 어절을 추가 구축하여, 국가 수준의 한국어 학습자 말뭉치 총 1,000만 어절을 달성하는 것을 목표로 한다. 이는 한국어교육학계뿐만 아니라 한국어교육용 인공지능 도구 개발 등 민간에서의 연구 개발을 위한 활용이 가능하도록 하는 것이다.

□ 국립국어원 담당자는 “앞으로 한국어 학습자 말뭉치를 활용하는 학계 연구자 및 민간 개발자 등을 위한 ‘한국어 학습자 말뭉치 아카데미’를 지속적으로 개최하여 국가 주도 한국어 학습자 말뭉치 구축 사업의 성과를 공유하겠다.”라고 말했다.

 

 

붙임. 주요 언어권별 고빈도 어휘 목록(일반명사)

 

이 자료에 대하여 더욱 자세한 내용을 원하시면
국립국어원 한국어진흥과 학예연구사 박미영, 이윤미(☎ 02-2669-9745, 9743)에게 연락해 주시기 바랍니다.

공공저작물 자유이용허락 표시 기준(공공누리, KOGL) 제1 유형 조건에 따라 저작물의 출처를 구체적으로 표시한 후 이용할 수 있습니다.