국어 정보화

말뭉치(corpus)란 무엇인가?

이승재(李承宰) / 국립국어연구원

국어 정보 처리에 관련된 작업을 하다 보면 가끔 ‘말뭉치’라는 단어를 만나게 된다. 영어의 ‘corpus’를 우리말로 번역한 이 단어는 ‘말모둠’으로 번역하기도 한다. 그러면 ‘corpus’란 무엇인가? 있는 그대로 해석하면 사람이나 짐승의 몸, 또는 시체를 가리키는 말이다.


말뭉치는 언어 현실을 총체적으로 보여줄 수 있는 언어 자료의 집합

대표적인 영어 사전인 Longman 사전에서는 ‘corpus’를 ‘연구를 위한 자료나 정보의 모음’이라고 규정하고 있고 Oxford 사전에서는 ‘언어학과 사전 편찬에서 한 언어를 대표하는 것으로 생각되는 원문, 발화 또는 기타 표본들의 뭉치로 대개 전자 자료의 틀로 저장되어 있는 것’을 ‘corpus’라고 풀이하고 있다. 국어 정보 처리 분야에서는 ‘연구 대상 분야의 언어 현실을 총체적으로 보여 주는 자료의 집합’을 ‘corpus’로 규정하고 있다.
      번역어인 ‘말뭉치’를 있는 그대로 해석하면 말을 뭉쳐놓은 덩어리라는 뜻이다. 상당히 추상적인 개념이다. 그러면 말을 뭉쳐 놓은 덩어리는 구체적으로 무엇을 말하는 것일까?우리는 일상 생활에서 수많은 언어 자료를 접하며 살아간다. 아침에 일어나면 우선 글자로 인쇄된 신문을 보게 된다. 출근 길에 버스나 전철을 타면 각 정거장 이름을 우리말로 알리는 안내 방송이 귀를 따갑게 하고 글자로 된 많은 광고 문구들이 시야를 어지럽힌다. 학교나 직장에 도착하면 인쇄된 교과서나 문서를 마주하게 되고 퇴근 후 음식점이나 노래방에 가게 되면 글자로 쓰여 있는 메뉴판이나 노래책을 보게 된다. 이 모든 것들은 현재 한국 사회의 언어 현실을 보여 주는 자료들이다. 넓은 의미에서 이러한 자료들은 모두 말뭉치라고 할 수 있다.
      그러면 언어 현실을 보여줄 수 있는 자료이면 무엇이든 말뭉치가 될 수 있는가? 말뭉치를 넓은 의미로 해석하면 언어 자료들이 조직적인 정보의 형태로 모여 있는 것은 모두 말뭉치라고 할 수 있다. 어떤 사람이 제주도 지역의 언어를 조사하여 그것을 카드에 체계적으로 정리하였다면 그것도 하나의 훌륭한 말뭉치가 된다. 그리고 인터넷 홈페이지에 유용한 자료를 만들어 놓았다면 그것도 역시 말뭉치가 될 수 있다. 그래서 말뭉치에는 언어 현실을 보여줄 수 있는 구어 자료나 문어 자료, 전산화된 자료와 전산화되지 않은 자료들이 모두 포함될 수 있다. 그러나 말뭉치를 좁은 의미로 해석하면 컴퓨터가 읽을 수 있는 형태로 저장된 일정 규모 이상의 언어 자료만을 가리키게 된다. 왜냐하면 조사 대상 언어의 현실을 정확하게 파악하기 위해서는 언어 자료가 골고루 수집되어야 하기 때문이다. 한국의 언어 현실을 파악하기 위해서는 한국 전역에서 광범위한 조사가 이루어져 대규모의 말뭉치가 컴퓨터로 입력되어야 정확한 언어 현실을 파악할 수 있을 것이다. 결국 말뭉치를 구체적으로 표현하면 일정 규모 이상의 크기를 갖추고 그 시대의 언어 현실을 골고루 반영한 자료의 집합체라고 할 수 있다.


말뭉치는 언어 정보 처리를 위한 필수적 기본 자료

우리가 국어 연구를 하기 위해서는 국어로 된 소설, 신문, 잡지와 같은 자료들이 있어야 한다. 컴퓨터가 국어 정보를 처리하기 위해서도 컴퓨터가 읽을 수 있는 국어 자료가 있어야 한다. 말뭉치는 컴퓨터가 언어 자료 처리를 할 수 있도록 기본적으로 마련해 놓아야 하는 자료이다. 우리는 컴퓨터에 말뭉치를 제공하고 난 후 사람이 하기에는 시간이 많이 걸리는 작업을 컴퓨터에 맡기면 된다.
      말뭉치는 국어 정보 처리에 다양한 용도로 쓰인다. 특히 사전 편찬을 할 때 용례 추출에 많이 쓰인다. 수많은 문학 작품 속에서 해당 단어에 알맞은 예문을 찾는 작업은 사람이 할 경우 대단히 많은 시간을 필요로 하지만 컴퓨터는 빠르게 할 수 있다. 그래서 예전에는 사전 편찬을 하기 위해서 일생을 바쳐야 했던 작업이 요즈음에는 5∼10년으로 줄어들었고 앞으로는 더욱 줄어들 전망이다.