국어 정보화

정보화 시대의 우리말과 우리글

이승재 국립국어연구원

우리말은 영어와 달리 어미나 조사와 같은 문법적 형태가 매우 발달한 교착어이다. 그래서 우리말은 단어 뒤에 다양한 형태소들이 결합하여 문장을 만들게 된다. 그런데 그 형태소 중에는 관형형 어미 ‘-ㄴ’과 같이 한 음절을 이루지 못하는 경우도 있고 조사 ‘-가’와 같이 한 음절을 이루는 경우도 있다. 그러나 이들이 단어와 결합하면 ‘착한, 철수가’에서와 같이 모두 한 음절 단위로 소리를 내며 쓰인다.
   한글은 이러한 우리말의 체계와 특징을 글자에 그대로 반영하여 글자를 초성, 중성, 종성의 세 부분으로 나누어 쓰되 한 음절씩 모아쓰도록 하였다. 그 결과 한글은 우리말의 구조를 효과적으로 표현할 수 있게 되었고 오늘날 24자의 자모를 가지고 11,000여 개의 글자를 조합하여 만들어낼 수 있는 뛰어난 확장성을 가지게 되었다.
   그러나 한글을 기계로 처리하면서 우리는 이러한 한글의 특성을 효과적으로 활용하지 못하였다. 타자기가 우리나라에 처음 보급되었을 때 우리는 한글을 기계화하기 힘든 골칫덩어리 글자로 생각하였다. 한글은 로마자와 달리 모아쓰기를 하면서 받침을 가지고 있기 때문에 타자기로 글자를 만들어내기가 어려웠던 것이다. 그러나 컴퓨터에서 한글을 입력하면서부터 이 문제는 다른 각도로 정리되기 시작하였다.
   컴퓨터에서 ‘한’이라는 글자를 입력할 경우 이것을 ‘ㅏ, ㅎ, ㄴ’의 순서로 잘못 입력한다든가 ‘한’을 입력하기 위하여 ‘ㅎ’을 입력하고 잘못하여 같은 자음자인 ‘ㅊ’ 등을 연이어 입력하면 이들은 한 글자로 모아지지 않고 ‘ㅏㅎㄴ’과 ‘ㅎㅈ’의 형태로 나타난다. 이것은 한글의 창제 원리에 들어 있는 글자의 과학적인 구성 원리가 오타를 미리 지적하는 기능을 하였기 때문이다. 이처럼 한글의 과학적 원리는 기계화의 부족한 부분을 도와주는 역할을 할 수도 있다.

완성형 한글은 2,350자밖에 나타낼 수 없어

그러나 컴퓨터에서 한글을 사용하는 문제에서 우리는 아직도 자유롭지 못하다. 현대 한글의 경우 윈도 95에 들어있는 완성형 한글은 2,350자밖에 되지 않는다. 조합형 한글을 사용하면 11,000여자의 한글을 사용할 수 있으나 옛글자는 여전히 처리할 수가 없다. 옛글을 지원해 주는 ‘글’과 같은 문서편집기를 사용하여도 옛문헌에서 발견된 옛글자들을 모두 입력할 수는 없다.
   요즈음 우리는 인터넷을 통하여 많은 양의 정보를 주고 받는다. 인터넷에서 우리말로 된 정보를 찾기 위해서는 한글을 사용하여 정보를 찾아야 효과적이고 편리하다. 하지만 대부분 완성형 한글을 사용하는 현재의 인터넷 체제에서는 2,350자에 들어있지 않은 한글을 사용하여 정보를 찾아 볼 수 없기 때문에 옛글자로 쓰여진 우리 문헌이나 작품 속에 들어있는 내용도 제대로 찾아 볼 수가 없다. 인터넷에서 옛글자를 입력할 수 없기 때문이다.
   그렇다면 완성형 한글의 범위를 벗어나는 자료는 인터넷에서 찾아볼 수 없는가? 방법이 전혀 없는 것은 아니다. 완성형 한글의 범위를 벗어나는 자료들은 그림과 마찬가지로 처리를 하여 글자와 함께 섞어두면 인터넷에서도 옛글자로 된 자료들을 볼 수 있다.
예를 들어 ‘솅엉졩 훈민 ’이라는 구절이 있으면 여기에서 현대 완성형 한글에 들어 있는 ‘훈’자와 ‘민’자는 그대로 두고 ‘솅, , 엉, 졩, , ’을 한 자씩 사진을 찍듯 그림으로 만들어 ‘훈민’이라는 단어 좌우에 붙여 놓는 것이다. 이렇게 하면 인터넷에서 ‘솅엉졩 훈민 ’이라는 글자를 볼 수 있게 된다. 그런데 문제는 이렇게 그림으로 처리된 글자는 컴퓨터가 가지고 있는 글자 목록에 들어 있지 않기 때문에 입력을 할 수도 없고 검색을 할 수도 없다는 것이다. ‘솅엉졩 훈민 ’이라는 글자들을 볼 수는 있어도 본문 안에 쓰인 ‘ ’과 같은 글자는 문서 안에서 검색해 볼 수 없는 것이다.
   최근 이를 보완하기 위한 프로그램들이 등장했으나 한정된 문서편집기(워드프로세서) 안에 들어 있는 자료들을 보여줄 뿐이다. 우리가 한국어를 정보화하여 컴퓨터에서 이용하려면 컴퓨터의 전 영역에 걸쳐 한글을 무리없이 이용할 수 있어야 한다. 이를 위해서는 우리말과 우리글의 특성이 철저히 파악되어 컴퓨터에 반영되어야 한다.

우리말과 우리글에 대한 과학적 연구 필요

우리말은 단어와 형태소가 음절 단위로 결합하는 특징을 가진다. 우리말의 이러한 특징은 한글에 그대로 반영되었고 컴퓨터에도 그대로 반영되어야 한다. 그래야만 컴퓨터도 한국 사람이 생각하는 것과 같은 방식으로 말을 만들어 낼 수 있고 한국 사람이 하는 말을 알아 들을 수 있게 된다. 컴퓨터에 들어가는 글자의 목록과 구성 원리가 중요해지는 이유도 바로 여기에 있는 것이다.
   만일 어떤 사람이 인터넷에서 한국에서 한 해에 교통사고로 사망하는 사람이 얼마인가에 관한 자료를 찾는다고 해 보자. 검색어에 ‘교통사고’라고 친다면 검색 결과는 엄청나게 많이 나올 것이다. 그 가운데에는 교통사고 사망률과 관계된 자료도 있겠지만 그렇지 않은 자료도 상당수 섞여 있을 것이다. 만일 그가 ‘한국의 교통사고 사망자 수는 한 해에 얼마인가?’라는 문장을 컴퓨터에 입력하여 이를 컴퓨터가 알아 듣고 그에 해당하는 정확한 검색 결과를 제공해 준다면 이는 생각만 해도 흐뭇한 일이 아닐 수 없다.
   이처럼 우리말을 컴퓨터가 해석하기 위해서는 이를 다시 단어와 형태소로 분리하여 문장 구조와 의미를 따져 보아야 한다. 이러한 작업이 가능해지기 위해서는 컴퓨터가 한국어 단어와 형태소에 대한 목록을 미리 가지고 있어야 하고 또 이들이 문장 안에서 쓰이는 용법이 유형별로 정리되어 컴퓨터에 들어 있어야 한다. 따라서 정보화 시대에 우리말과 우리글을 제대로 살리기 위해서는 우리말과 우리글에 대한 체계적이고 과학적인 연구가 지속적으로 뒷받침되어야 한다.