[특집/동양 삼국의 사전 편찬에 관한 문제]

설명 결합 자전에서의 어휘 정의

lgor Mel'čuk(이고르 멜추크) / 몬트리올 대학 언어학과 교수

내가 주장하는 사전은 설명 결합 사전(explanatory combinatorial dictionary, 이하 ECD)이다. ECD는 언어학의 의미-텍스트 이론과 밀접한 관련을 맺고 있다. 의미-텍스트 이론은 1965년경 나와 아프레샨(Apresjan), 그리고 UCLA의 졸코프스키(Zholkovskij)가 함께 개발한 것이다. 의미-텍스트 이론의 기본적인 주장은 자연 언어를 무한 집합의 의미와 무한 집합의 텍스트 사이의 대응 관계의 체계라고 보는 것이다. 이 대응 관계를 형식적 규칙으로 기술하는 것이 의미-텍스트 모델이다. ECD는 의미-텍스트 모델의 핵심 요소의 하나이다. ECD는 다음의 다섯 가지 특질을 가지고 있다.

1. 산출(production) 지향적이다. 개별 어휘에 의해 나타내어지고 주어진 의미를 표현하는 데 필요한 모든 정보를 보여 주려고 한다.
2. 의미에 바탕을 두고 있다. 특별한 의미적 언어로 씌어진 어휘 항목의 정의는 그 어휘의 모든 통합적, 계열적 관계에 대한 기술의 기초가 된다.
3. 결합적(combinatorial)이다. 가능한 한 가장 세밀하게 어휘의 통사적, 어휘적 결합 관계를 기술한다.
4. 체계적(systematic)이다. 사전을 편찬할 때 기술의 동질성을 특별히 강조한다.
5. 형식적(formal)이다. 모든 정보는 풍부한 메타언어에 의해 제시된다. 메타 언어는 사전 편찬학에서 전혀 시도된 적이 없는 엄밀성을 보장한다.

ECD의 첫 번째 특징은 그것이 '의미(semantic)' 사전, 의미 중심의 사전이라는 것이다. 이 사전은 주어진 의미가 한 자연 언어에서 어떻게 표현될 수 있는가를 조사해서 모든 가능한 표현을 체계적으로 목록화한다. 이 사전은 일반 언어 이론으로서 의미-텍스트 이론(meaning-text theory)에 바탕을 두고 있는데 의미-텍스트 이론은 환언(paraphrase) 관계를 중시한다. 여러 가지 표현이 하나의 의미를 가리킬 수 있고 하나의 의미가 여러 표현에 의해 나타내어질 수 있는 현상은 환언 관계에 의해 기술할 수 있다. ECD는 이 환언 관계를 다 보여 주고자 한다.
    ECD는 한 의미에 대한 다양한 표현을 담은 사전이다. '설명적(explanatory)'이라는 것은 어휘 사이의 결합 관계를 총망라해서 보여 준다는 것이다. 따라서 이 사전은 전통적인 단어 사전이 아니며, 맥락을 보여 주는 문맥 사전이기 때문에 실용적, 상업적 사전이 아니고, 이론적, 과학적인 어휘 사전이다. 한 단어 기술이 60페이지를 넘기도 하고, 완간이 되면 100권이 넘을 수도 있다. ECD에서는 어휘의 의미를 컴퓨터를 사용하여 기계적으로, 모국어이건 외국어이건, 모두 기술할 수 있다. 이러한 사전은 이전에는 없었던 것이다. ECD는 두 번째로 어휘적 공기(lexical coocurrence)를 중시하는 사전으로서 개별 어휘를 단위로 만들어진 사전이 아니고 구(phrase)에 대한 사전이다. 예를 들어 '텔레비전을 보다', '영화를 보다'처럼 한국어의 경우 '보다'는 목적어로서 텔레비전, 영화 모두 취할 수 있지만 영어에서는 'watch TV','see a movie'처럼 목적어에 따라 다른 동사를 사용하는데 ECD에서는 이러한 결합 관계를 명시적으로 보여 주려고 한다. 다른 한 예를 들면 영어에서 '오르다'는 'steep rise','내리다'는 'cut drastically'라고 하여 동사에 따라서 부사를 달리 선택하는 특징을 가지고 있다. 이러한 어휘의 결합 관계의 유형은 보편적인 것이며 그 수는 50여 개로 한정된다. 어휘의 결합 관계를 담는 사전은 어휘 기술을 위한 사전인데 특정한 언어 이론에 바탕을 둔 메타언어(meta-language)를 사용한다.
    ECD는 세 번째로 과학적이라는 특징을 가지고 있다. 왜냐하면 형식적인 메타언어를 사용하기 때문이다.
    오늘은 주로 ECD에서의 어휘의 의미 정의 방법을 보여 주고자 한다. 이를 위해서는 세 가지 방법이 있을 수 있다. 그중 한 가지는 기존의 영어의 정의를 검토하는 것이다. 그러나 그런 방법은 택하지 않겠다. 내가 잘 모르는 언어인 한국어의 동사를 가지고 정의해 보이겠다. 영어의 'follow'와 동의인 '따라 가다'를 가지고 해 보도록 한다.
    명제 형태(propositional form)는 다음과 같다.

X follows Y to Z
X-ka Y-rul Z-e ttarakata

그런데 어휘에는 전제(presupposition)가 있다. 영어의 경우에 "I did not follow Professor Hong."이라고 하면 "Profsssor Hong went there."가 성립한다. 한국어의 경우도 마찬가지로 "철수가 영희를 따라가지 않았다."라고 해도 "영희가 어딘가에 갔다."는 성립한다. 즉 전제는 부정될 수 없다.
    어휘의 정의에는 절대적 상호 교체 가능성(absolute mutual substitutibility)이 있어야 한다. 즉 정의어와 피정의어가 어느 경우에도 완전히 대치 가능해야 한다.'follow'의 경우에 다음과 같은 전제가 성립한다.

Y가 Z에 간다.
X가 Y의 뒤에서 간다.

그리고 Y가 X에게 보이지 않아도 된다. 즉 X가 간 지 세 시간 후에 따라간다 해도 가능하다. 그리고 Y가 어디에 갔는지를 X가 알고 있어야 한다. 간 곳을 알지 못하면 'follow'가 성립할 수 없으므로 Y가 어디에 갔는지를 X가 알고 있어야 한다는 것이 'follow'의 의미의 일부로 간주되어야 할 것이다. 그리고 러시아 어 동사는 따라가는 시간의 차이에 다른 동사를 사용하거나 혹은 동사의 상(aspect)이 달라진다. 어쨌든 영어의 'follow'는 다음과 같이 정의될 수 있다.

X goes to Z with the goal to be with Y in Z.

여기서 중요한 것은 의미 정의에 있어서 대치 가능성이 필수적이라는 점이다. 이는 '적합성(adequacy principle)' 원칙과 관련된다.
    두 번째로는 어휘 분해(decomposition)가 필수적이다. 여기서는 피정의어보다 정의어가 의미론적으로 더 간단하고 단순해야 한다는 점이 중요하다. 그러자면 피정의어가 정의어로서 나타나서는 안 된다. 더 분해할 수 없는 말은 의미 원소가 된다. 이 의미 원소로써 단어를 정의해야 한다. 의미 자질(semantic feature)과는 전혀 다른 것이다. 의미 원소(semantic primitive)는 자연 언어로서 더 분해될 수 없는 어휘를 말한다. 논리적 순환성이 나타나서는 안 된다는 점이 중요하다.
    세 번째로는 'univocity' 원칙을 따라야 한다. 정의에 사용되는 용어는 단지 한 개의 잘 명시된 의미만을 지니고 있어야 하며, 각 의미는 단지 하나의 용어에 의해 표현되어야 한다. 즉 동의성(synonymy)도 없어야 하고, 중의성(ambiguity)도 없어야 한다.
    위의 'follow'에 대한 정의가 세 가지 요건을 충족시키지만 이것으로 충분한가? 그렇지 않다. 'behind'의 문제가 있다. 즉 X가 Y를 'follow' 한다고 할 때 X가 Y의 뒤에 있어야만 하는가, 아니면 X가 Y의 옆이나 앞에 있어도 되는가? 영어의 'follow'의 경우에는 반드시 뒤에 있어야 'follow'라는 말을 쓸 수 있다. 또 다른 문제로 'X being lower than Y in hierarchy'라는 조건도 필요한지 따져 보자. 예를 들어, 남편은 비행기를 타고 가고, 아내는 배를 타고 따라가도 'follow'라고 할 수 있는가? 문제가 없다. 그러나 "모기가 파리를 followed."는 되지만 "사람이 파리를 followed."는 어떤가? 약간 어려울 것 같다. 한국어도 마찬가지일 것 같다.
    ECD에서는 의존 문법(dependency grammar)을 받아들여 지배 유형(government pattern)을 중시한다.

X           Y      Z
Nom  Acc  Loc

여기에는 액턴트(actants)가 있다. ECD에 있어서 어휘 항목의 의미적 영역은 어휘 단위의 정의를 포함하는데 그것은 명제 형태에 기초하고 있다. 명제 형태는 의미적 액턴트에 대한 변항을 가지고 있다. 어휘 단위의 정의는 어휘 의미의 엄밀한 분해를 뜻한다.
    ECD에 있어서 어휘 항목의 통사적 영역은 지배 유형을 포함한다. 지배 유형은 하위 범주화 틀을 의미하는데 각 액턴트에 대해서 대응하는 심층 통사적 액턴트를 명시하고 텍스트에 그것을 나타내는 모든 표면의 수단을 열거해 보여 준다.
    '따라가다'와 '가다'의 차이를 보면 '바짝'이라는 부사가 '따라가다'는 수식할 수 있는데 '가다'는 수식할 수 없다. '바짝'은 시간적, 공간적 거리를 나타내 준다. '따라가다'는 타동사이지만, '가다'는 자동사이다. 단어를 정의할 때에는 모든 단계를 하나하나 따져 봐야 한다.

X goes33 to Z:go

모든 단어가 다 이와 같은 방식으로 정의될 수 있는 것은 아니다. 'wine'이나 'milk, copper' 같은 말은 정의될 수 있지만 '현대'니 '모젤와인' 따위의 고유 명사는 정의가 불가능하다.

X follows Y in Zing=Y doing Z
                                     X does Z because X wants to do what Y does

'follow'를 정의하는 데 5년이 걸렸다. '따라가다'에 2년 걸린다면 경제적이라고 본다. 자연 언어에는 수십만 개의 동사가 존재한다.
    "죽은 아내를 천당으로 따라갔다."와 "아내를 따라갔다."의 '따라가다'가 같은 동사냐, 두 개의 동사냐가 문제된다. 같은 단어인지 아닌지는 모르겠다. 단지 틀만 짜고 정의만 내릴 따름이다. 수많은 문장들 속에서 최소 대립쌍(minimal pair)이 있어야 같은지, 다른지를 알 수 있다.
    오늘날 전산 언어학자들은 명시적이고 형식화된 어휘부에 기초한 많은 언어 분석과 종합 체계를 알고 있다. 그러나 전통적으로 이러한 체계는 어휘 정보에 대한 '평어면적인' 표시를 이용하고 있다. 보다 구체적으로 말하자면 고전적인 전산적 어휘부의 어휘 항목은 독립적인 명제이다. 즉 모든 다른 항목과 완전히 독립적인 구조이다. 따라서 한 어휘 항목에 대한 정보는 다른 나머지 어휘와 관련을 맺지 못하고 있다. 이러한 기존의 전산적 사전과는 달리 ECD는 체계적으로 구조화되어 있다.
    한 어휘의 의미와 공기 관계는 다른 어휘로써 명시된다. 한 어휘에 대해 ECD에서 나타내어진 총합은 전산에 적용하려고 할 때 때로 지나치게 자세하게 보일지 모른다. 그러나 우리는 그렇게 생각하지 않는다. 전통적인 언어학에서와 마찬가지로 전산 언어학에서도, 어휘에 대한기술은 가능한 한 완전하고 체계적이며 자세해야 한다고 본다. 그래야만 가능한 모든 연구 환경에 이용될 수 있다. ECD에서의 어휘 기술은 어떤 작업의 요구도 만족시킬 수 있는, 모든 어휘적 정보를 포함하고 있다. 구체적인 특정 작업에서는 필요한 정보만 빼내서 쓸 수 있다. 한 어휘 항목이라도 정확하고 형식적인 틀 안에서 엄밀하게 기술하는 것은 그 자체로 이 분야에 있어 발전이라 할 수 있다.

참고 문헌
    Mel'čuk, lgor A. and Polguere, Alain(1987), A formal Lexicon in the meaningtext theory(or how to do lexical with words), Computational Linguistics, Vol.13, Nos. 3·4.
    Mel'čuk, lgor(1988), Semantic description of lexical units in an explanatory combinatorial dictionary: basic principles and heuristic criteria, International Journal of Lexicography, Vol. 1, No. 3.