谈谈英语语料库的使用问题

 

有朋友在“答疑中心”问如何使用“英国国家语料库”(见www.yygrammar.com/guestbook/Guest_Reply.asp?TopicID=1711)。关于如何合理使用“语料库”的问题,本站曾发过目佳老师的一篇文章(见www.yygrammar.com/Article/200908/1329_3.html)。这里摘录部分内容作为一个简要的答复:

……

……英国国家语料库可以用作我们研究英语语言的工具,但不能完全以此作为证明语言规范性的依据(见www.yygrammar.com/Article/200908/1327.html)。笔者的意思很明确,不是要否定语料库的作用,而是说要合理地使用语料库,将它作为我们研究语言的工具,而不宜将其视为语言的规范标准

事实上,各类语料语的建立,为语言学的研究提供了极其丰富且真实的语言素材。据《朗文英语口语和笔语语法》所述:朗文语料库(Longman Spoken and Written English Corpus) 37244 个文本、4000 多万词的语料组成。这些文本除少数小说外,都是 1980 年以后的产物,主要选自四个语域(register),即会话、小说、新闻、学术文章。如此庞大且真实的语料素材,这是几十年前的语言学者不敢想象的。

但笔者始终认为,语料库可以作为我们研究语言的工具,但我们不能完全以此作为证明语言规范性的依据。就拿上面提到的这本《朗文英语口语和笔语语法》来说,它的作者是 Douglas Biber, Stig Johassson, Geoffrey Leech, Susan Conrad and Edward Finegan 四位。本书被认为是夸克氏《英语语法大全》(A Comprehensive Grammar of the English Language)的姊妹篇,《英语语法大全》的四位作者中有三位直接为该书作出了贡献:Geoffrey Leech 为该书的直接作者之一,Jan Svartvik 审阅了该书的编写计划和试验章”(trial chapter)Randolph Quirk 为该书写了热情洋溢的前言。现在我们看看该书第 191 页在讲到主谓一致问题的一个语料分析:

Percentage use of non-standard forms in conversation.

(clear examples of the subjunctive have been excluded for “I were” and “she were”)

standard form           non-standard from        % use of non-standard form

I was                         I were                            5%

you were                   you was                          10%

she was                    she were                          10%

they were                  they was                          5%

I say                        I says                               50%

you say                    you says                           less than 2%

he doesn’t                he don’t                            40%

they don’t                they doesn’t                       less than 2%

根据前面的介绍可知,此语料库的权威性不容置疑。但该语料库显示,人们在会话中使用非标准形式 I says 的几率高达 50%,使用 he don’t 这一非标准形式的几率高达 40%50% 是个什么概念?那就意味着在会话中平均每两个人就有一个人会这样用。那么我们现在是不是应该修改我们的语法书、教材、考试大纲等,表示可以接受 I says 呢?显然不是的。当然,现在 I says, he don’t 的使用几率这样高,也许再过若干年之后,将 I says, he don’t 这类说法变成规范的表达,也是有可能的,但那是未来的事,如果现在哪本教材、词典、考试试卷等,使用 I says, he don’t 这类表达,显然是不合适的。

笔者认为,语料库只是对人们(当然是指以此为母语的人们)对语言实际运用的一个客观记录,为了充分保证语料的真实性,它不仅会收录那些语言学家认为正确的素材,而且也收录那些语言学家认为不正确的素材,虽然不能说是捡到篮子里就是菜,但尽量兼顾语料的真实性和全面性是建立语料库的基本宗旨。虽然现在许多权威的词典都在充分享受语料库带来的方便和实惠,但没有那本词典是完全照搬语料库的,就拿《牛津高阶英汉双解词典》第六版来说吧。陆谷孙教授在其序中说:当代辞书界一大革命性的进步便是电脑语料库的建立,从而为编者们提供了数量惊人的语言素材,使他们选词有了依据,择例有了余地。《牛津高阶》第六版例证多达九万,位居各版之首,自然与牛津语料库的素材是分不开的。……第六版中有些极细微的增删变化,细究之下,亦源自语料库,足证言必有据。但笔者在该词典上没有见到过 I says, he don’t 这类在语料库中显示使用几率高达 40%-50% 的非标准表达,更不用说 you was, they was, they doesn’t, you says, I were (虚拟语气用法除外), she were (虚拟语气用法除外) 这类非标准表达了。

 


I says 只是一个具体的个案而已,既然可以说 I says,是不是可以说 I likes, I does, I thinks, I gets, I goes, I has, I gives 等等?笔者在 BNC (英国国家语料库http://www.natcorp.ox.ac.uk) 中查了一下,结果如下(有兴趣的读者朋友可以自己去核对一下):

I likes 的用法共有16例;

I does 的用法共有28例;

I thinks 的用法共有16例;

I gets 的用法共有18例;

I goes 的用法共有50例;

I has 的用法共有42例;

I gives 的用法共有18例;

事实上,你随便输一个你认为是错误的表达,在英国国家语料库都有可能(当然不是一定)会找到实例,有兴趣的朋友可以自己去尝试一下。

不错,存在即合理,但合理未必合法。在口语中,I says 的使用几率高达50%,已属于相当普通的表达了,应该算是相当合理了,但它合法吗?笔者在此讲的,是指语言的规范标准,在我们国家,由江泽民同志签署的《中华人民共和国国家通用语言文字法》就是,由中华人民共和国新闻出版总署颁布的《图书质量管理规定(图书编校质量差错率计算方法)》也是,由国家语言文字工作委员会发布的《简化字总表》也是,由文化部和文字改革委员会联合发布的《异体字整理表》也是,由国家语言文字工作委员会和中华人民共和国新闻出版署联合发布的《现代汉语通用字表》也是,由国家科委、中国科学院、国家教委、新闻出版署联合发布的《关于使用全国自然科学名词审定委员会公布的科技名词的通知》也是,由中国出版工作者协会校对委员会制定的《图书编校质量差错认定细则》也是,等等。

另外,与语言运用相关的国标(国家标准)也是。如:

《标点符号用法》(GBT 15834―1995

《出版物上数字用法的规定》(GBT 15835―1995

《汉语拼音正词法基本规则》(GBT 16159―1996

《中文书刊名称汉语拼音拼写法》(GB 3259―92

《量和单位》(GB 31003102―93

……

笔者不知道英国和美国有没有这么多关于语言规范的,但笔者相信对于任何一个国家来说,必要的语言规范和语言标准都是必不可少的,否则一切语言方面的测试就会变得不可能,人们用语言交流也会变得越来越困难。

有些非规范的语言表达,虽然在民间得到广泛应用,但不一定就能得到官方的认可,比如,在我们国家,估计很多人不太区分年份年分辈分辈份,但《图书编校质量差错认定细则》明确指出,用年份对,用年分错;用辈分对,用辈份错;根据朗文语料库,在会话中,以英语为母语的人不太区分 I say I says,以及 he don’t he doesn’t,但是,若现在有哪本词典将 I says he don’t 这类用法收录其中,那肯定是会招致非议的。

当然,有关语言规范方面的同其他一切一样,也不是绝对正确的,它肯定也会有这样或那样的不足或缺点,正因为这样,所以所有的都需要不断地修订和改进,但有一点可以肯定,在没有修订之前,任何违之举,都是要付出代价的!

……