语料、语料库与语料库语言学

 

语料

简单地,“语料”就是语言材料,包括口语材料,也包括书面语材料。语料的原始来源可能是教材、报纸、综合性刊物、专业刊物、图书等。语料所涉及的学科门类也比较复杂,比如包括:

人文与社会科学类

政法类:哲学  政治  宗教  法律

历史类:历史  考古  民族

社会类:社会学  心理  语言文字  教育  文艺理论  新闻  民俗

经济类:工业经济  农业经济  政治经济  财贸经济

艺术类:音乐  美术  舞蹈  戏剧

文学类:小说  散文  传记  报告文学  科幻  口语

军体类:军事  体育

生活类

自然科学类

数理类、生化类、天文地理类、海洋气象类、农林类、医药卫生类

◆综合类

行政公文类:请示  报告  批复  命令  指示  布告  纪要  通知等

章程法规类:章程  条例  细则  制度  公约  办法  法律条文等

司法文书类:诉讼  辩护词  控告信  委托书等

商业文告类:说明  广告  调查报告  经济合同等

礼仪辞令类:欢迎词  贺电  讣告  唁电  慰问信  祝酒词等

实用文书类:请假条  检讨  申请书  请愿书等

语料库

语料库(corpus)简单地说,就是众多语料的集合体。它是指按照一定的语言学原则,运用随机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。

语料库通常具有以下三个基本特征:

◆语料库中存放的是在语言的实际使用中真实出现过的语言材料。

◆语料库是承载语言知识的基础资源,但并不等于语言知识。

◆真实语料需要经过加工(分析和处理)才能成为有用的资源。

 

语料库语言学

语料库语言学是一门新型科学,它指的是在文本语料的基础上进行语言研究的一门学科。语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。

下面是国外一些语言学家对“语料库语言学”的定义:

◆根据篇章材料对语言的研究称为语料库语言学。(K. A ijmer & B. itenberg, 1991)

◆基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。(T.McEnery & A.Wilson, 1996)

◆以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。(D.Crystal, 1991)