语料库的分类

 

语料库根据收录语料的内容和属性不同,通常可分为以下四种类型:

■异质型语料库

异质型语料库(Heterogeneous corpus)指没有特定的语料收集原则,广泛收集并原样存储各种语料。如英国牛津大学计算中心的OTA文本档案库。

■同质型语料库

同质型语料库(Homogeneous)指只收集同一类内容的语料。例如收集与军事的文本的美国TIPSTER语料库。另外,还有国内的新华社“新闻语料库”、北京大学计算语言学所与富士通公司合作开发的“日报语料库”、香港城市大学语言资讯中心的中文五地区共时语料库(Linguistic Variety in Chinese Communities)等。

■系统型语料库

系统型语料库(Systematic)指根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实。如:北京语言大学的“现代汉语语料库系统”、北京语言大学与香港理工大学合作的“现代汉语语料库”、北京语言大学与清华大学合作的“现代汉语语料库”、清华大学中文系的“清华TH语料库”、语言文字工作委员会语用所的“现代汉语语料库”等。

■专用型语料库

专用型语料库(Specialized)指只收集用于某一特定用途的语料。如:美国卡耐基-梅隆大学为儿童心理语言学而的CHILDES语料库、为珍藏人文科学著作和资料而的美国北美人文科学语料库等。