您好,欢迎来到六九路网。
搜索
您的当前位置:首页CCL语料库及其检索系统

CCL语料库及其检索系统

来源:六九路网


一 关于CCL语料库及其检索系统

(如果时间紧张,可直接跳到最后的举例部分!)

1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。

1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。

1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如:

“作者列表”:列出语料库中所包含的文件的作者

“篇名列表”:列出语料库中所包含的篇目名

“类型列表”:列出语料库中文章的分类信息

“路径列表”:列出语料库中各文件在计算机中存放的目录

“模式列表”:列出语料库中可以查询的模式

1.4 语料库中的中文文本未经分词处理。

1.5 检索系统以汉字为基本单位。

1.6 主要功能特色:

• 支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);

• 支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);

• 支持在“结果集”中继续检索;

• 用户可定制查询结果的显示方式(如左右长度,排序等);

• 用户可从网页上下载查询结果(text文件);

二 关于查询表达式

本节对CCL语料库检索系统目前支持的查询表达式加以说明。

2.1 特殊符号

查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! :

这些符号分为四组:

Operator1: |

Operator2: $ # + - ~

Operaotr3: !

Delimiter: :

符号的含义如下:

(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)

(1) | 相当于逻辑中的“或”关系。

(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)

(2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number

(3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number

(4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number

(5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。

(6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。

(三)Operator3:Operator3是一元操作符。

(7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。

注意: Operator2后面的Number是必须的,不能省略。Number=0表示相邻,Number=1表示间隔1个单位,其余依此类推。

(四)Delimiter:西文冒号 : 是分隔符

(8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5)

注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。

2.2 基本项

指不包含特殊符号和空格的连续字符串

2.3 简单项

简单项可以由以下三种形式的序列组成

(1) 基本项

(2) 基本项1 Operator1 基本项2 Operator1 ...

(3) (基本项1 Operator1 基本项2 Operator1 ...)

注意:在实际表达式中,Operator1 前后不能有空格

2.4 复杂项

复杂项可以由以下三种形式的序列组成

(1) 简单项

(2) 简单项1 Operator2 Number 简单项2

(3) 简单项1 Operator2 Number Operator3 简单项2

其中第二种形式,等价于 Operator3 简单项1 Operator2 Number 简单项2,换句话说,如果以第一个简单项作为查询结果的显示中心,!可以省略。

注意:Number为0和正整数。Operator2,Operator3前后均不能有空格

2.5 过滤项

过滤项可以包含以下表达式:

(1)author:简单项

(2)name:简单项

(3)path:简单项

(4)type:简单项

(5)pattern:简单项

(“author:简单项”的含义是指“author:”后面跟的表达式是上面2.3“简单项”所定义的字符串,其余类推)

注意:

通过指定过滤项中author(作者),name(篇名),path(文件路径),type(文章类型),用户可以缩小查询语料的范围。

其中过滤项pattern专门用于查询汉语中的各种模式,比如“AABB”这样的重叠形式,“AB不AB”这样的反复问形式,等等。

比如:

想查询“老舍”的语料,在查询表达式中输入“author:老舍”即可;

想查询唐代语料,在查询表达式中输入“path:08唐”即可(唐代语料均放在包含

“08唐”目录下)。

想查询唐代语料中“给”的使用情况,可以在查询表达式中输入“path:唐 给”。(“path:唐”跟关键字“给”之间需有空格隔开)

想查询“老舍”先生的文章中“A来A去”的用法,在查询表达式中输入“author:老舍 pattern:A来A去”即可。

各过滤项的具体取值,用户可以在“高级搜索”页面中查到(参见上文1.2)。

下面是古代汉语语料一级目录列表:

01周

02春秋

03战国

04西汉

05东汉

06六朝

07隋

08唐

09五代

10北宋

11南宋

12元

13明

14清

15

笔记

辞书

大藏經

道藏

二十五史

蒙学读物

全宋词

全唐诗

全元曲

十三经注疏

诸子百家

2.6 子句

子句可以是以下两类表达式:

(1) 复杂项

(2) 过滤项

2.7 查询表达式

查询表达式可以是以下形式的序列:

(1) 子句

(2) 子句1 子句2 ...

(子句和子句之间需要以空格隔开,表示逻辑“AND”关系)

三 关于查询结果

1 每次查询,网页上最多列出5000条结果(分页列出,每页50条)。

2 用户可以将查询所得结果保存到自己本地计算机的磁盘上。在查询结果显示网页上,用户可以根据需要指定下载结果的条数(缺省为500条),点击“下载”按钮,查询结果即以txt文件形式保存到本地磁盘上。每句之后在【 】内注明了该句的出处、作者、路径等信息。(如果条数较多,文件会比较大,下载速度缓慢,请耐心等待,不要重复提交下载请求)。

3 查询结果以“句”为单位输出显示,用户可以指定查询结果的显示长度(左右n个字范围)。

小提示:如果想显示查询关键字所在的整句,可以通过指定足够大的显示长度(比如1000)来实现。当用户指定的显示长度超过句长时,以句长为限显示结果。

4 关于查询结果的“标亮”和“定位”显示

标亮词:在句子中以红颜色标出的词,可以有多个;

中心词:是一个特殊的标亮词,显示查询结果的每个句子时,以“中心词”为网页中心位置对齐。

小提示:

(1) 查询表达式中的“复杂项”和“过滤项”中的pattern项目都可以作为“标亮词”。

这里“标亮词”是指跟“标亮词”匹配的句子片断。

(2) 默认的中心词是第一个“标亮词”,即在用户没有用Operator2指定“中心词”的情况下,系统自动把第一个“标亮词”当作“中心词”。

如果用户用Operator2指定了“中心词”,那么该词为用户指定的“中心词”。

5 关于查询结果的“排序”

用户可以指定按照“中心词”左边字符串排序,或按照“中心词”右边字符串排序。排序方式为字符内码(GB码)降序。

四 在结果中查找

对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功能,逐次逼近检索目标。

比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样的否定词。

您可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和“也”,且二者相隔10字以内的句子,然后您再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。

五 举例

查询式例子 1:

计算机硬件

意思是: 查出所有包含“计算机硬件”的句子。

查询式例子 2:

把 被

意思是: 查出所有包含“把”,同时也包含“被”的句子,即两个关键字之间无次序,无距离,只需要在一句范围内。

查询式例子 3:

把|被

意思是: 查出含有“把”或“被”的句子,两个关键字只需有一个在句中出现,就作为查询结果输出。

查询式例子 4:

把-4不

意思是: 查出含有“把”,但在“把”右边4个字范围内不含“不”的句子。注意:- 号属于opertaor2,其后必须有数字,且不能有空格。

查询式例子 5:

给~4把

意思是: 查出含有“给”,但在“给”左边4个字范围内不含“把”的句子。注意:~ 号属于operator2,其后必须有数字,且不能有空格。

查询式例子 6:

与其$10不如

意思是: 查出同时含有“与其”和“不如”的句子,并且“与其”在先,“不如”在后出现,间隔10字以内。

查询式例子 7:

能力#3大

意思是: 查出同时含有“能力”和“大”的句子,且“能力”和“大”之间的间隔在3

个字之内,二者的先后次序不受。

查询式例子 8:

吃+3亏

意思是: 查出同时含有“吃”和“亏”的句子,并且“吃”在先,“亏”在后出现,二者之间刚好间隔3个字。

查询式例子 9:

被$10!给

意思是: 查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。显示查询结果时,以“给”为“中心词”,即“给”居中对齐。

查询式例子 10:

(把|被)$10给

意思是: 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。

或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。

查询式例子 11:

(把|被)$10!给

意思是: 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。

或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。

显示查询结果时,以“给”为“中心词”,即“给”居中对齐。

查询式例子 12:

了$0(。|?|,|!)

意思是:查出“了”与标点符号“。?,!”等紧邻出现的句子。这实际上就部分地达到了查询“句尾了”(汉语学界一般所说的“了2”)的目的。

查询式例子 13:

所以 path:13明|14清

意思是:在古代汉语语料中查“明代”和“清代”文献中“所以”的用例

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 69lv.com 版权所有 湘ICP备2023021910号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务