[用于引书识别的引书引用模式研究] 用于行文中直接引用的部分
发布时间:2020-03-07 来源: 日记大全 点击:
[摘要]现代信息技术飞速发展,为古籍引书计算机识别提供了可能性。本研究的目的是研究古籍引书的引用模式,进而探讨模式识别方法在引书识别中的应用。具体方法是以明、清及民国时期广东地方志中有关物产门目资料(《广东方志物产》)为语料,抽取所有引书的引用模式(引书名称及其表达方式),分别对引书名称模式和引用表达方式进行研究。
[关键词]引书模式 引书识别 引用表达模式 模式识别
[分类号]G254.361 H08
1 古籍引书研究概况
引书的形成,经历了一个从修辞手法到著述体例,再到文献体式(著述体例形式,如著述、编述、钞纂)的过程。先秦儒家以“五经”为代表的典籍引用了大量的民间谚谣、流行俗语、先贤言论、前代典故,作为修辞手法;汉代,为给儒家经典作笺注,需要引经据典、广征博引,在笺注的过程中,引书逐渐形成为一种重要的著述体例;曹魏时以分类撰抄为特色的类书《皇览》把引书发展成中国古代典籍的一种独特的文献体式。
有关古籍中引书的挖掘整理研究,当始于汉代刘向的《战国策书录》、《管子书录》等考订战国典籍引书的文献。此后历代继有研究,至清为盛。但这些有关引书的研究,主要集中于某一典籍引书的考订,甚少有引书识别方法研究,这种引书研究的学术倾向一直延续至今。而其间也偶有引用方法研究,如明末清初顾炎武的《论引书》一文,曾谈及引用方法和引用规范问题;清朝后期的陈澧撰《引书法示端溪书院诸生》,以专文形式论述引用方法和规范。
近年出版的引书研究的学术论著主要分考订引书、从引书角度研究典籍或引书的学术价值、引书索引的编制三种类型。①考订引书,又如伍野春在《裴松之引书辨析》一文中,提出了裴注三国志引书识别的标准,并以此标准来识别、类分其中的引书,如程金造在《史记索隐引书考实》一书中,列出了《史记索隐》中的引书,并为之撰作提要。②从引书的角度研究典籍或引书的学术价值,如熊桂芬在《从引书看的文献学价值》一文中,从引书的角度探讨了典籍《广韵》的文献学价值,又如李伯勋。在《裴注所引书的史传文学价值》一文中,探讨了引书的史传文学价值。③引书索引的编制,是从目录学角度研究引书,贡献最大的当数1930年成立于北京的哈佛燕京学社引得编纂处编制64种引得中有14种涉及中国典籍的引书引得成果。
20世纪80年代以来,计算机迅速普及,使得现代信息技术环境下利用计算机识别、挖掘古籍中的引书成为可能。通过计算机挖掘引书,可以为引书识别提供一种新技术、新方法和新思路,并可以快速、齐全、准确地识别引书,从而提高引书索引的编制速度。但是如何把计算机技术和古籍整理知识结合起来,多、快、准地挖掘引书,成为十分重要的难题。笔者试图以古籍整理为研究对象,从语言学角度出发,研究古籍引书的引用模式(引书名称及其表达方式),为计算机挖掘引书拓展思路和方法。本文将以《广东方志物产》中的引书为对象,探讨引书的引用模式。
2 引书名称引用模式
在古籍中,不同作者引用文献时,往往依据行文、个人学养和习惯,采用不同的引书名称,有的用书名全称,有的用简称和异称,有的只用作者姓名,还有的则是作者姓名和书名全部引用。在《广东方志物产》(1949年以前的379部广东地方志有关物产门目资料)中,引书名称的引用大致分为三种情况:文献名称、作者名称、作者名称+文献名称。
2.1引用文献名称
文献名称有全称、简称和异名三种情况。全称也nU全名,是文献的正式名称;异名是不同于全称的另外名称;简称是对正式名称的缩简称呼,从字面上看也不同于正式名称,实际上是异称的一种,因此,笔者把异名和简称统称为异称。①引用全称,这种现象在《广东方志物产》中十分普遍,如《清?乾隆27年潮州府志》之“绰菜”条:“绰菜/南方草木状绰菜夏生于池沼问叶类茨菰根如藕条食之令人思睡故又呼瞑菜”,引用的就是全称。在整个《广东方志物产》中,引用“南方草木状”全称的就有533次,其他引书引用全称亦为通行。②引用异称,这种情况亦如全称一样普遍,如《民国13年阳江县志》之“戴胜”条:“戴胜/色灰绿大如脊鸽颅有髻高六七分南海谓其雄者丁髻郎雌者丁髻娘阳江谓之丁髻颅或谓之冠髻南越笔记”,这里的《南越笔记》是《粤东笔记》的异名;再如《清?光绪16年高州府志》之“淖树”条:“淖树/干叶俱似椿其叶煮汁渍果呼淖汁出高凉郡详草木状未知今何树”,引用的就是《南方草木状》的简称――《草木状》。不同的志书,有的引用正式名称,有的引用异名,但在同一部志书中不会出现既引用正式名称又引用异名的现象,而既引用全称又引用简称则很普遍。
2.2引用作者名称
引用作者名称也很普遍,如《清?光绪18年吴川县志》之“赤小豆”条:“赤小豆/此豆以紧小而赤黯色人药稍大而鲜红淡红者并不治病李时珍日小而色赤心之谷也其性下行通小肠入阴分治有形之病参群芳谱采访册”,这里引用的“李时珍”实际上指的是《本草纲目》。只是引用作者姓名的,多为名人名篇,使人一看作者姓名就知道引用的是哪篇文献或哪部典籍。若一个名人只有一种名著的,判别起来不困难,但是多数名人不止一种名著,这种情况的识别则是十分不易,除需要深厚、渊博的学识外,常常还需把引用的内容与该作者的著作一一核对,才能确定引自哪篇文献。《广东方志物产》中引用的“苏东坡”、“郭璞”作者姓名,识别起来非得逐一核对原典不可,因为他们的名典与引用次数也多。当然,也有引用作者别名和字号的情况,如苏东坡的全部名称为:姓苏,名轼,字子瞻,又字和仲,号东坡先生,还有称苏公、坡公的情况,苏东坡只是其号。象苏东坡这种名号齐全的作者,笔者必须清楚其全部名称,才能准确、全面地识别其引用情况。
2.3引用作者姓名+文献名称
这种情况不是十分普遍,有两种情况:①作者姓名+文献正式名称,如《清?道光2年广东通志》之“吉利草”引用的是《嵇含南方草木状》,是书名全称;②作者姓名+文献异称,如《民国19年龙山乡志》之“茉莉花”条引用的是《嵇含草木状》,是书名简称。
以上三种引书名称引用模式,是《广东方志物产》中普遍存在的现象。利用计算机识别时,须建立三种对应的引书名称数据库,设计合理的算法,逐一匹配文献,方能较准确全面地识别出引书,否则会出现重复识别或遗漏的窘况。
计算机不是万能的,在目前技术条件下,必须与人的专业知识结合起来,才能挖掘古籍中的引书。
3 引用的表达方式
3.1概况
笔者在整理《广东方志物产》资料时,发现这样一个的语言学现象:古人在引用文献时,为使句子语法完整、语义协调,通常在所引用的文献后面加上“云”、“日”等言说谓语动词,如“本草纲目云”、“五山志林 日”,等等,称之为引用表达模式词,或引用方式规则。此类谓语动词之前、后或中间,就是引书名称(文献名称、作者名称、文献名称+作者名称之一)。
《广东方志物产》共有31670次引用,笔者从此庞大的数据中,逐一剔除引书名称和作者名称,最终获得60种引书表达模式,为计算机处理需要,依模式词(规则)位置分为前标志型、后标志型和封闭型三种,如表1所示:
表1是从《广东方志物产》中提炼出来的所有引书表达模式,封闭型模式类型最多,前标型最少。但是使用次数最多的是后标型,远远高于其他两个类型。这说明《广东方志物产》的引书多使用封闭型引书表达模式,可能是中国古代汉语的本身特点要求所致。
3.2举例分析
3.2.1前标志型
前标志型的模式词置于引书之前。①“按……”、“案……”意义相同,都是“案语”之义,是编辑、注释或引用原文的人所附加的对原文有所评论、说明或考证的话。如《民国9年赤溪县志》之“菠棱”条:菠棱/按刘禹锡嘉话出西域颇棱国讹为菠棱云俗呼波菜;再如《民国32年丰顺县志》之“海棠”条:海棠……案李德裕花木记凡花木名海者皆从海外来如海棠之类是也……。这是从不同的引书中考证物产。②“本…”、“出…”、“据…”、“根据…”、“载…”,是依据、出处、来源的意思。“本…”是“源出…”之义,“据…”是“根据…”的缩写,“载…”的意义是“该段引文记载在某某引书”,其实质也是指明出处。如《清?咸丰7年琼山县志》之“刀鱼”条:刀鱼/尔雅谓之触刀郭注云今之觜鱼也状如长薄尖刀故名刀俗改作纫非本正字通;《清?道光23年英德县志》之“胡蔓草”条:胡蔓草/即断肠草一名大茶叶所在皆有俗与人哄及私怨辄茹此草希图诬以人命诈取财物死而不悔救法急取卵中未生鸡儿细研和以清油灌之即苏出岭南卫生方;《民国21年开平县志》之“金瓜”条:金瓜/据香山志金瓜圆其长者名香瓜又名枕头瓜;《清?康熙55年罗浮山志会编》之“菖蒲”条,注明的是“载艺文志”。这些都是说明该段引文的来源引书。③“参…”、“见…”、“详…”,都是“参见”、“参考”之义,是参合他书拟就,其意是:欲知详情,请参考某某引书。如《民国13年阳江县志》之“菘”条:菘/俗呼白菜另一种日黄芽白本北地产始种于肇庆今各处俱有之然亦不及北方之甜美参阮通志采访册。余不举例。但有一点须辨明:这里的“参见”意义与索引学不同,索引学是指引读者从一个标目指向另一个标目,标目之间是平行关系,而这里的来源文献与引书则有属种关系。
3.2.2后标志型后标志型的模式词置于引书之后,分两种情况:①言说动词式,如…称、…称为、…称之为、…为、…谓、…言、…以为、…曰、…云、…载、…有云、…作、…名、…名日、…命曰,这种形式可直接看作“某某引书说”。其中的“…云”、“…曰”数量较多,是古人的行文和语言习惯所致,就如同我们今天多用“说”而少用“道”一样。这种言说动词模式数量较多,以下略举二例说明,《清?雍正9年广东通志》之“蟹”条:蟹/一名蟾广雅云雄日娘蚁雌日博带抱朴子称无肠公子广志云铺小蟹大如货钱又蟹奴如榆荚在璨吉腹中生死不相离山海经载千里蟹洞冥记有云贡百足蟹长九尺四螯者今恩州又出石蟹北户录,这段文字使用了“…云”、“…称”、“…载”、“…有云”四种模式;再如该志书的“石相思子”条:石相思子/……按一名长生螺周密谓置之醋中则活即此,使用了“…谓”模式。②所+言说动词式,这里的“所”是语气助词,无义,只有与言说动词连用才能表达具体意思。如《清?雍正9年揭阳县志》之“蜀葵”条:蜀葵/郭璞日蜀葵花似木槿尔雅所谓荫戎葵也花可食。
后标志型实质上是语助词(如“所”)与不同的言说动词组合而成。如果去掉语助词,也能表达原意,但意义不完整,也不符合原有语境,况且这“所”字结构本来有就有其本身的意义,是固定的表达结构,不能分离。笔者原样辑录,不加省略的原因是保持原貌,探索引书表达模式的语法和构词结构;同时,用于计算机识别引书,会减少噪音。
3.2.3封闭型
封闭型基本是由“按(案)”、“即”、“据”、“如”、“依”加后标志型模式组合而成,虽可由后标志型替换,但表达意义、语气不完整,在具体的语言环境中所表达的意义与后标志型也有区别。也如《清?雍正9年揭阳县志》,其“车前草”条:车前草/即诗所谓苤莒尔雅日苤苜马舄马舄车前也其性利水。这里的“即…所谓”表达的是承前语气,若去掉“即”字,虽能表达原意,但不能表达原来的语气,行文有点别扭,失掉了原有撰述风格。
前标志型、后标型和封闭型,是《广东方志物产》中能够辑录的模式,总共才使用7604次,比起引用总次数31670来,差之甚远,而更多的引书是没有任何引用模式的。所以,更多的引书识别则需要深厚的历史文献学知识和学术涵养。当然,那些没有表达模式的引书,还可通过引书的名称特征提取引书名称模式。
总之,通过表达模式就能够识别引书,前标志型引书的识别是辑录出模式词前的不同数量的文字,后标志型是辑录出模式词后的数量不等的文字,再加以人工判别即可。至于封闭型,模式词之间的文字就是引书,几乎无需人工判别。
仅靠模式识别方法并不能识别出《广东方志物产》中的全部引书,但如果把引用模式与前文条析出的引书名称相结合,建立书名库和模式库,无论识全率或识准率,都会大大提高,具体的作法是:①用书名匹配文本;②用模式匹配文本;③用书名+模式匹配文本。若计算机采用这种方法,引书殆尽矣。
古籍中的计算机引书识别是个复杂的问题,目前国内外的研究甚少,本项研究只是尝试和探索,本章总结出的引书名称特征和引用特征,只来源于《广东方志物产》,对于更为复杂的整个《方志物产》来说,是个特例,而对于整个古籍更是沧海一粟。但是,本文探索出的书名库和引用模式,可以应用于整个《方志物产》,甚至在整个古籍上尝试。本项研究的目的就是以《广东方志物产》为实例,探索浩繁的《方志物产》引书识别方法,进而推广到整个古籍的引书识别。
4 试验设计与测试结果
4.1试验设计
为了测试模式识别引书的效果,笔者构建了引书挖掘系统(另文发表于《图书馆杂志》2008年第8期),步骤如下:①建立方志全文本数据库;②建立引书模式库,模式来源于方志及其他古籍;③模式匹配,运用模式在全文数据库中进行匹配,抽取候选引书词串;④对抽取结果进行过滤处理以及运用N-gram进行分词和词频统计,适当去除低分词,并合处理结果,最终得出引书集;⑤为防止遗漏,再运用这个引书集对全文库进行扫描,最后得出全部引书。
系统环境是windows 2000操作系统,开发工具选用Borland Developer Studio 2006,具体采用其Delphi for the Microsoft,NET Framework模块作为开发环境,数据库选用的是SQL Server。
4.2测试结果
经过以上处理,系统识别出引书1081条(不含重复)。测试时,借鉴信息检索中的测试标准,采用对应的识准率、识全率等指标来进行测评。具体公式如下:
识准率=(计算机识别出的真引书总数/计算机识别出的引书总数)*100% (1)
识全率=(计算机识别出的真引书总数/人工真引书总数)*100% (2)
笔者随机抽取了12篇方志物产文档,请专家审读,通过人工识别,得到引书。同时应用本系统设计的方法在全部文档中进行引书识别,并将自动识别出的引书复原至上述抽取的12篇文档,得到该12篇测试文档的自动引书识别结果。将两者进行比对,根据上述指标统计出的测试结果如表2所示:
根据表2的数据计算出识全率为84.95%,识准率为72.88%。经过对引书识别结果的分析,影响识别效果的因素主要有:①原始文献在数字化过程中人为的错误,包括生僻字、特殊符号、空格等,导致误识并影响正常的引书频次;②模式本身并未涵盖所有可能的引书,导致漏识;③n-gram本身的误差。虽然识准率并不是十分理想,但识全率较高。作为一个辅助系统,已经可以基本满足半自动化引书处理的要求。
5 结语
古籍中的引书识别,自计算机应用以来是人工识别,以学人的渊博的知识为基础,通过人工阅读文献识别出引书。即使如计算机普及的今天,应用计算机识别引书的研究也是寥寥。本文以《广东方志物产》为语料,辑录并详细研究其引书的引用模式,作为采用模式识别方法识别引书的依据。文章最后建立一个实验系统对模式识别效果进行测试,达到了预期效果。这说明这种方法是可行的,是引书识别的一条捷径。下一步工作是提高识全率和识准率,并推广到其他古籍文献。
相关热词搜索:识别 引用 用于 用于引书识别的引书引用模式研究 模式识别+书免费下载 免费书软件下载
热点文章阅读