banner

项洁:数位人文视野下的类书研究

发布时间:2017-05-25

2017年5月25日晚上7点,北京大学人文社会科学研究院(以下简称“文研院”)主办的“数位人文视野下的类书研究”讲座在北京大学静园二院二楼会议室举行。主讲人是来自台湾大学资讯工程学系暨研究所、数位人文研究中心的项洁教授,主持人是哈佛大学博士后研究员徐力恒,与谈人则是北京大学《儒藏》编纂与研究中心助理教授杨浩。讲座一开始,项洁教授就罗列出讲座大纲,分为“台大数位人文中心简介”、“人文研究与数位人文”、“类书研究:数位人文的一个例子”、“类书的文本处理和系统建置”几个板块。

 

主持人徐力恒博士

 

首先,项洁教授为听众介绍2007年成立的台大数位人文中心。其实,早在1996年,台大就着手进行数位化工作。元数据已处理超过六百万笔,建立了很多适于研究者使用的大型分析系统,并发展相关方法论。初期处理的资料以台湾史料为主,尤其强调资料之间的脉络。在资讯技术方面,发展出许多相关IT技术,如超过90000人名和地名的术语提取(term extraction)、资料库之检索后呈现的方法论及技术、文本挖掘(text mining)技术等。现在中心的主要力量放在个人化数位人文平台Docusky,建制完备后会开放使用。

项洁教授常在思考的问题是——大量的数据资料,加上现代科学技术,人文研究到底会发生什么变化。他给出的答案是“思维改变”,这并不意味人文研究思维被取代,而是说人文学者能更好地做研究,跳脱原来受限的范围看到一些不一样的情况。就像先坐着直升机去鸟瞰一片区域,先做整体性观察,方能助益日后深入研究。数位人文往往可以让学者发掘问题,这是比解决问题更重要的目的。

紧接着,项洁教授谈到类书的数位人文研究。他在展开论述前,提到自己曾受一位历史学者的挑战。对方认为,传统方法只不过在搜集资料时慢一些罢了,并非已经被数位人文号称的资料挖掘所取代。所以,他在讲座中分享的类书研究就是一个很好的反驳例子,可以充分说明数位方法论的重要性。像类书这样大型文本的研究,在某些角度,“不用数位人文的方法是不能做的”。

 

项洁教授

 

项洁教授先说明类书的性质和功用,他指出古人喜欢用典,有时利用类书记载炫耀学问。他们饱览群书时抄录有用内容以便日后引用,将这些抄录内容汇集一处就构成类书。在理解类书的时候,不能把它同西方的百科全书画上等号,两者存在性质上的区别。百科全书会对知识做诠释,而类书只是书籍的浓缩,背后还有隐藏的作者。类书可算作古代搜索引擎,在科举考场上甚至还曾被用作作弊工具。到了明代,出现日用类书,同样的书名在不同地区便会根据日用需要汇集不同内容。因而,类书有出于个人需要的实用性知识,但它不太具备创造性。类书在古代中国常遭到文人强烈批判,可是鉴于它的实用性,学者往往都无法回避使用。此外,它的重要功能还在于辑佚和版本考据等方面。

再者,项洁教授特别强调类书的知识体系。类书的“部”、“类目”、“条目”形成的知识架构反映当时的世界观。需要注意的是,它突显的不是传统的经史子集的分类法,也不是原书的世界观,而是当下的“我”怎样使用类书。项洁教授被类书表现出的这种知识架构吸引,他设想,通过比较两部性质类似,年代相差较远的类书,说不定可以看出时代之间观念的改变。书中部分内容的出现和消失,很可能可以代表世界观的变化。同样的类目运用到的条目的变化、主题的变化、引用的差别等等问题,或许也可以看出使用方法的改变。

项洁教授决定取用,进行数位开发的两部类书是《艺文类聚》和《太平御览》。他首先对这两部类书的成书年代、书籍情况和内容分别作一简介。两书都是在新王朝(唐、宋)建立之初编成,规模庞大且体制完整。两书之间还有一定的继承关系。因此,它们不仅是当时时代的知识汇总,而且也是我们观察唐宋两朝知识架构演变的最佳文本。

进一步,项洁教授说明了研究中运用的比较方法——共引度。所谓共引,是指同一段文字在两部类书中均出现,或在同一部书中不同的类目中出现。但需注意,因为不同传抄的关系,一段文字即使在同一本类书中出现数次,文字也不尽相同。若两句的结构、语意以及提到的主词、动作等皆大致相同,且出于同一本书的同一位置,或文字相同但出处不同,则这两个条目被视为共引。在具体的实践过程中,还需要花大量的人工力量,来找出引用文献的原作者的身份及年代。最后可以得出两部书的大致条目数量,以及比对后判定为相似的条目配对数量。《太平御览》用到书籍的种类比《艺文类聚》多很多,其中不只是涉及诗赋,还有不少碑文。

为了有效比较两部类书,项洁教授带领团队建置两个不同的系统,分别是“艺文类聚/太平御览”全文资料库和“类书对应查询系统”。他以“孔子”一词为例,说明了全文检索系统的用法,特别强调系统会将学者可能有兴趣的资讯进行后分类,还附带“辑佚”功能,可以将一本书在类书中出现的所有条目列出,并分析它们出现的部别和类目。随后,项洁教授以“符命”为例,说明类书对应查询系统的用法,可从知识结构的对应角度比较两部书在知识结构和引文上的差异。

接下来,项洁教授通过两部书“部”、“目”和“条目”的比较来对知识架构的演变作进一步阐释。他谈到“部”在结构、内容和比重三方面的变化,《艺文类聚》虽号称《太平御览》的三大参考书之一,但它并未被《太平御览》全盘继承。消失的“符命”部和新增的11个部,是当时的观念、政权和群体变化的某种程度的折射。而在两部书“目”和“条目”的比较中,“目”设置的多寡,虽牵涉编者的主观因素,却也反映出当时人对某一部类知识认识的程度。相比《艺文类聚》,《太平御览》扩充了5.6倍。在“条目”的比较上,两书条目共引度颇高,可是内容完全一致的几率极低。再综合其他因素,项洁教授大胆推测,《太平御览》对《艺文类聚》很可能只是部类结构上的参考,在具体内容摘抄上,实际是根据当时所搜集到的书籍原本,重新辑录编排而成,而非从《艺文类聚》翻抄。最后,项洁教授分享自己以类书为研究对象的兴趣源起,并期待唐宋思想史家、文献学者能够共同参与,作出更加深入的观察和探讨。

 

与谈人杨浩老师

 

讲座结束后,杨浩老师进行评价并提出自己的问题。他认为,项洁教授的研究充分说明了类书的重要性。不少海外汉学家在汉语能力有限的情况下,也会对类书进行引用,或者按图索骥,查找资料。若只是进行全文检索的工作,可谓“只见树木,不见森林”,但项洁教授提供了对两部类书宏观把握的方法,是值得继续探索下去的。

杨浩老师还指出,透过数字人文的类书研究这一课题,我们能更好发掘过去用其他手段发掘不出的东西,利用更多检索手段开展研究。不过,他对“引用书目”浏览功能和字符串的匹配算法两方面尚且存在疑问。项洁教授回应到,目前的检索系统可以把条目列出做“后分类”。在图书馆学界也存有主题编目的概念,的确可以付诸实践。针对字符串子串在相似度方面的算法问题,系统除了运用“最长相同子序比较法”(longest common subsequence)的算法外,还配有另一套长短句的算法。

随后,徐力恒博士针对分析规模问题,指出数位人文学者在大数据时代被误解成“不好好读书”的情况。项洁教授认为,一部分原因在于“数位人文”与“数位典藏”是两个不同概念,“数位人文”提供了一些分析的方法,但分析后还要做呈现和观察。他本人对现在很多可视化方法持有严厉的批判态度,尤其是社会网络图,认为操作原理不够直观和透明。项洁教授强调,人文学者需要的并不为已经画出的数据图给出解释,他们要能够自己去做观察,深入图中去做自己的分析和调整。制作可视化时,不能够强迫人文学者盲目相信既有的数据。另一部分原因和有的资深人文学者不鼓励学生利用数据库有关。但实际上,数据库只会越来越多,越来越好用,要年轻学子完全避免使用,根本是不现实的。关键是要在人文教育中引导学生正确看待和熟练驾驭数据库的方法,让数据库的应用变成人文的一部分。

在场听众也针对项洁教授的演讲提出不少问题,项洁教授在两书比较、通过类书研究古代社会生活、知识结构等方面一一给出回应。在谈到笔记与类书二者的处理方法上,项洁教授认为更具个人创造性特质的笔记文本也有数位化价值,对思想史的研究具备深远意义,但由于笔记的结构化程度低得多,目前尚未开发相关系统。由此也衍生出关于结构化与非结构化文本的探讨,项洁教授介绍到,在平衡这两者的关系时,第一种方法是把结构全部忽略,如Franco Moretti在研究文学时用的“远读”(distant reading)方法;另一种则像CBDB(中国历代人物传记数据库),处理大批可以结构化的文本,变成人物数据。台大数位人文中心的清代台湾文官官职表数据库中的相关资料,就是经过结构化的产物。