banner

【北大文研论坛44】“e考据”与文史学门的新机遇

发布时间:2017-06-16

2017年6月16日下午,北京大学人文社会科学研究院“文研论坛”第44期活动在静园二院二楼会议室举行。本次论坛主题为“‘e考据’与文史学门的新机遇”。文研院特邀访问教授、台湾清华大学历史研究所教授黄一农担任引言人,浙江大学文化遗产研究院教授薛龙春主持,文研院访问教授、荷兰莱顿大学教授魏希德、中国人民大学历史学院副教授张瑞龙、北京大学图书馆副研究馆员朱本军参与本次论坛。

 



首先,主持人对黄一农教授作了介绍。黄一农教授现任台湾“中央研究院”院士,1977年毕业于台湾新竹清华大学物理系,1985年获美国哥伦比亚大学物理学博士学位,旋即至麻州大学天文系从事研究,1987年任职于新竹清华大学历史所,研究涉及天文学史、天主教史、明末清初史、海洋探险史、术数史、红学史等领域。黄一农教授曾在2012年、2014年分别于华东师范大学、浙江大学举办研习营,阐释了“e考据”的概念,为年轻学者指出了一条全新的学术研究途径。主持人介绍结束之后,文研院院长邓小南为黄一农教授颁发了文研院特邀访问教授聘书。


 

邓小南院长(左)与黄一农教授(右)

 

黄一农教授说,他在十多年前研究中西交流史的过程中,资料库就已出现,于是开始研究数位环境与工具对传统文科研究方式的新效益。当时黄一农教授的《两头蛇:明末清初的新一代天主教徒》出版,何炳棣先生就对他引用的文集数目之巨大感到极为震惊。黄一农教授说,以往文史研究者不可能有机会阅读100亿字以上的古典文献,而现在的“e考据”使之成为可能。“e考据”有无负作用,能够运用到什么程度?包括黄一农教授在内,现在学界对其仍在尝试、摸索的过程中。

 

 

黄一农教授

 

黄一农教授首先举了《红楼梦》中的一处例子。他说,百余年来红学研究者颇多,但近来,我们能够在很短的时间内深入到以往并未深入到的范畴。《红楼梦》第二十八回中,黛玉生病,宝玉宣称配一剂药,即能药到病除,这种药名为“暖香丸”。据1972年北京人民文学出版社重排的《红楼梦》(以程乙本为底本)原文:“……头胎紫河车,人形带叶参,三百六十两不足,龟,大何首乌,千年松根茯苓胆”。而此种语词、语境似乎不甚相合——黄一农教授认为此处标点有问题。对于这段话的标点问题,历来也存在各式各样的分法,无法达成共识,也没有人能够拿出全面而确凿的证据证明某种观点的正确性,这也是许多领域目前都面临的困局。

 

黄一农教授说,利用对大数据的耙梳,我们可以在短时间内从一部古医书中找到这一配方。现在能够大概知道紫河车、带叶参、何首乌是什么,但各种资料库均不能查得“茯苓胆”除《红楼梦》之外的其他用例,这说明“茯苓胆”可能存在形误。黄一农教授梳理大数据后,发现存在一种形似“茯苓胆”的药材“茯苓脂”,而“茯苓脂”出现于许多诗词中,并且常与“松根”相关联——这说明,“茯苓胆”很可能就是“茯苓脂”之形误。事实上,《红楼梦》舒序本中的“茯苓胆”就作“茯苓脂”(也是唯一写作“茯苓脂”的版本),这使此结论的说服力大大增强。原文“千年松根茯苓脂”,指的就是千年松树根周围长出的茯苓脂。另外,“龟大何首乌”也不应断开。通过检索不难发现,古书记载,最好的何首乌为人形或动物形;因此,“龟大何首乌”指的正是大如龟、且像龟的何首乌。

 

黄一农教授指出,掌握知识库是必要的,但必须“问对问题”、“问好问题”。对大数据进行耙梳还可以使我们发现,“暖香丸”的配方与一部古医书中“秘传大补元圆”的配方基本相同,而其所记载的对症也跟黛玉的症状相符,这进一步支持了此前的结论。此时又产生了一个疑问:曹雪芹写《红楼梦》时并没有大数据资料库的支持,那么这些关于药材的知识由何而来?黄一农教授此时强调了建构知识体系的重要性。我们能够利用到流传至今的曹雪芹祖父曹寅的藏书目,而其中包含几十部医书,此本恰好在列。这提供了一项间接证据。

 

还有一种假说认为,“三百六十两不足”原为侧批内容,在传抄过程中误抄入正文部分。这句话前后的“头胎紫河车”、“人形带叶参”、“龟大何首乌”、“千年松根茯苓胆(脂)”具有统一性,都是将药材品质提升到极致的结果,体现出真实药方与文学性描述的结合。而要增强这一假说的说服力,最可行的方法是在小说的其他部分找到类似用例。事实上,黄一农教授找到了许多类似的案例,例如程甲本中有一处“男芸跪书一笑”,此处“一笑”很明显为批语。

 

以上的问题都是文本阅读程度深入的反映,以往没有达成共识的问题,现在都可以用类似的方式进行处理。另一个问题是,对于“e考据”带来的超大规模数据,我们必须对信息的真伪有一定的考量。黄一农教授以研究曹家流传下来的诰命为例说明这一问题,这些诰命现藏北京大学图书馆。诰命基本使用套语,表面上看,如果仅凭文字内容本身,真伪难辨。

 

黄一农教授介绍说,当我们利用“e考据”检索某一关键词时,要善于发现检索到的信息中是否还存有其他价值,并得到能够进行进一步检索的关键词。如此循环往复,直至学不到新的知识才结束。黄一农教授在研究方志库中的诰命时发现,诰命的时间点必须是颁布恩赐的时间,并且诰命中名词、形容词的使用也有很多规矩——这些都是检索过程中被重新还原而得到重建的知识。

 

随后,黄一农教授又谈到避讳用字的现象。龙光甸《字学举隅》中介绍了遇到不同皇帝名字的相关字时如何处理的例子。如道光帝“旻宁”的“宁(寜)”字,在旻宁即位后、咸丰四年后都有不同形式的写法改易。黄一农教授认为,在现在大数据的环境下,对于这些现象,我们虽不能全然相信,却有机会超越以往的认知。从一个侧面观察,中国不同时代对政府讳例的接受程度是不同的,如何保证一个时代所有文字材料中的某个字都遵循政府的规定?

 

以在方志库中检索到的“宁”字为例,从笔形位置上看,康熙二十四年出现缺末笔的用例,可能被解释为后来“挖”的,但嘉庆十八年的“寜”字最后一笔深入到“我”字中,无法“挖”。那么,这个缺末笔的字是不是俗体字?黄一农教授强调,“e考据”时代下传统知识依然能够发挥作用。如果传统知识过关,我们就知道可以从书法作品中找,如乾隆时期收录了历代精彩的法帖作品的《三希堂法帖》。从《三希堂法帖》中的字形可以发现,“宁”字即使在不存在避讳问题的时期也有着各式各样的写法。并且,通过《说文解字》我们能够发现,缺末笔的字形才是正体字,而我们现在写的“寜”才是俗体字。

 

最后,黄一农教授对“e考据”的概念进行了概括总结。首先,“e考据”是在大数据时代融通数位与传统的一种新研究方法;其次,“e考据”的核心不仅在于以寻找资料为目的浏览检索(当然包含搜寻技巧),更在于研究思维与学习态度。黄一农教授说,文史研究在大数据时代缺乏的往往不是资料,而是对资料的敏感度、解析力与整合力。在“e考据”中,最难的是经营模式(business model)的提出——也就是构思可行性较高的解决问题的逻辑论辩过程,接着才是搜寻工具与方法的选择问题。

 

黄一农教授发言之后,薛龙春教授以“e考据与尺牍研究”为主题展开演讲。薛龙春教授指出,在今天的学术环境下,“e时代”提供了一种解决过去难以解决或不可能解决的问题的机会。随后,薛龙春教授通过殷廷枢《与念老年亲翁》、王宠《与长兄札》等五种个例讨论这一问题,并详细介绍了通过检索资料库逐步考证这些材料中某处人物代称具体所指代人物信息的过程。薛龙春教授强调,在此过程中,对关键词的把握十分重要——善于把控姓氏、职务等关键词信息能够大幅减小搜索范围;另一方面,研究一个人物时必须细读与他相关的所有文献,因为某些重要的关键词信息可能并不存在于当前文献,但存在于与主要人物相关的其他文献。

 

最后,薛龙春教授指出,“e考据”提供了海量的信息,但所有的信息都在一个层位上,如果没有对相关知识的掌握,很可能犯错。在错误率上,方志库稍低(20%左右),基本古籍库更高,但如此高的错误率对于学术研究是绝不能容忍的。薛龙春教授还指出,日记、信札等稿本材料,许多都藏于图书馆中而未被整理。对这些材料进行数据化处理,不仅是必要的,也是漫长的。另外,从图像分析的角度来看,“e考据”将带来艺术史研究的转机。

 

 

薛龙春教授

 

张瑞龙副教授指出,现在的数据库大部分是商业运作的结果,这导致了很高的错误率。如何利用传统素养、专业知识明辨正误,尤显重要。张瑞龙副教授从“闰八月不详”的问题谈起,以从思想史到术数史的多个具体实例说明如何在运用数据库收集材料时做到与传统素养和知识相结合的要求,避免因误用伪造的材料而降低研究结论的说服力这一情况。

 

 

张瑞龙副教授

 

魏希德教授指出,数位人文不只提供新的检索方法,还可以创造出新的思维方式。“e考据”目前正处于起步阶段,对于人文科学研究者,这些可能性是以前所不能达到的,既是机会,也是挑战。在图像处理的领域,“e考据”还能从笔迹分析等角度提供考证的依据。因此,“e考据”与以往考据模式的一个不同点就是,它能够从宏观角度去寻找一些微观问题的答案。

 

对于黄一农教授提出的新的“经营模式”,魏希德教授提出一个问题:这种“经营模式”应该由谁负责?是创始人、运营人还是包括学生在内的使用者们?随后,与会嘉宾共同讨论了目前数据库商业运作导致高错误率的可能解决方法。黄一农教授说,他自己就是许多数据库的高级用户(power user)。理论上,数据库的经营者应向高级用户收集使用情况反馈以改善用户体验,但事实上并没有——这可能是其商业本质所导致的。黄一农教授说,相关的文科研究者可以组成一个共同体,共同从买方角度制约卖方提供的数据库质量。

 

 

魏希德教授

 

朱本军馆员指出,“e考据”在未来可能拓宽到更大的市场范围——不仅提供资料的检索功能,还能在所有古籍数字化的基础上做语义关联。例如,找北宋的“苏洵”,系统就能够建立与南宋宰相王柏的关联,所揭示的材料范围会远大于简单检索得到的材料范围。朱本军馆员说,目前属于应全部实现数字化但尚未做到的时期。我们可以通过简单的检索得到想要的信息,但一旦所有典籍数字化,反而可能得到大量无用的信息,而过滤无用信息的代价将被提高。另一方面,关于黄一农教授提到的北大图书馆藏曹氏父子诰敕的真伪问题,朱本军馆员认为,不能仅凭文本信息判断真伪——文本信息中一些不合常理的部分可能是一些更复杂的原因所导致的。因此,与文学领域相比,史学领域的文本分析要更加谨慎。

 

 

朱本军馆员

 

对此,黄一农教授回应说,“e考据”目前尚不能解决所有的问题。以明清为例,还有相当多的诗文、家谱等材料未被数位化;但与上一代研究者相比,“e考据”提供的研究条件已经远胜以往。许多上一代无法解决的问题目前已经被解决,但仍不能解决的问题也依然存在。黄一农教授说,“e考据”模式尚处于起步阶段,材料数量的增长速度非常快:当前的材料量为100亿字,一年后就可能是150亿字了,甚至更多。

 

对于北大图书馆藏曹氏父子诰敕的真伪问题,黄一农教授承认,不能仅凭文本辨别,但他的判断是以诰命文本整体的严谨性和数千份其他同类文本中无他“追封”用例为依据的。又如,《红楼梦》中贾敬去世时用“宾天”二字非常奇怪。《汉语大字典》中的“宾天”有“帝王去世”和“尊贵人物去世”两个义项,而后者的例证刚好使用的是《红楼梦》中的这个例子。此外,黄一农教授用“雕龙”资料库检索时发现,《续修四库全书》中有四百多处“宾天”的例子,除了三处分别表示皇后、皇子、皇女去世外,没有一处是表示一般尊贵人物去世的。黄一农教授指出,善于利用“e考据”能够使知识的深度和完整度更加丰富,而文学领域的研究最有可能在此方面得到进一步发展的可能性。

 

邓小南教授认为,“e考据”所带来的挑战性更强于其机遇性。在庞大的材料矿藏面前,材料发掘者的勤奋度、思维路向、提问方式、问题指向等因素都将直接影响材料发掘的结果。因此,在知识储备有限的情况下,我们要明确搜索的方法和所要警惕的问题。邓小南教授重申了黄一农教授、张瑞龙副教授所强调的传统知识与素养的重要性,并指出,对于检索得到的文字材料,我们必须厘清其文本脉络。

 

黄一农教授最后总结说,在实现传统与数位相融合的过程中,方向、态度的正确性尤为重要。他发现,有些人通过资料检索的方式,在很短时间内进入新的领域;但由于缺失基础积累,未经受文科专业的训练且不懂得基础的考据,若仅凭自己发挥,往往犯错而不自知。因此,“e考据”虽能够缩短进入研究领域门槛的时间,但不能被过度依赖。目前,文科资料库资源有限,有大量未被数位化的重要文本存在,我们应投入到原始资料的数位化中。黄一农教授还指出,通过简单的检索而得到答案并不意味着问题的解决。在此基础之上,我们更应使用传统方式去研究文本中的其他内容,从而提高知识的深度与完整度。因此,黄一农教授对后辈研究者寄予希望,希望他们能够将搜索方法与传统知识相结合。