banner

【邀访学者论坛111】徐永明:从纸本文献到智慧化数据

发布时间:2022-03-16

2021年5月27日下午,文研院第十期邀访学者内部报告会(第十一次)在北京大学静园二院111会议室举行。文研院邀访学者、浙江大学人文学院教授徐永明作主题报告,题目是“从纸本文献到智慧化数据”。第十期邀访学者白玉冬、曹寅、陈瑞翾、黄晓春、李肖、马里扬、马忠文、聂溦萌、孙承晟、吴真、吴华峰、余旸、张昭军、赵明昊,文研院院长邓小南、常务副院长渠敬东、院长助理韩笑、北京大学历史学系副研究馆员史睿出席并参与讨论。


文献的载体由纸到硅的变化,宣告了数字化时代的到来。在数字化时代,人们面对诸多问题,如:阅读的文献有哪些形态?每一种形态有哪些特点?当前古籍数字化的状况如何?海内外有哪些与中国文史研究有关的数据平台?今后的古籍数字化会走向怎样的发展路径?数字化时代的学者应该具备哪些素养?本次报告,徐永明老师从纸本文献、数字化文献、结构化数据和智慧化数据四个不同的发展阶段分享了他个人的思考和观点


一、纸质文献


徐永明老师认为,在数字化时代,文献的形态,正经历着由纸本文献向数字化、数据库化的方向发展,进而出现向智慧化大数据方向迈进的趋势。从汉代出现纸质材料到今天,纸质文献已有二千多年的历史。留存到今天的古籍,据《中国古籍总目》记录在册的有177107种,包括经部15144种、史部66502种、子部38298种、集部54889种、丛部2274种。如果每种以3个不同的版本平均计算,则有50多万部实体古籍。但《中国古籍总目》并不是现存最完整的古籍联合目录,国家正在实施的“全国古籍普查工程”,应该是一次较为彻底的现存古籍普查,里面发现了不少《中国古籍总目》未曾著录的古籍。若加上海外公私机构收藏的古籍,估计中国现存的古籍的种数会在20万种以上,有60多万部不同版本的实体古籍。


以纸质文献为研究对象的传统学术,已形成了优良的治学方法和治学态度。即便在数字化时代,这些优良的治学传统,都应该被继承和发扬下去。



二、古籍的数字化


数字化的文献,包括影像(image)和文本(fulltext)两种。徐永明老师估计目前已经完成扫描古籍大约8-10万种,其中从影像转化为可检索文本的约有4-5万种,占全部古籍的较少部分,可以说,古籍扫描与文本化工作还任重道远。徐永明老师引用国家图书馆张志清馆长的观点,古籍影像数字化如果全部完成,大约需要60亿的投入。至于从影像转成文本,由于近年智能OCR技术的出现,这一进程将大大加快。“书同文”的i-慧眼、阿里达摩院“汉典重光古籍数字化平台”所使用的OCR,使得古籍版刻体字识别的准确率都达到了90%以上。因此,一旦智能的OCR技术普及推广,影像的文本化,也是指日可待的事。


目前可全文检索的数据库包括四库全书、四部丛刊、中国基本古籍库(收录古籍一万多种)、鼎秀(收录古籍两万多种)等。但这些数据库后台缺少完整的知识体系支撑,还不属于智慧化数据;其与纸质文献的区别主要在于可进行全文检索、定位查询及易于存储等特点。对于个人来说,如果会使用Emeditor、Ftplist、everything-1.2.0.323b、Listary等软件,将大大提高检索效率。




三、结构化数据


徐永明老师介绍和展示了结构化数据。结构化数据以Excel、access、mysql、sqlsever等文件形式为载体,具有数字化古籍所不具备的计量统计、定位查询、社会网络分析、可视化等功能。徐永明老师以结构化数据的重要代表——哈佛大学与台湾中央研究院、北京大学历史学系合作建设的中国历代人物传记资料库(CBDB)为例,对其网页版、单机版分别作了展示。CBDB是基于实体模型建立起的相互关联的数据库,目前收录信息有40多万人。其基本数据可用于群体统计分析,如展示古代人物卒年分布等;存为Gephi、Pajek格式可以将社会网络关系可视化呈现,直观反映人物交游范围、关系亲疏、影响力大小等;存为GIS可以在地图上进行可视化呈现,以及地理空间分析,如唐代精英与北宋进士籍贯对比可以呈现精英分布格局的变迁,宋代进士籍贯与人口分布对比可以呈现不同地区精英率的差异等。其他结构化数据案例还包括哈佛大学与复旦大学史地所开发的中国历史地理信息系统(CHGIS)以及哈佛大学世界学术地图发布平台(Worldmap)等。国内结构化数据案例包括唐宋文学编年地图、浙江大学学术地图发布平台(AMAP)等。AMAP目前囊括了1200多张地图与400多万条数据,涉及到以人文为主的诸多领域,内容包括作者、行迹、书目(含提要)、篇名、职官、人口等。




四、智慧化数据


智慧化数据是数字化古籍发展的高级阶段,它是利用知识图谱理念结合大数据技术进行建设,克服了结构化数据碎片化的缺点,具备大数据分析、智慧搜索、智能推荐、人机交互、决策支持等功能。接下来,徐永明老师介绍了知识图谱产生与发展的历史,包括1945-1985年的“知识数据化”与1986年至今的“数据知识化”两个阶段。荷兰莱顿大学古籍半自动标记平台(Markus)将机器标引与人工编辑相结合、文本与后台数据建立关系,为阅读提供知识体系支撑,可导出标引数据进行计量统计。此外,台湾大学DocuSky数位人文研究学术平台能够提供一些数据标引工具并可发布标引好的数据;搜韵诗词平台将诗歌中的词语关联到后台辞典,为文学爱好者的阅读带来便利;北大“宋元学案”系统对专书做了标引,并以此为基础展开统计分析,都是智慧化数据建设的宝贵实践。


徐永明老师主持的国家社科基金重大项目“明代文学智慧大数据平台建设”,与图数据公司展开合作,借鉴知识图谱理念,综合运用大数据技术,将明代的文学文献和研究成果图谱化、智能化,打造一个集浏览、查询、研究、欣赏于一体,融审美阅读、知识学习、场景体验于一炉的智慧大数据平台。其数据包括供读者阅读的图像文本基础数据与后台结构化数据两类,数据处理需经过“文献-OCR识别-机器标点-人工校对-机器标引-人工标引-前台发布”的流程,涉及到智能OCR、自动标点、分词、众包、相似度比对、空间分析、可视化呈现等诸多大数据技术,是以知识图谱为核心的智慧文学素材库建设。徐永明老师还介绍了平台的逻辑结构、处理流程、素材分类、模块切分、平台接口等,强调建设过程应由机器完成85%的工作,人工完成最后15%,以加快古籍数据整理进度。徐永明老师指出,现代人文学者在姚鼐提出义理、考据、辞章三方面素养之外还应该具有算法能力,运用计算机技术解决学术问题,提高研究效率。


明代文学智慧大数据平台示意图


最后,与会学者就古籍数字化建设的意义、存在的问题及今后的前景等议题展开了热烈的讨论。


文研院院长邓小南教授为徐永明教授(左)颁发聘书