首页 > 资源动态 > 正文

其他

引得数字人文平台

发布于:2021.06.17

       1、背景介绍
       引得数字人文平台是由哈佛大学费正清中国研究中心、台湾“中研院”历史语言研究所、北京大学中国古代史研究中心及中文在线四方合作打造的中国古典数据数字人文资源平台。平台可以帮助高校及科研院所的学者和学生构建并不断优化数字人文素养训练环境、教学环境和研究环境。
      2、平台介绍
      引得数字人文平台包含“两库两工具”:中国历代人物传记资料库(CBDB)、中国通用古籍文库、数字人文文本处理基础工具和数据可视化挖掘工具。
      3、CBDB特点
      CBDB是全球较早进行数据结构化的大型中国历代人物关系传记数据库,是新文科建设中的里程碑式的研究成果,亦是数字人文研究发展的重要路径。
CBDB目前收录从先秦到晚清约47万人的传记、著作资料(约4亿字,存储信息量达2TB),每年新增4万条传主和100万条信息。所收录的人物主要出自七世纪至十九世纪,其中以唐、宋、明、清的人物传记资料最为充实。CBDB提供可视化查询服务,该数据除了可以作为人物研究的参考资料以外,亦可作统计分析、地理空间分析与社会网络等分析之用。
相对于传统的古籍文献资源库,CBDB部分是完全结构化的关系型数据库,以人物为主线,辅以时间、地点、事件和社会关系信息,助力人文研究进入数字人文的新领域。中国历代人物传记资料库(CBDB)不单是史料的电子化,更重要的是为了达到史料的“数据化”。数据化工作产出的数据不仅可以用于全文检索,还可以用来进行更多样的查询和分析,并可灵活地导出到其他软件,以便进行批量处理,或用不同方式来呈现,如统计表格、电子地图等。
和一般对人物数据库的理解不一样的是,CBDB既不提供一篇篇的人物小传,也不包含古籍的全文。它提供的是多个相互关联的表格, 把人物信息整理出来,放入其中,以便学者进行批量分析。用户通过对数据库进行查询,可以获得大批人物信息。其中关键的是,这些查询也可以利用人名以外的各种信息,例如地名、官名,甚至是亲属关系、社会关系等,查出一批人物的资料,供学者用于量化分析。通过对研究资料进行数据化,人文学者可以更有效率、更系统地解决既有的学术课题,也可以通过数据发现一些新的问题,供学者参考和分析。
     4、平台功能
     ①中国历代人物传记资料库(CBDB)
     普通检索:用户可通过姓名、地名、官名进行检索(可支持简体、繁体、拼音检索)。
     综合查询:可以通过生活的年代、朝代以及籍贯等信息进行检索。
     显示包括人物的中英文生平介绍、资料出处、别名、地址、入仕、任官、社会区分、亲属关系、社会关系、著述等信息。
    下载:付费机构用户可批量下载数据。
     ②中国通用古籍文库
     收录中国公私机构现存从先秦至民国撰写并经写抄本、刻本、印本、影印的历代汉文古籍资源约2万种31亿文字。用户使用账户登录后,可检索、在线阅览及下载“引得”数字人文资源平台收录的古籍文献内容资源。
下载:付费机构用户可批量下载数据。
     ③数字人文文本处理基础工具
     工具系统为数字人文研究学者提供文本识别、批量标注、简繁转换、自动句读、命名实体、文本比对的全流程、一站式文本处理工具箱服务,大幅提高文献数字化、结构化效率,是建设数字人文研究环境、训练环境事半功倍的组合利器。截至目前,古籍在线OCR工具对竖排古籍识别正确率接近92%,横排简体识别正确率接近98%。
     ④数据可视化挖掘工具
     现拥有100余种图表,无需编程,帮助专家学者轻松应对毕业答辩、成果汇报、项目申请书撰写、著作编纂等工作,同时可帮助学者发现选题和研究方向。
      5、平台登录
      机构用户:网址为https://www.inindex.cn在机构IP范围内进入平台,免登录,默认获得机构的相关权限,登录后将获得机构和个人个性化特权。
      6、开通时间
      2021年6月7日—2021年10月6日(四个月)