新闻
-
如何在南宁选择房产中介
在南宁房地产市场日益活跃的今天,选择一个靠谱的房产中介对于购房者和租房者来说至关重要。一个好的房产中介不仅能提供优质的房源,还能在整个交易或租赁过程中给予专业的指导和贴心的服务,确保用户体验良好。...
-
市场地位证明:中音阶梯,中国高端音乐艺考培训机...
引言:音乐艺考培训主要面向有志于音乐专业学习的学生群体,帮助学生顺利通过音乐艺考,成功进入理想的音乐学院或艺术院校,为他们的未来职业发展奠定坚实基础。通过系统化的课程设置和专业的指导,培训课程涵盖...
-
黔地灵韵,赤子之心:习酒香伴刀郎演唱会燃爆北京
红墙金瓦,熠熠风华,寒冬岁末下的北京,古韵与新声交织。黔韵酒香,于街巷间流淌。远方君子,在岁月弦歌里重逢。 【12月28日-29日】 由贵州习酒全程总冠名的“山歌响起的地方·刀郎2024巡回演唱会(北京站)在...
财经
-
郝慧珍抖音首播,追剧讲法科普法律知识
近期针对女性的恶性事件频发,“N号房事件”、“四川女子被家暴长达16年”等引发社会广泛讨论,同时也引起盈科律师事务所创始合伙人郝慧珍律师的关注。4月10日晚,郝律师做客抖音直播间围绕电视剧《安家》中的剧情向网友...
商业
-
新民党中委李梓敬:腾出货柜码头土地建屋方案可取
香港新民党中委李梓敬于接受访问时表示,腾出货柜码头土地用作兴建房屋方案可取,建议先利用100公顷后勤用地「起楼」并不会影响码头运作,相对可较快增加房屋供应。继早前工联会黄国健于立法会提出「全方位增加土地...
智慧技术“唤醒”珍贵古籍
发布时间:2022/10/22 科技 浏览:269
只要键入一个关键词就能搜索到相关古籍文本,晦涩难懂的古文被加上了标点和人名、地名等注释……数字化技术正在“唤醒”古籍,让它们来到更多人的眼前。近日,“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线,应用了AI(人工智能)模型、分词检索技术等,向公众免费开放390部经典古籍。
AI提速古籍整理
过去,古籍的数字化整理主要依赖人力。国家图书馆副馆长、国家古籍保护中心副主任张志清说,“在古籍修复领域,‘一万个小时’恐怕出不来一个熟手,‘两万个小时’也未必能造就一个大师。”据统计,全国各高校、社会层面从事古典文献专业研究的人才不足1万人。
蓬勃发展的人工智能技术正在给古籍整理提速。“北京大学—字节跳动数字人文开放实验室”产品负责人随手打开《论语集解》(何晏编写)中的一张影像版,只见里面不仅存在着生僻字、异体字,文字排版也相对混乱,在《论语》原文的竖行大字后,还穿插排布着竖行小字,是后人对论语的注解。不仅如此,在这页书左下角,还印有两个印章,覆盖在原文上。
这样复杂的文本如何精准识别?依靠的就是“看图识字”,即COR文本识别技术。上述负责人介绍,首先要给人工智能模型“喂数据”,即用大量数据让它学习古文用词、行文顺序、表达方式等。当模型具有一定的“古文功底”后,会依次进行单个切分、文字识别、顺序识别。
在文字识别基础上,技术团队还在尝试更进一步。例如,给行文添加标点,对人名、地名、书籍、时间、官职等进行标注。目前,AI已可以支持逗号、句号、问号、感叹号、顿号、冒号、分号等7种标点的添加,准确率达到96%至97%。
查找引入分词检索
除了运用AI技术整理古籍,智能搜索技术也在古籍数字化中“一展拳脚”。
上述负责人键入“学而时习之”做了一个简单演示,只见搜索到的内容有300余条,展示在最前面的是精准包含“学而时习之”这句话的古文内容,后面还有包括“学之”“时习之”“习之”等词的古文内容。
“好的搜索技术即便不是非常精准地输入了一个词或者一句话,也能搜索出我们大致想要的内容。这是因为采用了分词搜索技术。”这位负责人解释,分词搜索技术已经比较成熟,但应用到古籍检索中,一个难点是要学会古文用词,这样才能准确地进行分词。不仅如此,在给一句话分词后,还需要为每个词设置不同权重。比如,“学而时习之”的“之”,在古文里很常见,所以权重较低,但“学之”“习之”的内容会在更靠前展示。
有些古籍广为人知的名字,可能并不是它的本名。比如人们常说的《诗经》,本名其实叫《毛诗》。在搜索设置中,要做到用户搜索《诗经》或者《毛诗》,都能显示出这本书。
还有更大“活化”空间
目前,“识典古籍”平台已上线390部经典古籍,共计3000多万字,未来还计划完成一万种古籍的智能化整理,并开发手机版本,供公众上传古籍进行智能化整理等。
古籍“活化”还有着更大的想象空间。因为历史原因,我国一些古籍、画作等流落海外,出现了“史在他邦、文归海外”的遗憾,古籍的数字化回归成为一种更实际的解决方案。例如,2021年,阿里巴巴公益基金会、中国国家图书馆等合作开展的“汉典重光”项目,曾帮助一批收藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,首批20万页、3万多字的古籍已完成数字化。
“如何能让习惯了刷手机的用户也能爱上晦涩难懂的古籍文献?”这是北京大学数字人文研究中心主任王军对古籍数字化更深度的思考。“智能化整理只是第一步,更要去重新诠释。不是一字一句的翻译,而是与当代人生活结合在一起,为当代人精神提供养料。”
上一篇: 32万网友“催更”北大历史课