新京報(bào)貝殼財(cái)經(jīng)訊(記者 羅亦丹)流落海外的古籍能夠以怎樣的方式回歸祖國?5月18日,包括《蘇文忠公文集》、《宋百家詩存》、《居業(yè)錄八卷》等在內(nèi)的一共20萬頁藏于加州大學(xué)伯克利分校的古籍通過“數(shù)字化”方式回歸故土,并落地“漢典重光”古籍平臺,未來公眾可通過該平臺翻閱、檢索古籍。  



漢典重光項(xiàng)目發(fā)起人之一的高曉松在接受新京報(bào)貝殼財(cái)經(jīng)記者采訪時(shí)表示,古籍?dāng)?shù)字化回歸這件事需要古籍收藏方與古籍?dāng)?shù)字化團(tuán)隊(duì)雙方的配合,但也需要有技術(shù)有情懷的企業(yè)愿意以公益方式參與進(jìn)來。“文字是中國文化里最具有代表性的,中國文字不光具有文獻(xiàn)意義,還有美感,古籍?dāng)?shù)字化能讓更多年輕人了解到中國文化之美,我覺得有很大的推動意義?!?nbsp; 


據(jù)了解,“漢典重光”項(xiàng)目由阿里巴巴公益基金會、四川大學(xué)、美國加州大學(xué)伯克利分校、中國國家圖書館、浙江圖書館合作開展,旨在尋覓流散海外的中國古籍并將其數(shù)字化、公共化。目前,借助阿里達(dá)摩院的技術(shù),首批20萬頁古籍已完成數(shù)字化,并沉淀為覆蓋3萬多字的古籍字典,公眾可通過漢典重光平臺翻閱、檢索古籍。  


海外古籍現(xiàn)狀:顛沛流離  


2019年,阿里巴巴和四川大學(xué)提出“數(shù)字化回歸”設(shè)想,四川大學(xué)歷史文化學(xué)院王果副院長與該院教授、中央文史研究館館員陳力牽線搭橋,溝通北美、歐洲、日韓等地藏書機(jī)構(gòu),獲得加州大學(xué)伯克利分校支持,達(dá)成共識,由伯克利提供古籍的掃描圖片和編目數(shù)據(jù),達(dá)摩院將其全部文字化。  


據(jù)不完全統(tǒng)計(jì),目前散居海外的中國古籍超過40萬部、400萬冊,包括甲骨簡牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖、少數(shù)民族文獻(xiàn)等等??傮w而言,日本最多,此外還有韓國、美國、加拿大等地。以文瀾閣《宋百家詩存》為例,該古籍成書兩百多年以來極有可能經(jīng)歷了從杭州文瀾閣(約1790年)到南潯嘉業(yè)堂,再到日本三井文庫,最后到加州大學(xué)伯克利分校東亞圖書館(約1950年)的步驟。  


“由于各種原因特別是近代以來國家衰落,大量珍貴古籍流失海外,成為中華民族的一段傷心事,當(dāng)中華民族重返世界舞臺中央,偉大復(fù)興在望之時(shí),‘寶貝回家’是全體中國人的共同愿望?!比珖f(xié)副主席、九三學(xué)社中央委員會常務(wù)副主席邵鴻表示,“這次整館回歸伯克利分校所藏古籍,是一個(gè)很好的開始,但是對于數(shù)量巨大的海外古籍來說,我看到可能比較大的一個(gè)數(shù)字,超過40萬部400萬冊海外漢籍,這次伯克利分校的回歸才是20多萬頁,只是萬里長征走出了第一步?!?nbsp; 


在阿里巴巴達(dá)摩院院長張建鋒看來,古籍傳承面臨三大痛點(diǎn):實(shí)體藏書分散、查閱調(diào)用成本高、古籍?dāng)?shù)字化技術(shù)難?!敖?jīng)過兩年的努力,達(dá)摩院的技術(shù)專家與四川大學(xué)古籍專家聯(lián)合攻克了一系列古籍?dāng)?shù)字化的技術(shù)難題。我們研發(fā)搭建了集古籍?dāng)?shù)字化交互式訓(xùn)練、古籍全文內(nèi)容檢索、古籍漢字字典三大功能于一體的漢典重光古籍?dāng)?shù)字化平臺,希望通過此平臺能滿足古籍專家、古籍愛好者和普通讀者在古籍閱覽和古籍研究方面的不同需求?!?nbsp; 


“古籍?dāng)?shù)字化的工作量特別大,伯克利能以這樣的方式第一個(gè)參與進(jìn)來我覺得很感動。此外,古籍?dāng)?shù)字化的工作并非設(shè)計(jì)出一個(gè)AI機(jī)器人就能夠完成,這需要企業(yè)既要有技術(shù),也要有情懷、耐力,愿意用公益的方式把事情一點(diǎn)點(diǎn)做起來?!备邥运筛嬖V新京報(bào)貝殼財(cái)經(jīng)記者。  


如何將古籍“數(shù)字化”?  


“古籍?dāng)?shù)字化是個(gè)非常復(fù)雜的跨學(xué)科課題,涉及到古籍影像文本的分類標(biāo)引、檢索、挖掘、關(guān)聯(lián)等多方面信息技術(shù)的應(yīng)用?!敝袊鴩覉D書館副館長、國家古籍保護(hù)中心副主任張志清說,“古籍?dāng)?shù)字化已經(jīng)成為學(xué)術(shù)研究的基礎(chǔ),如果不能系統(tǒng)整理全部古籍文獻(xiàn),就不能在前人基礎(chǔ)上完整可靠的開展研究,如果不能大幅提高檢索效率,提供便捷、高效、準(zhǔn)確的查詢工具,學(xué)術(shù)研究就沒有源頭活水和津渡橋梁?!?nbsp; 


中央文史館館員、四川大學(xué)歷史文化學(xué)院教授陳力在接受記者采訪時(shí)表示,數(shù)字化對于原件的保護(hù),文物價(jià)值本身的保護(hù),也是一種很好的保護(hù),“古籍已經(jīng)有幾百年甚至上千年歷史了,如果我們經(jīng)常去翻閱它,對古籍原件會造成損害,翻的越多損害越多,數(shù)字化了以后,原件在非必要的情況下,我們可以盡量的少用,但是內(nèi)容我們已經(jīng)能獲得了,所以對于原件來說,也是保護(hù)?!?nbsp; 


據(jù)介紹,目前古籍?dāng)?shù)字化完整流程分為幾大環(huán)節(jié):采集側(cè)(紙質(zhì)書變?yōu)殡娮訏呙璋妫?數(shù)字化生產(chǎn)側(cè)(電子掃描版變?yōu)槲淖职妫?應(yīng)用側(cè)(文字版變?yōu)楣偶袑W(xué)系統(tǒng),涵蓋檢索、字典、知識圖譜等功能)。貝殼財(cái)經(jīng)記者注意到,伯克利主要負(fù)責(zé)了采集側(cè)的工作,而達(dá)摩院所做的工作則主要集中于數(shù)字化生產(chǎn)側(cè)、應(yīng)用側(cè)兩個(gè)環(huán)節(jié)。  


張建鋒透露,達(dá)摩院自研了一套全新的AI古籍識別系統(tǒng),可以規(guī)模化、系統(tǒng)化對電子掃描版古籍進(jìn)行識別,在首批數(shù)字化的20萬頁古籍上,達(dá)到了97.5%的識別準(zhǔn)確率,覆蓋3萬類古籍文字,比人工錄入效率提升近30倍。  


"?針對現(xiàn)在古籍的文字,我們要思考我們需要采用什么樣的技術(shù),讓這個(gè)數(shù)字化成為可行,并且能夠達(dá)到一定的準(zhǔn)確度。我們面對問題的挑戰(zhàn)有三點(diǎn)。首先,現(xiàn)代文字是有字典的,但是很不幸的是,古籍是沒有現(xiàn)成的字典,第一步要去找到我們要想去做文字識別的目標(biāo)是什么,我們需要去構(gòu)建這個(gè)字典,這需要大量古籍專家,一個(gè)字一個(gè)字把這個(gè)東西標(biāo)記出來,是很耗時(shí)耗力的。"達(dá)摩院視覺實(shí)驗(yàn)室負(fù)責(zé)人徐盈輝告訴記者。  


徐盈輝表示,他的團(tuán)隊(duì)通過技術(shù)手段解決了字的聚合問題(即把同類字放在一起以提高標(biāo)注效率),再由四川大學(xué)的古籍專家告訴我們哪里識別錯(cuò)了,當(dāng)反饋信息回到后臺,再進(jìn)一步的去更新表征模型,再產(chǎn)生相應(yīng)的單字聚合結(jié)果,再回饋給古籍專家,形成這樣一個(gè)閉環(huán)的工作模式。這樣的話,系統(tǒng)就越用越聰明,最終產(chǎn)出有效的字典?!皩?,我們只要在平臺輸入一個(gè)命名實(shí)體,比如一個(gè)人名、地名,就知道這個(gè)人名曾經(jīng)出現(xiàn)過哪些典籍里面,將來可以完成全文檢索的能力。此外,基本可以確定未來整個(gè)系統(tǒng)都會捐助出來。”  


“我們希望與阿里巴巴公益基金會合作,把漢典重光做成一個(gè)開放的平臺。擁有文獻(xiàn)的學(xué)者可以上傳文獻(xiàn),豐富平臺內(nèi)容,不上傳也可以利用平臺本身來搞研究,進(jìn)行字評詞評統(tǒng)計(jì)分析等,為學(xué)者提供一個(gè)很好的研究工具;對于普通大眾來說,它也是一個(gè)幫助學(xué)習(xí)古文的平臺?!标惲Ω嬖V記者。


編輯 徐超 校對 王心