閱讀古文字。圖片來源:《自然》雜志引自慕尼黑大學(xué)。
“維蘇威火山挑戰(zhàn)”(Vesuvius Challenge)的項目名稱來源于公元79年維蘇威火山的爆發(fā),許多珍貴的莎草紙文獻(xiàn)在火山噴發(fā)中遭到損毀。18世紀(jì),研究人員從意大利龐貝附近赫庫蘭尼姆的一座羅馬別墅遺跡中發(fā)掘出數(shù)以百計的卷軸。這些卷軸寫有文字的部分多已炭化,使得研究人員很難進(jìn)行解讀。
科學(xué)家們一直致力于用新的科技輔助解讀這些古老的文獻(xiàn)。美國肯塔基大學(xué)的計算機(jī)科學(xué)家布倫特·西爾斯(Brent Seales)就曾花費(fèi)數(shù)年時間開發(fā)“虛擬展開”(virtual unwrapping)技術(shù),即通過對古卷的內(nèi)部結(jié)構(gòu)進(jìn)行高分辨率掃描,再繪制橫截面,最后用算法將其展開為平面圖像。2015年,這種技術(shù)成功解讀了以色列恩戈地的一個可追溯至公元三世紀(jì)的燒焦古卷。
恩戈地古卷寫作的墨水中含有鐵,在計算機(jī)掃描的過程中會發(fā)出光芒。與之不同的是,赫庫蘭尼姆古卷的抄寫員使用的是碳基墨水,在計算機(jī)掃描中幾乎不可見。解讀難度的增大迫使科學(xué)家團(tuán)隊思考新的探索方案。西爾斯認(rèn)為,即使無法直接看到墨水,他們或許可以通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)裸露的莎草紙和寫有墨水的莎草紙表面紋理的差異,進(jìn)而推進(jìn)解讀。
“維蘇威火山挑戰(zhàn)”在這種需求下應(yīng)運(yùn)而生。西爾斯的團(tuán)隊于2023年3月和硅谷企業(yè)家納特·弗里德曼(Nat Friedman)合作,發(fā)起該挑戰(zhàn)賽,他們公布了卷軸表面的扁平圖像,要求參賽團(tuán)隊通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來尋找差異,以贏取豐厚的獎金。最終,超過1000個團(tuán)隊參與比賽。今年2月,一支由多位計算機(jī)專業(yè)學(xué)生組成的團(tuán)隊獲得獎金。該團(tuán)隊鑒定文本可能來自于伊壁鳩魯派哲學(xué)家菲洛德摩斯。
多名學(xué)者認(rèn)為,近些年來,人工智能的高速發(fā)展正在大幅重塑我們對古代世界的看法。早在2010年,人們就已經(jīng)開始將深度學(xué)習(xí)應(yīng)用于古代文獻(xiàn)的研究中。人工智能也逐漸表現(xiàn)出與人類考古研究者協(xié)作的潛力。英國諾丁漢大學(xué)的西婭·索莫斯奇爾德(Thea Sommerschield)等人曾經(jīng)使用公元前七世紀(jì)至公元五世紀(jì)之間的數(shù)萬個希臘銘文訓(xùn)練了一個名為Pythia的模型,通過大量數(shù)據(jù)的訓(xùn)練,向模型展示它從未見過的文本時,它可以根據(jù)上下文重建文獻(xiàn)中缺失的字符。2022年,他們對模型進(jìn)行了升級,以使其能捕捉到更復(fù)雜的語言模式。索莫斯奇爾德表示,在測試中,面對人為制造的古代文本空白,人工智能的修復(fù)準(zhǔn)確率達(dá)到62%,高于人類研究者的25%。不過,若人類研究者在人工智能的幫助下開展研究,修復(fù)準(zhǔn)確率可以上升到72%。
人工智能正在展現(xiàn)出的潛力已經(jīng)為多個國家所重視。中國的多個研究團(tuán)隊都曾嘗試借用人工智能的力量破譯甲骨文。今年年底,在接受媒體采訪時,廈門大學(xué)信息學(xué)院自然語言處理實(shí)驗(yàn)室史曉東團(tuán)隊就曾表示,團(tuán)隊正在利用已經(jīng)破譯出的1000多個甲骨文,通過人工將其拆解為IDS(表達(dá)結(jié)構(gòu)的部首偏旁序列)。找出與現(xiàn)代文字IDS的對應(yīng)關(guān)系后,再將這些數(shù)據(jù)“喂”給AI,實(shí)現(xiàn)學(xué)習(xí)。
西爾斯將這些有待科技進(jìn)一步挖掘的文獻(xiàn)稱作“隱形圖書館”,包括中世紀(jì)書籍、古埃及木乃伊包裹物中的文本等等?!叭缃?,人工智能幫助我們打開了曾經(jīng)無力訪問的資源?!?/p>
參考鏈接:
1.How AI is unlocking ancient texts— and could rewrite history
https://www.nature.com/articles/d41586-024-04161-z
2.“喚醒”甲骨文廈大團(tuán)隊嘗試用AI破譯古老文字
https://news.xmnn.cn/xmxw/202412/t20241211_286795.html
編譯/劉亞光
編輯/羅東
校對/穆祥桐