字節(jié)跳動攜手北大 搭建一座特別的“圖書館”

小熊在線 有毒的西瓜 | 2022年03月17日
字節(jié)跳動攜手北大 搭建一座特別的“圖書館” ......

3月17日,字節(jié)跳動向北大教育基金會提供捐贈,全面支持“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”的工作,研發(fā)古籍數(shù)字化平臺,搭建一座古籍“智能化數(shù)字圖書館”。雙方將攜手合作,優(yōu)勢互補,通過古籍數(shù)字化,保護、整理珍貴的中華文化資源,并推動這些資源向公眾開放。

這個平臺將分成兩部分:

(1)面向讀者的數(shù)字化古籍閱讀工具

“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”將調(diào)動國內(nèi)外的相關(guān)力量,在三年內(nèi)完成一萬種精選古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,為讀者提供開放的古籍“數(shù)字圖書館”。另外,通過文本數(shù)字化,這些古籍將能夠進行全文檢索,不再需要一頁頁從頭看起。

(2)開放的古籍數(shù)字化智能整理平臺

如果你有收藏的古籍,這個平臺能夠幫你把紙頁變成可查找的電腦文本。通過智能平臺的文字識別、校對工具,學者和愛好者可以在線上平臺一站式完成古籍的整理工作。

另外,平臺還將在迅速數(shù)字化大量古籍的基礎(chǔ)上,對重點文本進行精校,滿足專家學者對常用資料的準確度要求。

通過古籍數(shù)字化實現(xiàn)“穿越”的背后,離不開科技的支持。讓古籍變成可檢索的文本一直面臨諸多難題。古籍常常字跡不清,存在許多生僻字和異體字,語法、書寫規(guī)律等也都與現(xiàn)代書籍不同。在“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”中,多種先進技術(shù)正逐步解決這些困難:

OCR(光學字符識別)技術(shù)類似于一種智能掃描儀,先用電子設(shè)備檢查紙上每個字的形狀,再用字符識別方法,把這些字一個個“認”出來,并轉(zhuǎn)換為電腦能夠處理的文本。

句讀對于古籍數(shù)字化也十分必要。古籍的“標點符號”——句讀,與現(xiàn)代漢語差異很大,有的版本甚至沒有句讀,要靠算法幫忙斷句。這需要數(shù)字化平臺更智能,具有更高的語言處理能力。

實體識別是另一種重要的技術(shù)。古籍中存在大量的人名、地名、物品名等“實體”詞匯,地方志、中醫(yī)著作等類別的古籍,也常常具備自己的“專屬詞庫”。要實現(xiàn)古籍搜索,這些實體就會成為檢索的關(guān)鍵詞,平臺將通過算法把這些實體識別出來。

當然,這些技術(shù)的實現(xiàn)基礎(chǔ),是龐大的古籍修復與整理工作。這項工作仍然需要通過人工,用一張張紙、一支支板刷來完成。


用戶名:  密碼:  沒有注冊?
網(wǎng)友評論:(請各位網(wǎng)友遵紀守法并注意語言文明,評論僅供參考不代表本站立場)