字節(jié)跳動攜手北大 搭建一座特別的“圖書館”
3月17日,字節(jié)跳動向北大教育基金會提供捐贈,全面支持“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”的工作,研發(fā)古籍數(shù)字化平臺,搭建一座古籍“智能化數(shù)字圖書館”。雙方將攜手合作,優(yōu)勢互補,通過古籍數(shù)字化,保護、整理珍貴的中華文化資源,并推動這些資源向公眾開放。
這個平臺將分成兩部分:
(1)面向讀者的數(shù)字化古籍閱讀工具
“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”將調(diào)動國內(nèi)外的相關(guān)力量,在三年內(nèi)完成一萬種精選古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,為讀者提供開放的古籍“數(shù)字圖書館”。另外,通過文本數(shù)字化,這些古籍將能夠進行全文檢索,不再需要一頁頁從頭看起。
(2)開放的古籍數(shù)字化智能整理平臺
如果你有收藏的古籍,這個平臺能夠幫你把紙頁變成可查找的電腦文本。通過智能平臺的文字識別、校對工具,學者和愛好者可以在線上平臺一站式完成古籍的整理工作。
另外,平臺還將在迅速數(shù)字化大量古籍的基礎(chǔ)上,對重點文本進行精校,滿足專家學者對常用資料的準確度要求。
通過古籍數(shù)字化實現(xiàn)“穿越”的背后,離不開科技的支持。讓古籍變成可檢索的文本一直面臨諸多難題。古籍常常字跡不清,存在許多生僻字和異體字,語法、書寫規(guī)律等也都與現(xiàn)代書籍不同。在“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”中,多種先進技術(shù)正逐步解決這些困難:
OCR(光學字符識別)技術(shù)類似于一種智能掃描儀,先用電子設(shè)備檢查紙上每個字的形狀,再用字符識別方法,把這些字一個個“認”出來,并轉(zhuǎn)換為電腦能夠處理的文本。
句讀對于古籍數(shù)字化也十分必要。古籍的“標點符號”——句讀,與現(xiàn)代漢語差異很大,有的版本甚至沒有句讀,要靠算法幫忙斷句。這需要數(shù)字化平臺更智能,具有更高的語言處理能力。
實體識別是另一種重要的技術(shù)。古籍中存在大量的人名、地名、物品名等“實體”詞匯,地方志、中醫(yī)著作等類別的古籍,也常常具備自己的“專屬詞庫”。要實現(xiàn)古籍搜索,這些實體就會成為檢索的關(guān)鍵詞,平臺將通過算法把這些實體識別出來。
當然,這些技術(shù)的實現(xiàn)基礎(chǔ),是龐大的古籍修復與整理工作。這項工作仍然需要通過人工,用一張張紙、一支支板刷來完成。

大家都在看

重磅推薦
正視經(jīng)期困境,24年的女性國貨品牌決定與中國女性一起成長
華為全屋智能成套方案發(fā)布:滿足80平2室1廳家庭
引領(lǐng)行業(yè)革新 賢牛榮獲2021年度IT智能服務(wù)領(lǐng)軍企業(yè)獎
ExponTech華瑞指數(shù)云完成與東華醫(yī)為認證,智慧醫(yī)療數(shù)據(jù)底座能力獲認可
賢牛人力云 助力企業(yè)靈活用工輕裝上陣
微盟WOS新商業(yè)操作系統(tǒng)正式公測
MasterGo評論功能再升級,用表情優(yōu)雅“回懟”需求方
優(yōu)秀的孩子是“玩”出來的:toio™讓孩子們在策略游戲中培養(yǎng)決策力