97久久精品人人做人人爽,粉嫩av一区二区三区免费野,国产一区二区三区四区五区传媒

3月17日，字節(jié)跳動向北大教育基金會提供捐贈，全面支持“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”的工作，研發(fā)古籍數(shù)字化平臺，搭建一座古籍“智能化數(shù)字圖書館”。雙方將攜手合作，優(yōu)勢互補，通過古籍數(shù)字化，保護、整理珍貴的中華文化資源，并推動這些資源向公眾開放。

這個平臺將分成兩部分：

（1）面向讀者的數(shù)字化古籍閱讀工具

“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”將調(diào)動國內(nèi)外的相關(guān)力量，在三年內(nèi)完成一萬種精選古籍的智能化整理工作，基本覆蓋儒家、道家和佛學的核心典籍目錄，為讀者提供開放的古籍“數(shù)字圖書館”。另外，通過文本數(shù)字化，這些古籍將能夠進行全文檢索，不再需要一頁頁從頭看起。

（2）開放的古籍數(shù)字化智能整理平臺

如果你有收藏的古籍，這個平臺能夠幫你把紙頁變成可查找的電腦文本。通過智能平臺的文字識別、校對工具，學者和愛好者可以在線上平臺一站式完成古籍的整理工作。

另外，平臺還將在迅速數(shù)字化大量古籍的基礎(chǔ)上，對重點文本進行精校，滿足專家學者對常用資料的準確度要求。

通過古籍數(shù)字化實現(xiàn)“穿越”的背后，離不開科技的支持。讓古籍變成可檢索的文本一直面臨諸多難題。古籍常常字跡不清，存在許多生僻字和異體字，語法、書寫規(guī)律等也都與現(xiàn)代書籍不同。在“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”中，多種先進技術(shù)正逐步解決這些困難：

OCR（光學字符識別）技術(shù)類似于一種智能掃描儀，先用電子設(shè)備檢查紙上每個字的形狀，再用字符識別方法，把這些字一個個“認”出來，并轉(zhuǎn)換為電腦能夠處理的文本。

句讀對于古籍數(shù)字化也十分必要。古籍的“標點符號”——句讀，與現(xiàn)代漢語差異很大，有的版本甚至沒有句讀，要靠算法幫忙斷句。這需要數(shù)字化平臺更智能，具有更高的語言處理能力。

實體識別是另一種重要的技術(shù)。古籍中存在大量的人名、地名、物品名等“實體”詞匯，地方志、中醫(yī)著作等類別的古籍，也常常具備自己的“專屬詞庫”。要實現(xiàn)古籍搜索，這些實體就會成為檢索的關(guān)鍵詞，平臺將通過算法把這些實體識別出來。

當然，這些技術(shù)的實現(xiàn)基礎(chǔ)，是龐大的古籍修復與整理工作。這項工作仍然需要通過人工，用一張張紙、一支支板刷來完成。

香蕉久久综合精品首页_久久久精品免费_国产精品久久久久久久久电影网_精品国产自在久久

字節(jié)跳動攜手北大搭建一座特別的“圖書館”

大家都在看

香蕉久久综合精品首页_久久久精品免费_国产精品久久久久久久久电影网_精品国产自在久久

字節(jié)跳動攜手北大 搭建一座特別的“圖書館”

大家都在看

重磅推薦

字節(jié)跳動攜手北大搭建一座特別的“圖書館”