第1379章 思維體係
“本來是這樣的。”周至樂得眼睛都眯縫了:“可是兩位師兄提供的字卡太好用了。”
“《字海的字卡,有編號,有大字,有拚音、民國拚音、甚至還有老四角號碼,還有小字的釋義和凡例,滿足了我們自動識彆軟件對於調試校準模型的一切要求,我們當然也要用到那頭去!”
周至又道:“有了字卡的輔助,我們很快便將軟件識彆圖形文字的準確率,從百分之九十二,也就是一百個字錯八個,提升到了百分之九十九點六,也就是依靠軟件識彆文字,一千個字裡隻會讀錯四個。直接提升了一個量級。”
“這個成就,也直接幫我們跨過了數字圖書館最後一個巨大門檻,這個軟件,已經算是真正成熟了。”
“這次帶來的數字化的《字海,就是我們第一本通過計算機掃描識彆技術建立起來數字圖書,既然字數最多的《字海都可以實現數字化,那對其餘典籍,我們當然充滿了信心!”
“那就是古籍數字化工作可以提上日程了?”韋一心大喜:“我們學校正在搞《四庫全書叢目這部大書,要不肘子你來我們學校?學籍什麼的好說……”
一邊計算機中心主任也連連點頭:“其實清華那邊沒去頭,肘子你到底是文科生,來我們這兒正好搞古籍數字化工程,想想看,這個大工程搞出來,那會是多大成就?古人說的君子三立,立德立功立言,不都在裡邊了?”
周至聽得心中暗笑,應該說北大的文化氛圍的確可以的,你看計算機中心主任都說得出君子三立這樣的命題解讀來……
不過這事兒暫時沒有可能,周至隻好笑著解釋:“我們蜀大的《道藏,《儒藏兩部大書也準備開修了,師爺爺是不可能放人的。”
“不過現在有了好工具,哪怕我不來北大,大家也能夠加快工程的進度。現在還是說回正事兒,我利用數字化的《字海,演示一下我們對數字典籍整理的工程架構協議及標準。”
就好比一個標準的圖書館,將一本書作為一個文本文件整體存放,然後給這個文件編出,書名,書號,最多再給出個作者,出版社之類的信息,作為標簽。
直到周至穿越回來之前,國家將典籍進行數字化的工作,主要還停留在建立樹狀數據庫的較為原始的應用階段。
這樣的東西在周至眼裡當然是不合格的,最多最多隻能算是地基,離百尺高塔還差著老遠的功夫。
這樣做的好處就是簡單明了,升級維護也容易,信息保存也算全麵,一句話說完,就是夠用,但不好用。
這個東西是周至的自創,哪怕上一世,這也是圖書典籍工程裡沒有過的東西。
信息工程就是這樣,算法和協議的思路,往往比基礎工作還要重要,如果指導思想發生了錯誤,等到工程進展到不敷使用,才想著改弦易轍,在已經疊房架屋的情況下,再要開展,將付出巨大的代價。
後世中文編碼的巨大混亂情形,就是這種教訓的最好注腳。
這些思路,是在四葉草的研發思想,周至提出來的“如何三問”原則思想指導下梳理出來的。