重生之乘風而起(二子從周)_第七百四十六章計算機語言（1 / 2）_重生之乘風而起最新章節免費閱讀無彈窗

“或許還是需要進行人工乾預，但是工作強度已經大大降低，我們可以通過拍照，掃描等方式，將生僻字的圖片掃入計算機，讓程序去分析它，最後得到標準點陣字，編碼之後加入到字庫當中，對字庫進行擴充。”

“要實現這個功能需要有幾個前提，第一就是字庫當中要有足夠的樣本，這個我們已經已經完成，因為我們現在已經有了四萬個標準點陣字的字稿。”

“還是拿《康熙字典》來舉例，我們先將《康熙字典》上每一個單字的掃描圖掃入文字識彆係統，然後提取其字體參數特征，再將這些參數賦給已有的標準點陣字，讓係統計算出根據這些參數產生的‘係統字’。”

“再拿這些生成的‘係統字’，與‘掃描字’進行校驗，通過四萬個標準字生成的‘係統字’，去驗證參數的代表性，最後將參數調整到最佳。”

“得到參數體係之後，我們就能夠將它套在掃描進來的生字上，最終得到《康熙字典》全部近六萬個單字的標準點陣字，字庫就從四萬擴充到六萬了。”

“這個思路倒是新穎，然而卻也是可行的。”麥明川點頭：“不過還是有問題，就是存儲和運算。”

“我也拿《康熙字典》來舉例，近六萬個單字，就是近六萬張圖片，我們就拿一張圖片五兆來計算，這就是300G的空間，這也太可怕了。”

“那王院長覺得，這個係統多大的圖片存儲容量，可以被接受呢？”

“一個G，”麥明川脫口而出，想了想覺得實在是有點欺負人：“最多最多，兩個G。”

1G是1024M，兩百張5M的圖片，兩G就是400張。

“也就是說，如果按照這個標準，這個係統能夠一次同時完成四百個字的掃描分析和成字入庫的工作？”

“那還得分串行並行。”李紅江已經上套，開始思索程序的工作方式了：“涉及到時間成本，學校也不可能將有限的計算資源全拿來做這事兒。”

“那我們可不可以像上級求助呢？”周至問道：“我們先把基礎工作做好，然後申請國家級的運算資源來完成它，有沒有機會呢？”

“國家資源那更緊張，全國無數單位排隊呢。”麥明川苦笑著搖頭。

辜老說道：“那乾脆這樣，我們將工作再做細一點，肘子說的這個文字識彆反向推算點陣字的程序咱們先緩一緩，第一步先集中精力把標準定出來。”

“與此同時，我們這邊，再把現在的四萬字稿擴到七萬。”

“小李那邊，抓緊先開發出讀字稿的程序，咱們先把七萬字稿的數字化工作完成。”

“之後再拿著這七萬漢字的數字化成就，去跟那個統一碼聯盟談判，並且要留夠下一步繼續拓展的空間，力爭讓我們的大字庫成為全球統一標準。”

“有了這個大字庫，咱們再製定出幾個子集，滿足國內國際不同應用場景的需求。到此我們的第一步工作是不是就算完成了？”

“至於肘子說的文字識彆，那也相當重要。”辜振鐸補充道：“這個可是我們下一步搞典籍數字化的神器啊！”

辜老不由得歎了一口氣：“這不是資源有限，怕排不上嘛？”

“那也不一定。”周至說道：“咱們大可以將這些思路都給一股腦兒報上去，咱漫天要價，在等著部委落地還錢，取乎其上，得乎其中嘛！”