第278章?紅彤彤的前程(第二更)
儘管信心滿滿,但能夠這麼順利的就取得橘子大模型的源代碼,還是讓Madeline喜出望外。
千尋的安全部門手裡有大量的0day漏洞(被黑客發現的,開發者和用戶不知道的漏洞),他們所製作的木馬就是利用了linux係統中的幾個0day漏洞來遠程執行代碼並獲取權限。
千尋根本沒有等太久,那個加密包第二天就被柚子科技解密調用了,裡麵果然是橘子大模型內測後的修複版本。
吳恩德離開後,接替他工作的傅遠生雖然滿嘴軍令狀,但心裡其實還是忐忑的。
他是內行,雖然此前沒有接觸過橘子大模型這種類型的神經網絡,但BP、LSTM、、RNN、DNN、Seq2Seq等模型還是玩的很熟的。
無論什麼神經網絡,本質上都沒有刪除數據這麼一說,隻能重新訓練。
深度學習並不是把數據資料存在某些地方供神經網絡調用,而是讓神經網絡“學習”這些內容,學習後的東西會導致“神經突觸”的變化,而大模型的“神經突觸”,就是所謂的“參數”。
這些參數的數值變化和相互的連接,就像人類學習的時候神經突觸的連接一樣,意味著大模型真正“掌握”了訓練的知識。
比如一個參數13B(130億)的大模型,存在一塊硬盤上,可能大小有20個G。
讓它接受2個T的數據訓練後,可能它的大小還是20個G。
大小沒有什麼變化,但這2個T的資料它卻已經完全掌握了。
但既然是模仿人類神經形成的人工智能模型,其實也存在了人類智能的某些問題。
比如說“遺忘”的問題,就是明明學了,過一陣時間之後卻發現AI把學過的東西忘了。
AI過度訓練後,可能會出現對新數據“想當然”的現象。
就像人類麵對新生事物時,明明什麼都不明白,卻用過往經驗進行解釋,這在AI領域中叫“過度擬合”。
一堂課老師講了半本書,前三頁你還能聽明白,到後麵就是聽天書,對於AI來說,就是“信息過載。”
人類接觸到的信息是片麵的情況下,就會導致認知偏差,AI的數據如果集中存在某一種意識形態的內容,同樣會導致認知偏差。
林林總總。
更有甚者,原本是個好模型,彆人訓練都沒事,你來訓練,要麼無法收斂得到結果(可以理解為學不會),要麼災難性遺忘,要麼梯度爆炸或消失。
在架構和參數沒有太大改動的情況下,能不能訓練出可用的大模型,甚至是一門玄學。
AI的訓練與調優充滿了複雜性和不可預測性。
有時候,一個微小的參數調整或數據處理步驟的變化,就能導致訓練結果的巨大差異。
就算傅遠生嚴格按照科學的方法調整超參數,精心選擇數據集,並使用最先進的硬件設備,但他仍舊沒有足夠的信心在短短的一兩周時間內,把橘子大模型重新訓練一遍去除柚子科技的所有痕跡。
但成了的話,自己可就是AGI之父啊!…。。
升職加薪啊!
成為世界第一的AI權威啊!
又有幾個人能抵擋這樣的誘惑呢?
而且千尋早就準備好了,如果柚子科技那邊反擊,甚至放出橘子大模型是他們自我研發的實錘,千尋也不怕。
掌握了十幾億經費的公關一號位可不是吃素的!
哼!
入關之後,自有大儒為我辯經。
先攪渾水,過上半年再持續的歲月史書,柚子科技沒多久就成了曆史笑柄了!
傅遠生實際上手之後,更是喜出望外感覺自己天命加身。
這個橘子大模型和柚子訓練框架太踏媽好用了。
無論用什麼策略調整參數,幾乎訓練效果都很好,效率奇高。
應該三天就能完成一輪訓練。
公測版本的橘子大模型相較內測版的130億參數又做了倍計的提升,足足有1500億的參數。
傅遠生指揮自己三個忠實走狗,四個人開始關在小黑屋裡閉關,一邊去除橘子大模型內的柚子科技的痕跡,針對性的調整參數,一邊進行重複訓練,儘可能的覆蓋這個大模型原本學習的知識。
尤其是那種“你是誰創造的?”之類的問題,必須對大模型進行監督學習,讓其遇到類似的問題都能回答是“我是‘聞君一言’,是一個AI助手,千尋公司創造了我。”
或,“千尋的天才工程師們日以繼夜的工作和努力,才讓我和伱見麵,開心嗎?”
為了徹底避免問題出現,傅遠生他們甚至把“柚子科技”、“柚子”及能夠聯想到的其他詞語都作為禁詞,禁止修改後的“聞君一言”在任何方式下提及到。
當然,這仍然不能徹底解決問題,不過沒關係,千尋隻準備公測三天,三天後,馬上就宣布公測結束,係統升級,剩下的時間慢慢搞。
總是能把這個問題解決掉的。
傅遠生熬夜熬的眼珠通紅,這是累紅的嗎?
不,這是被我那紅彤彤的前程照紅的!
——
柚子科技官方微博的表態,讓所有吃瓜群眾都覺得不明所以。
那句有意思還能夠解釋為反擊的話,上麵貼的那張集體穿著魔法袍的團隊照片什麼意思?
想對千尋用個阿瓦達啃大瓜?