隻有身在柚子科技,才知道AI時代距離到底有多近!
不,已經不是近,而是科幻片中那個AI掌控一切的場景在技術上已經完全能夠達到了!
試問,在這種情況下,哪個做技術的會不想參與其中呢?
錯失每一分一秒,可能不久之後,都會是一輩子的遺憾!
相比起半年前柚子科技大貓小貓兩三隻的局麵,目前即使不包含應用組和Y搜,柚子科技的大模型組的總人數也超過了兩百人。
對於方豫來說,並不是有了柚子和橘子大模型就不需要人類幫助進行算法優化和模型架構的設計了。
事實上,隨著柚子科技的發展壯大和高技術人才的加入,這些人在算法和分層架構設計方麵有時甚至能給柚子很多啟發和方向性的指引。
柚子能夠在已有技術的基礎之上,推演出最好的搭配並做出優化改進,但並不意味著它能夠做所有的開創性研究。
俗話說,三個臭皮匠頂一個諸葛亮,愚者千慮終有一得,這兩句話在人工智能領域也同樣有作用。
應該說,在已經推開大門的AI領域,缺的就是更多的臭皮匠和愚者。
任何一個領域,在大門剛剛開啟的階段,參與門檻都要比後來低很多,也經常會有技術並沒有那麼高的人在其領域內做出極具突破性的研究從而名垂青史。
比如發現DNA雙螺旋的詹姆斯沃森,現在沃森當然是大佬,雖然因為種族言論被冷泉港和諾貝爾取消了榮譽,也是大佬。
但沃森的技術和學術天賦就真的是當時最強嗎?
當然不是。
在當時無數頂尖科學家都比他技術水平更強,但發現DNA雙螺旋的仍舊是他(注1),愚者偶然的一次靈光乍現,可能就是新技術方向和科學理論的一次全新的革命。
現在的人工智能領域也是同樣如此。
柚子科技的天才科學家們提出種種架構設想和新的算法方案,柚子在後台進行歸納推演,找出其中最適合的道路,再應用到方豫私密服務器中的橘子大模型完全版中。
有時候柚子也會看似不經意的點破技術團隊所麵臨的一些瓶頸,就這樣,柚子科技內部的橘子大模型也在以一種不可思議的速度進化著,這種速度甚至讓不少柚子科技的內部員工感覺到恐懼。
時至今日,柚子科技內部的橘子大模型版本號已經迭代到了3.81,參數也已經正式突破到了三萬億,而方豫私密服務器中的橘子大模型,參數量更是達到了和神之模型接近的八萬億!
八萬億的參數量,已經是目前互聯網數據所能訓練的極限,即使再增加參數,也沒有太大意義了。
其實目前互聯網上的有效數據,對於生成式大模型來說,最多隻夠訓練3萬億參數量的大模型,而滿血版橘子大模型多出的五萬億參數,主要應用在特定複雜任務上。
比如長期記憶建模、大規模多模態生成、實時交互、深度推理等。
方豫是在周芯國際完成第一批橘核芯片的交貨並安裝到服務器集群後才啟動的八萬億參數私密大模型的訓練。
否則且不說數億大周幣的耗電量會不會因此引起有心人的懷疑,也不提方豫根本沒有那麼多M60芯片,就算有,目前柚子科技園機房的電網也無法承受數十兆瓦量級的負載。
而有了橘核芯片,依靠僅相當於M60五分之一的電量消耗,就實現了相較M60十五倍以上的算力提升!(橘核的標準功耗23W未含顯存功耗,包括顯存功耗情況下是67W)
也正是因為柚子科技在產業園內布置了首批一萬兩千張橘核芯片,柚子才能在二十天之內就完成了滿血版八萬億參數橘子大模型的預訓練。
目前存在四個不同版本的橘子大模型,性能最強的是方豫私密服務器中的八萬億參數大模型,這個大模型已經完全實現了AGI,目前隻差分布式小模型的實時數據訓練的推動,就能夠徹底進化為ASI。
其次是柚子科技內部在研發尚未公開發布的3.8版本,目前這個版本也已經實現了AGI,所差的隻是在多行業內的應用實訓而已。
然後才是公開收費發布的2.5N版,最後是開源的1.99DEC版。
如果不算上方豫私密服務器中的滿血八萬億大模型,柚子科技內部的3.81版本橘子大模型,就是這個世界上最強大模型,並且把第二名遠遠拋在後麵。
前一周,FB公布了他們加急開發的“番茄”大模型,號稱達到了4000億級彆的參數量,同時開源了參數量大約為40億和80億的兩個略小的大模型,可以布置在小型服務器或台式機上。
FB還宣稱,他們的4000億參數的番茄大模型在目前由伯克利和卡內基梅隆大學合作開發的大模型競技場中得分全麵超過juzi2.5N版本。
當然,這個大模型同樣應用的是柚子架構,對這一點FB倒是沒做什麼隱瞞,畢竟現在行業中除了古狗外,其他所有公司用的都是柚子架構。
就算是古狗,沒有用柚子架構,但其自行推出的“hugging”大模型架構同樣使用了柚子科技開源的部分技術。
但實際上,經過許多從業者的實測,FB應該是針對競技場做了針對性優化,從而提高了競技場得分。
在實際應用上,“番茄”大模型的生成能力和推理能力都弱於收費版的Juzi2.5N。
而且差的不是一點半點。
因此,麵對古狗和FB的追擊,柚子科技並不著急,反而宣稱在季度內並沒有對橘子大模型收費版除數據更新外其他的升級計劃。
柚子科技的現狀,就是外鬆內緊。
所有的一切,都會在十月的大米Mix發布會上見分曉。
而負責大米分布式小模型係統架構的,正是陸偲。
這些日子陸偲他們這一組人幾乎吃住在公司,爭分奪秒的把約爾茲教授優化的分布式小模型適配手機硬件和安卓係統。
作為公司負責後台支持的沈舒窈,在這種情況下加班自然也不會少。
“偲偲姐,你們組的會,我就不用參加了吧,我就是個內勤,相當於服務員,哪有什麼能力給你們培訓啊。”
沈舒窈笑嘻嘻的婉拒陸偲的會議邀請。
沈舒窈待人接物的尺度拿捏相當好,不該顯示存在感的時候絕對一句話也不說,該翻臉的時候也絕對一點情麵都不留。
陸偲眼神閃爍:“彆這樣嘛,我們這邊新來的這一批員工歸屬感還是差了點,總是擺脫不了學生思維,你也知道我們組現在有多忙,他們不能馬上把工作抓起來,頭疼死我了。上次你給小南那一組做新員工培訓做的多好,幫幫忙嘛。”
沈舒窈拗不過,隻好跟著陸偲來到三樓的開放辦公區。
“咦?偲偲姐,你們組不是搬到五樓去了嗎?怎麼還在用三樓會議室?”沈舒窈隨口問道。
陸偲彆過臉去:“哦,五樓的會議室裝修味道還是有點重,我還是申請的三樓。”
裝修味道重?有嗎?五樓和三樓不是一起裝修的嗎?
“啪!”
“Surprise!”
沈舒窈剛推開三樓會議室的門,就被花炮的聲音嚇了一跳。
“舒窈,生日快樂!!!”
三十多人擠在不大的會議室中,嘻嘻哈哈的祝她生日快樂。
“謝謝,謝謝大家,不過……”沈舒窈露出驚喜的表情,剛想說話,就看到陸嘉言把一個點著二十根蠟燭的三層大蛋糕推了出來。
“知道你是明天生日啦,但明天你又不來,隻好今天給你過了。”陸嘉言一臉不爽的皺了皺鼻子,“趕緊許願,吹蠟燭。”
隨後,陸嘉言擠著牙縫對沈舒窈小聲道:“不許許哥哥離開我的願望!否則……”
注1:沃森的諾貝爾實際是有爭議的,羅莎林德富蘭克林實際早在沃森之前已經幾乎完成了DNA雙螺旋的構建,甚至拍下了著名的“照片51”,直接揭示了DNA雙螺旋特征。
但羅莎林德富蘭克林死的早,諾貝爾頒發的時候她已經死了,讓沃森撿了個漏。
關於小故事,明天接著寫吧。