第316章?Y搜出海(6143)
這是實時爬取的數據嗎?怎麼可能?
柚子科技怎麼可能有這麼大的數據中心和帶寬?
彆說隻是拿了10億邁元投資的柚子科技,就算是目前現金流已經基本回正的大米,想要投一個引擎,也是天方夜譚般的事情!
“實時抓取?柚子科技的帶寬和服務器夠嗎?”
雷君完全想不通,柚子科技這個Y搜,是怎麼實現的。
引擎發展到了今天,無論是羅伯特李的超鏈技術和古狗基層的pagerank技術,本質都是通過網絡爬蟲從一個或多個著名網站開始,不斷地通過各種網頁鏈接爬取網頁並讀取網頁內容。
抓取到的網頁內容並不是直接用於,而是被分析、提取出頁麵中的關鍵信息,如文本內容、標題、關鍵詞、鏈接等後,存儲在引擎的索引庫中。
這個索引庫就像是一本互聯網內容的目錄,幫助引擎在用戶發起查詢時迅速找到相關的頁麵。
羅伯特李的超鏈技術和pagerank不同的是,羅伯特李解決的是爬取的方式問題,而pagerank解決的是為網頁賦權的問題。
具有相同內容的兩個網頁,來自白屋的網頁和來自非洲一個小孩的個人網頁,權重顯然是不同的。
古狗的pagerank通關算法,將這些網頁進行賦權,算出哪些網頁更有價值,那麼這些網頁就更容易被搜到。
這兩種技術,也是當今引擎最底層的技術,幾乎所有引擎都是建立在這兩種技術之上的。
但這就帶來一個問題。
帶寬和無比龐大的數據庫問題。
帶寬決定了引擎的爬取速度和用戶體驗速度,而數據庫決定了結果的準確性和豐富性。
每秒鐘互聯網上都會有無數新的網頁誕生,爬下來的鏈接數據庫存在哪裡?需要多大的服務器空間?
雖然隻是存儲連接和內容索引,但整個互聯網網頁量太大了,僅僅隻是這一小部分,就不是哪個小企業能夠承受的。
古狗每年光是花在服務器新增、更新、維護上的錢就多達七十億邁元,而且這筆錢每年都在增加。
古狗和千尋都是在互聯網蠻荒時代就已經進入這個領域的創業者,在一開始,不需要投入太多的服務器資源,就能夠把互聯網上所有的網頁鏈接全都爬一遍。
但現在可不是,經過十幾年的發展,互聯網已經變成了一個龐然巨物,互聯網用戶已經超過34億人,占全球人口的45%。
如果去掉學齡前尚未真正注冊互聯網賬戶的幼兒和對互聯網完全沒有認知的高齡老人,占比可能已經超過了65%。
現在互聯網上的數據量之大,可想而知。
古狗和千尋這種引擎巨頭,是隨著互聯網一步步成長起來的,他們的營收增速比互聯網的增長還要快,自然能夠不停地加大投入,來增設新的服務器,響應用戶需求。
這也是這個行業為什麼沒有新入局者的原因。…。。
這完全是一個積累型的行業,護城河非常深,根本不是一般公司能跨越的。
想要憑借體驗、內容豐富度、精準度等產品力指標推翻古狗或千尋的統治,唯一的辦法就是某個巨頭或大佬,不計回報的投入數百億邁元,爬取整個互聯網的內容,通過精妙的算法,才能做出一個和千尋或古狗在產品力上能掰手腕的引擎出來。
這也隻是能掰掰手腕,是否能真的超過千尋和古狗,還不好說。
也正因為如此,基於成本方麵的考量,引擎不會為每個網頁設定統一的爬取頻率。
爬蟲會根據網頁的重要性、更新頻率、網站的爬取策略來動態調整抓取頻率。
重要的網頁,比如各個新聞網站和引擎自己的新聞中心,可能幾分鐘就會重新爬取一次,而不常更新的頁麵可能幾天、幾周甚至幾個月才被重新抓取一次。
但剛剛雷君和周授茲所看到的Y搜,針對於一些普遍認為不應當被頻繁抓取的網頁,也進行了抓取不說,抓到的結果,還是幾分鐘之前的。
例如,其中有一篇寫於大嘴的自媒體文章,發表於5分鐘之前。
這種自媒體一般來說引擎抓取的頻率會非常低,除非類似在頭條裡麵搜頭條號這種垂直類型的能搜出來,否則用千尋或古狗都是搜不出來的。
就像這個網頁就是如此,因為抓取頻率的問題,這篇文章用千尋和古狗都搜不出來。
但Y搜就是給搜出來了,而且這篇文章的質量還不低。
難道說正好趕上Y搜爬這個鏈接了?
那未免也太巧了吧?
“Y搜不算完全的實時,它和傳統的引擎技術實際是兩個方向。”方豫把煙在煙灰缸裡掐滅。
他煙癮不重,選在室外和雷君還有周授茲見麵,就是因為雷君是個老煙槍,一天兩包,新鎬室內全麵禁煙,這種帶室外區的咖啡廳談事情對煙民比較有利。
“Y搜所用的技術和傳統技術完全不同,傳統的技術是下載鏈接後對鏈接賦權索引建立數據庫。”
“而Y搜,是通過大模型分析學習目前互聯網上十七億個網頁的數據連接,針對於哪些鏈接
的質量可能更高進行概率性的判定,依據這種概率,給出結果。”
“因此,Y搜並不需要特彆多的服務器來存儲這些網頁具體數據,隻是這些鏈接的索引都被大模型‘學習’了而已。我們隻需要儲存鏈接就可以了。”(注1)
“當用戶進行的時候,大模型會自動依據用戶的意圖或自己的判斷,給出其認為符合用戶需求的鏈接。”
“至於說爬取頻率的問題,其實這並沒有這麼難,根據interlivestats實時數據,互聯網目前有13億網頁,其中百分之五十都是空鏈接或失效鏈接。”
“去掉這些,隻有六億多,六億的鏈接中,又有接近四個億網頁是‘非活躍網站’。”…。。
“橘子的算法是依據‘數據標記’進行判斷,已經爬取的‘數據標記’並未改變的情況下並不會重複爬取,在‘數據標記’被改變後,橘子大模型才會主動爬取更新的網頁,確保自身的數據處於最新,同時再新建一個‘數據標記’。”
“這種技術的好處在於,我們不需要像千尋和古狗一樣,建立那麼多那麼大的數據中心。”
“一個占地兩萬平米的單層數據中心,應該就足夠滿足全大周用戶的需求,投入可能隻相當於古狗的百分之一不到,目前Y搜使用的是阿狸雲。”
“當然,如果還要開發其他業務的話,比如目前的千尋和古狗的網盤、百科、文庫、地圖、郵件等功能,還是需要很大的數據中心來做支撐。”
“另外這個技術還有一個好處就是非常便於審核和過濾,在審核過濾規則確定的情況下,Y搜可以更為精準的過濾需要審核的信息,避免誤傷。”
“AI時代,未被汙染的數據太重要了,但現在大周互聯網上的周文數據汙染情況過於嚴重,訓練大模型的效果很差。”
“這其中相當一部分是由於審核誤傷所導致的,造成周文數據可訓練度差,因此在Y搜的算法之下,可以精準識彆需要過濾的結果,降低97.98%的數據誤傷。”
“這一條雖然短時間內看不出來什麼,但時間長了,對整個大周的互聯網數據資源都有相當大的好處。”
“帶寬和千尋目前的帶寬需求相差不大,畢竟數據的傳輸和返回都是需要帶寬的,但這部分成本對於引擎來說,占比本身就不大。”
“這種技術最大的難點在於,大多數網頁的變化是難以精確預估的,且需要一個可靠的爬取策略來保持數據的時效性,並且保障鏈接和生成索引之間的準確性。”
“但好在,在這方麵我們取得了一些突破,當然,具體的算法涉及機密,就不和二位介紹了。”
“正因為各方麵的成本都節省了,即使Y搜不上市,我也能維持這個引擎的正常運營。”
雷君看著方豫的手機屏幕,就像在看外星人:“你的意思是,Y搜是一個偽裝成引擎的大模型?”
短短幾個月時間,AI就把引擎行業顛覆了?
這是什麼樣的進化速度!?
有可能做到嗎?
如果是真的,那下一個即將被顛覆的行業又是哪一個?
雷君突然感覺有些慶幸,還好自己的小米選擇的是硬件創業,能成為AI的載體。
如果當初選擇進入什麼移動互聯網軟件創新領域,現在估計已經開始擔心的睡不著覺了吧?
方豫立刻糾正雷君的說法:“不,隻能算是融合了AI功能的引擎。”
過猶不及,把AI融合進引擎是一回事,但引擎本身就是AI大模型是另一回事。
現在大多數人對AI還處於知道有這回事,但還沒有切身感受的階段。…。。
這時候如果他們發現自己日常使用的功能從根本上的運行邏輯都變了,必然會對AI產生警惕心理。
到時候,說不準搞出什麼事情來。
方豫言辭懇切:“涉及尚未公開的技術信息,因為信任雷總不是喜歡八卦的人,才會告訴雷總,還請雷總幫我保密。”
雷君苦笑兩聲,他現在還真的有點相信方豫的確是沒想讓Y搜上市了。
這種模式下,運營一個全網覆蓋的引擎門檻被大幅拉低了,就算柚子科技這種剛剛邁入獨角獸的初創公司,同樣也能進入這個領域。
不,不能算是被拉低了,能夠構建和預訓練出一個這樣的大模型本身就是門檻。
尤其方豫所說的那幾個算法,理論上是可行的,但也隻是理論上。
如果這幾個算法這麼容易搞,還有千尋和古狗什麼事兒啊,這兩家公司早就被顛覆了。
但居然就被柚子科技這麼一個小公司搞出來了!
再轉頭看看周授茲,雷君在自己的小兄弟的眼神中看到了從未見到的熱切和企盼。
雷君心裡歎了口氣,倒是沒有怪周授茲。
任誰看了這種完全顛覆未來的願景,也不可能不動心。
“小方同學,如果是這樣的話,也並不是一定要授茲過去吧?你不上市,授茲去了沒有用武之地,千尋和古狗應該有很多更適合的人才。”
悄無聲息間,雷君又改變了對方豫的稱呼,用手摸摸口袋。