張衛國以為落寒和他們采取了一樣的設計原理,博雅他們設計的係統包含了“策略網絡”“快速落子”和“價值網絡”。整個機器人包含了兩個大腦,“落子選擇器”和“棋局評估器”。
一個四人小組,尤其是其他四人還在打醬油的情況下,落寒想要通過記錄棋譜來提升係統的水平顯然是不可能。
“呃......”落寒有點懵,這才剛講一句話就被評委提問了,還這麼激動,有點想要衝上台來的樣子,這什麼情況?
還是會長看出來落寒的的疑問,開口到:“衛國,你先坐下,你看你都嚇住這位同學了。
我要是沒記錯,這位同學是叫落寒吧,我們就跳過之前的階段,直接開始答辯吧!
我們都比較想知道你的設計原理。”
台下的正在等待上台的其他小組都難以置信。
台下的評委都是什麼人,至少都是博雅的副教授,現在他們都不知道落寒圍棋機器人係統的設計原理。
他們不知道落寒這個係統所代表的含義,不代表這些在行業內研究幾十年的評委們不知道。
如果這個係統真的如落寒所說,那它就象征著計算機技術已進入人工智能的新信息技術時代(新it時代),其特征就是大數據、大計算、大決策,三位一體。
它的智慧正在接近人類。
“對不起,小同學,你繼續講,我有點激動了。”張衛國此時也反應過來了,訕訕一笑對落寒道了個歉坐下來了。
落寒一看,既然評委們都這麼說了,他索性就放棄了之前準備的演講稿,直接回答起問題來。
“我設計的這款係統是基於神經網絡原理,與目前世麵上機器人係統最大的區彆就是,它不再需要人類數據。
也就是說,它一開始就沒有接觸過人類棋譜。它使用新的強化學習方法,讓自己變成了老師。”
看著台下的評委都露出一股思索的表情,落寒繼續補充道:
“這個係統一開始甚至並不知道什麼是圍棋,隻是從單一神經網絡開始,通過神經網絡強大的搜索算法,進行了自我對弈。
隨著自我博弈的增加,神經網絡逐漸調整,提升預測下一步的能力,最終贏得比賽。”
落寒慢慢講訴著自己的設計理念,評委則是越聽越吃驚,心裡都泛起驚濤駭浪,就算是不是研究智能係統這一方向的老師,都開始感興趣起來。
“理論上來說,它不光可以成為圍棋機器人,他甚至可以通過自我博弈學習任何一種棋類。”
落寒發現剛才那位評委又開始興奮起來,他趕忙說道:
“不過,我也不知道什麼地方出來問題,導致這個係統在提升到職業五段的水平後,就停止不前了,目前我還沒找到解決辦法。”
張衛國一聽又重新平靜下來,繼續問著關鍵問題:
“那你落子時如何選擇的?選擇方案是什麼?”
“根據我了解的相關論文文獻,到現在為止所有研究所設計的相關係統,落子時的選擇都是基於兩方麵的考慮。”
“一是通過訓練形成一個‘策略網絡’,主要是將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分布。
然後,訓練出一個‘價值網絡’對自我對弈進行預測,以-1(對手的絕對勝利)到1的標準,預測所有可行落子位置的結果。
這兩個網絡自身都十分強大,而目前國際上所有的相關文獻描述的都是,將這兩種網絡整合進基於概率的蒙特卡羅樹搜索中,實現了它真正的優勢。”
張衛國推了推眼鏡,額頭微點,這個落寒肚子裡倒是有不少貨啊,他說的正是他們的設計思路。
“而我的係統在設計如何落子時是將上述兩個神經是網絡合二為一,摒棄了棋譜,通過它自己產生大量自我對弈棋局,為下一代版本提供了訓練數據,此過程循環往複。
讓它從低級的對戰慢慢成長,從而讓它能得到更高效的訓練和評估”
落寒停頓了一下,觀察了一下評委,發現他們差不多消化了他所說的信息,繼續道:
“在獲取棋局信息後,圍棋係統會神經網絡中根據策略網絡功能,探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。
在分配的搜索時間結束時,模擬過程中被係統最頻繁考察的位置將成為阿爾法圍棋的最終選擇。
在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,圍棋係統的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。”
前世包括阿爾法係統的舊版本,都是結合了數百萬人類圍棋專家的棋譜,以及強化學習的監督學習進行了自我訓練。
而現在落寒所講述的方法,還沒有任何期刊雜誌發表過,毫不過分的說落寒現在的方法是全球首創也不為過。
當然這是在獲得深度睡眠學習係統後,在夢裡附身前世阿爾法的機器人的主創人員學到的辦法,隻是時間有些短,現在還有一些問題沒有解決。
......
台上,落寒對著一堆博雅的教授副教授繼續侃侃而談,回答者他們各種各樣的問題。
落寒根本不像是在進行答辯,反而像是在給他們開報告會,隻是地點有些不對罷了。
問題回答的差不多了兩方又開始分析係統沒達到預期效果的原因,集思廣益,所有的評委都參與進來,眾人開始討論。
“我覺的進化到專業五段就停止,問題還是在你構建的單一神經網絡上,會不會是你的網絡太簡略,已經到達了極限無法支撐其繼續自我博弈。”
“我不這麼覺得,既然可以自我學習,就代表神經網絡應該沒問題。
可能是你的電腦硬件的方麵的問題,儲存空間有限,畢竟你是自己在單打獨奏,設備跟不上是有很大可能的。”
一個皮膚黝黑,理著光頭三十歲左右的老師開口道,這還是他今天第一次開口詢問。
落寒從上午看到這位老師,就有點疑惑他真的是研究計算機的麼?
隔著衣服都能感覺到他身上的肌肉塊棱角分明,出去說他是健身教練一點都不為過。:,,.,找書加書可加qq群952868558