黃士傑博士 遠不止AlphaGo的人肉臂 - 圍棋
By Skylar Davis
at 2017-06-01T15:49
at 2017-06-01T15:49
Table of Contents
黃士傑博士 遠不止AlphaGo的人肉臂
他面無表情,他冷靜鎮定,他會出現在對手的夢裡,他是AlphaGo人肉臂。他熱情幽默
,多才多藝。他很少登臺演講。他不被允許接受採訪。他是AlphaGo真正的創造者。他是
Aja,黃士傑。
許峰雄綽號“CB”。
1980年,許峰雄(Feng-Hsiung Hsu)從臺灣大學本科畢業,1985年考入卡內基梅隆
大學。1988年,CB製造出國際象棋程式Deep Thought(深思),後來經過學弟李開複介紹
,1989年加盟IBM繼續展開研究。
1997年
這一年5月11日,卡斯帕羅夫與Deep Blue(深藍)的第二次國際象棋人機大戰落幕,
最終人類棋王以2½-3½的總比分,不敵IBM的超級電腦。
這是載入人類歷史的一戰。
Deep Blue,就是CB許峰雄在IBM開發出的新一代國際象棋電腦程式,棋力數百倍於早
先的Deep Thought。
http://n.sinaimg.cn/kandian/crawl/20170601/kGRo-fyfuzmy0370295.jpg
△ 卡斯帕羅夫與深藍的國際象棋人機大戰
同年7月,臺北成功高中的黃士傑參加聯考。當年國文試題第15題,B選項是:現代電
腦的優點多得‘罄竹難書’令人不得不嘆服 。
黃士傑最終考入臺灣交通大學,四年後獲得電腦與資訊科學學士。2001年,黃士傑考
入臺灣師範大學攻讀研究生學位。
2003年,黃士傑碩士畢業。畢業論文:《電腦圍棋打劫的策略》。在學校當了一年的
研究助理後,2004年,黃士傑再次考入師大資訊工程研究所博士班。
2007年
這年2月28日,臺灣師範大學的學生組織了一次圍棋同好聚會。隨後這個定期的聚會
,發展為師大圍棋社,黃士傑是其中年紀最大的學長,並擔任首屆社長。3月,黃士傑擬
定了首次對戰分組表,比賽地點在男生宿舍地下餐廳。
http://n.sinaimg.cn/kandian/crawl/20170601/wUuV-fyfrfvv5507720.jpg
左一是師大就讀期間的黃士傑
同年5月,黃士傑帶領師大圍棋社參加臺灣大專杯圍棋賽。曾經有臺灣媒體報導稱黃
士傑曾經帶領師大圍棋社在這項比賽中奪冠。不過量子位仔細查找後發現,師範大學僅在
2009年獲得過第五名,其他年份均榜上無名。
同一賽事15個級別的個人戰中,前八名也沒有看到黃士傑的名字。2004-2011年間,
黃士傑一直博士在讀,而他的棋力水準是業餘六段。
雖然沒能在人類的圍棋賽中獲得矚目成績,但黃士傑在另一條路上繼續進發。他的一
個主要戰場是國際電腦遊戲協會(ICGA)組織的電腦棋類程式競賽。顧名思義,來自全世
界的電腦高手,在象棋、圍棋等領域展開鬥法。
在這個比賽中,黃士傑的名字寫作:Shih-Chieh Huang。
2006年,黃士傑獨自開發的第一款圍棋程式AjaGo,獲得圍棋大賽第11名;他參與的
中國象棋程式Elephant(大象),獲得大賽的銅牌。此後幾年,黃士傑開發的圍棋程式參
賽成績一直沒有亮眼的成績。
2010年
這一年9月,哈薩比斯(Demis Hassabis)等三人在英國倫敦合夥成立了一家新公司
,名字叫做DeepMind。
http://n.sinaimg.cn/kandian/crawl/20170601/ZTMt-fyfrfvv5507725.jpg
2010年黃士傑開發的Erica擊敗Zen獲得冠軍
同一個9月,黃士傑在Rémi Coulom的指導下,開發出圍棋程式Erica,並在圍棋比賽
中擊敗日本的Zen,獲得當年的冠軍。這在當時可算了不起的成就。Rémi Coulom是另一
個圍棋程式Crazy Stone的作者。
因為Erica的奪冠,讓黃士傑在參加博士畢業答辯前,就已經獲邀前往加拿大阿爾伯
塔大學攻讀博士後,並擔任電腦圍棋程式的研究員。他的博士論文題目是:《應用于電腦
圍棋之蒙地卡羅樹搜尋法的新啟發式演算法》。
2011年6月,黃士傑博士答辯通過,7月1日,黃士傑飛赴加拿大。
此時,他後來會遇到的席爾瓦(David Silver),早於一年前從阿爾伯塔大學離開,
前往倫敦大學學院。在倫敦,席爾瓦會遇到哈薩比斯。
到阿爾伯塔大學後,黃士傑繼續研究蒙特卡洛樹搜索。他還淺度參與了Fuego的開發
,這個團隊裡還有Markus Enzenberger、Martin Müller等人,這個圍棋參加了當年的
ICGA大賽,不過可謂一無所獲。
當年11月,奪冠的還是Zen。
時間再過一年,2012年11月,黃士傑也來到倫敦,加入DeepMind擔任高級研究員。至
少從這個時候開始,黃士傑開始用新的英文名:
Aja Huang。
2014年初
加入DeepMind的兩年裡,黃士傑似乎沒有重大的研究成果。從論文發佈量上看,也是
如此,2014年前幾乎搜不到他發的論文。
然而事情很快有了轉機。
2014年1月26日,Google宣佈5億美元收購DeepMind,拿下這家日後會大放異彩的初創
公司。
http://n.sinaimg.cn/kandian/crawl/20170601/taIq-fyfrfvv5507728.jpg
△ 左為哈薩比斯,右為席爾瓦
有一天,席爾瓦走到黃士傑面前說:“Aja,我們準備啟動一個圍棋項目。最開始只
有你和我”。2014年2月,AlphaGo項目正式啟動,團隊三個人:哈薩比斯、席爾瓦、黃士
傑。哈薩比斯是整個公司的老闆,席爾瓦是黃士傑的經理。所以,這個團隊真正幹活的只
有黃士傑一個人。
AlphaGo項目,就是想搞出一個強大的圍棋程式。而且從一開始,這個團隊就決定不
會嘗試所有的方法,他們只有一個方向:沿著深度學習和強化學習的方向探索。也是從一
開始,他們就知道這是一個非常困難的挑戰。
哈薩比斯說,希望通過AlphaGo的研究,讓機器獲得直覺和創造力。
而更現實的困難是,與國際象棋相比,圍棋的計算空間巨大,而且電腦無法理解一盤
棋到底誰獲得了勝利。
但他們就這樣出發了。
2014年6月-2015年6月
這年夏天,AlphaGo的第一個重要武器出現了。在卷積神經網路的説明下,AlphaGo學
習了很多人類高手的棋譜,能在3毫秒內做出比肩人類的下棋直覺。後來黃士傑給這個武
器命名:“策略網路”,並且持續進行訓練優化。
這個時候,AlphaGo的訓練還是在GPU上完成的。
時間再過一年。2015年6月,AlphaGo擁有了更強大、分散式的搜索技術支援。閱讀棋
局的能力大幅提升,可以檢索多種局面變化,並且找到最佳的應對方式。這個時候的
AlphaGo,可以算出後續40-60步棋。
(量子位注:擊敗柯潔的最新版AlphaGo,也只算到50步棋就停止了。)
當時在相同的硬體條件下,AlphaGo對另一個圍棋程式Crazy Stone取得了70%的勝率
,換句話說棋力領先了一個子。這個成就讓整個DeepMind都很受鼓舞,哈薩比斯這時候對
黃士傑說:
“Aja,咱們要組一個團隊,你不用再單打獨鬥了”。
從這時候開始,逐漸有更多的深度學習工程專家加入AlphaGo團隊。黃士傑還為新加
入的同事辦了一個訓練班,普及基本的圍棋規則。
http://n.sinaimg.cn/kandian/crawl/20170601/SGxO-fyfrfvv5507733.jpg
黃士傑
2015年8月
與此同時,另一個重要的節點已在不遠。兩個月後,AlphaGo將掌握稱霸圍棋世界最
關鍵的能力:形勢判斷。
“事實上,形勢判斷是圍棋過程中最難、最令人頭疼的環節,要進行準確的判斷,必
須具備精確測算雙方目數的能力,同時還要兼備綜觀全域的大勢觀、挖掘潛在價值的分析
能力和推理能力……要下出真正具有水準的圍棋,形勢判斷十分必要。”
上面這段話,來自李昌鎬。這位綽號“石佛”的韓國棋手,從1992年奪得第一個世界
冠軍開始,到2007年為止共獲得18次個人冠軍、13次團體冠軍,開創了“李昌鎬時代”。
AlphaGo如何獲得形勢判斷的能力?
解決這個問題的人是席爾瓦。有天他對黃士傑說:“Aja,我有一個主意,我覺得可
能會管用”。席爾瓦的主意後來被稱為“價值網路”。當時黃士傑對這個主意非常懷疑,
他回復說:“能管用麼?咱們試試吧。”
價值網路也是一個卷積神經網路,輸入是落子位置,輸出0-1之間的數字,0代表對手
勝利,1代表自己勝利,如果差不多就輸出0.5。(量子位注:Google最近公佈的數字是
-1~1,略有不同)。
總之,AlphaGo通過自我對弈,訓練出價值網路,進而可以判斷每一手棋背後代表的
勝率。這就形成了形勢判斷的能力。
價值網路的出現,讓AlphaGo棋力突飛猛進。與Crazy Stone的對弈中,AlphaGo勝率
達到95%,也就是達到讓兩子的水準。
“當時AlphaGo已經可以碾壓我了,我已經感覺到它的強大”黃士傑回憶說。
2015年10月
也是8月,樊麾在參加歐洲圍棋大會,回到法國的家中。他收到一封電子郵件,寄件
者是AlphaGo團隊的Maddy。郵件內容非常簡單:我們是一家倫敦的公司,希望邀請你來我
們公司。也沒有更多資訊。
樊麾一度認為是垃圾郵件。但鬼使神差,他回了郵件說:“可以呀”。然後他們用
Skype進行了線上溝通,席爾瓦當時也參加了,他們給樊麾講述正在做有趣的專案,也講
述了自己是一家Google收購的公司。
隨後樊麾上了DeepMind的官網,確定有這麼一家公司,以及公司主頁上還提到了圍棋
的字樣。於是他下定決心過去看看。
雙方第一次見面是9月底,當他確定自己要跟一個圍棋程式對弈時,整個人一下就放
鬆了,心說:“對付一個軟體,還不分分鐘的事兒”。樊麾當時甚至跟AlphaGo團隊表示
,他跟AlphaGo的下棋時間,只需要一個小時就夠了。
當時黃士傑反復跟樊麾說AlphaGo很厲害。但樊麾根本聽不進去。
http://n.sinaimg.cn/kandian/crawl/20170601/fdj5-fyfuzpn2355721.jpg
△ 最後一局樊麾為自己的失誤懊惱不已
2015年10月5日-9日。樊麾再赴倫敦,跟AlphaGo大戰五回合,當時代替AlphaGo落子
的就是黃士傑本人。結果可能大家都知道,樊麾全輸了。“當時我的整個圍棋世界都崩潰
了。”樊麾說。
和樊麾的比賽結果,DeepMind一直到2016年初才對外發佈。那時樊麾已經受聘成為
AlphaGo的教練。公佈賽果那天,樊麾關閉了手機。外出買菜的樊麾妻子給家裡座機打電
話:“千萬不要上網看評論,說的可難聽了。”
聶衛平當時評價說:“樊麾水準太低,給我們丟臉了。”
2016年
1月27日,《自然》雜誌以封面論文的形式,介紹了DeepMind團隊開發的AlphaGo,以
及它擊敗了歐洲冠軍樊麾的消息。
席爾瓦和黃士傑,並列作為這篇論文的第一作者。
在擊敗樊麾之後,AlphaGo的價值網路、策略網路和搜索能力都在繼續增強,使用的
硬體也從GPU換成TPU。TPU讓AlphaGo的計算能力獲得極大提升。
3月9日-15日,AlphaGo和李世石大戰五場。最終AlphaGo以4:1取得勝利。當時坐在
李世石對面,代替AlphaGo落子的還是黃士傑。
http://n.sinaimg.cn/kandian/crawl/20170601/mxR_-fyfuzpn2355741.jpg
左一為黃士傑,中間坐著的是樊麾
黃士傑第一次出現在全球觀眾的視線裡。
黃士傑像機器人一樣,出現在李世石和全球觀眾的視線裡。
李世石後來回憶說:“黃士傑是此次人機對弈中最辛苦受累的人,他擔心我會受到影
響,對弈期間,他一直面無表情,甚至連一次洗手間都沒去過”。
一次對弈,最長可能耗時近6個小時。在與李世石的無論對弈中,黃士傑只喝過一口
水。黃士傑的這種表現,甚至走進了對手的夢裡。
有次酒店的早餐送來後,李世石的妻子喚醒他起來吃早飯。沒想到李世石竟然回答說
:“嗯,我要和Aja一起吃。”
與李世石的比賽之後,黃士傑有過短暫的休假,幾乎沒有採訪報導留下。一位元名叫
Fred Zhou的中國記者告訴量子位元,在韓國比賽期間,黃士傑並不被允許接受採訪,據
說是因為他習慣於表達的毫無保留。
再後來DeepMind放出了棋譜,AlphaGo繼續新的成長。這年11月18日,黃士傑總結說
:“最近我的一個心得是,人的進步最多是用跑的,電腦的進步卻是用飛的”。
在這一年即將結束的時候,AlphaGo又回來了。2016年12月30日,Science News發佈
了一條推特,基本跟內文無關,推文如下:
AlphaGo: “Now, I am the master。”
2017年
事情從2016年12月29日晚開始,一個用戶名為“Master”,標注自己是韓國九段的棋
手,連續在弈城和野狐圍棋平臺大殺四方,連續“斬殺”各路圍棋高手,包括:柯潔、朴
廷桓、井山裕太、陳耀燁、申真諝、常昊、古力、周睿羊……
Master挑起的這場戰鬥,以60連勝頂級高手而告終。其中柯潔連輸三場,期間因為急
性腸胃炎而人生第一次住院,這一經歷也被編成調侃的小段子。
取得第59場連勝之後,Master在聊天室公佈了自己的身份:“我是AlphaGo的黃博士
”。果然是AlphaGo,果然又是黃士傑。
http://n.sinaimg.cn/kandian/crawl/20170601/U_T8-fyfuzpn2355745.jpg
黃士傑自報身份
“非常期望今年能有機會與圍棋組織以及專家共同探索圍棋,在相互啟發的氣氛中共
同領會圍棋的奧妙。我們希望儘快發佈其他公告”,哈薩比斯在稍後的正式聲明中說,這
再次暗示了AlphaGo與柯潔的大戰即將進行。
4月10日下午三點,在中國棋院的發佈會上,正式宣佈柯潔與AlphaGo的人機大戰5月
底開打,柯潔當時表態會不惜一切手段與AlphaGo一決勝負:“我不會說輸了無所謂,我
抱有必勝的心態和必死的信念”。
5月23日,雨從早下到晚,圍棋人機大戰如期舉行。柯潔對面,坐著的仍是黃士傑,
仍然作為AlphaGo的人肉臂代為落子。
柯潔旁邊的桌子上,除了一個水杯,還有兩盤水果和零食。而黃士傑這邊的桌子上,
只有一個白色的瓷質水杯。三場比賽皆是如此。
http://n.sinaimg.cn/kandian/crawl/20170601/L3eY-fyfuzny1696036.jpg
雙方對弈的最後一局
每場比賽結束後,黃士傑都會很快的從對局室,返回現場的觀賽大廳。但他只是靜靜
的站在一個角落,低頭看著自己的手機,有時朝臺上看看,等待柯潔等人站在聚光燈下,
而身材不算高大的他時常會被身邊的人擋住。
第二場對戰結束後,柯潔在臺上談起黃士傑:
“黃博士作為AlphaGo的核心人物,非常了不起。我覺得,他坐在我面前就像個機器
人一樣(笑)。如果是古力坐在我對面,他可能看到AlphaGo的下法可能會露出驚訝的表
情。”
“黃博士來擺棋,可能更讓我有和AI對戰的感覺。我也特別佩服黃博士,大家看直播
也能看到我很愛動,總喜歡活動身體,而黃博士總是一動不動,不上廁所、不喝水、也不
吃東西……所以跟黃博士下棋時,我覺得黃博士就是AlphaGo。”
當時哈薩比斯也說:“黃博士非常不可思議,有時候我們也覺得他是個機器人。我想
他之前一定對著鏡子練過”。
http://n.sinaimg.cn/kandian/crawl/20170601/VfsL-fyfuzny1696041.jpg
“最後一局即將開始,我要親手下出AlphaGo的每一步棋”,人機大戰最後一天的上午9
:35,黃士傑在朋友圈發了這樣一句話。
量子位當時就有一種異樣的感覺。一是黃士傑從來沒有在賽前發聲,二是這話裡明顯
有著隱忍而又強烈的情緒。
最後一戰,柯潔一樣情緒強烈。
那天下午1點06,對局中的柯潔摘下眼鏡,神情沮喪。兩分鐘後,柯潔起身離席。代
替AlphaGo落下第127子的黃士傑博士,趕緊拿起杯子喝了一口水。隨後黃士傑又恢復平靜
的表情,一直低頭看著棋盤。
時間過了很久,離席的柯潔還沒回來,黃士傑也開始抬頭張望。十多分鐘後,柯潔終
於回來。後來我們知道,柯潔躲在現場的宣傳板後,哭了。
下午1點22分,柯潔又抹了抹眼角。此時雙方行至第129手。
經過209手的交鋒,柯潔再負AlphaGo。
“其實今天下棋的時候我有點失態了,因為它(AlphaGo)下得實在是太完美了……
我只能猜得出它一半的棋,這就是我和它之間巨大的差距”,賽後柯潔在臺上哽咽講出最
後一戰的感受。
稍後不就,同在臺上的哈薩比斯表示,AlphaGo從此“退役”。這時量子位才多少理
解了黃士傑早上那條朋友圈的意義。
上述種種發生的時候,黃士傑就坐在台下第一排,正中間的位置,抬著頭靜靜地聽著
。看不到他有什麼表情,也看不到有什麼動作。也仍然沒有上臺發言的機會。有媒體靠近
,黃士傑仍是那句:他們不讓我接受採訪。
5月28日淩晨0:34,黃士傑在朋友圈發出這樣一句話:“天下沒有不散的筵席,我轉
往其他專案的時刻已到”。
一切就這樣收官了。
這是載入人類歷史的又一戰。
http://n.sinaimg.cn/kandian/crawl/20170601/iGsS-fyfuzmy0370375.jpg
最後
“這幾年,特別是來到英國工作之後,有時候我覺得人生就像做夢一樣。在團隊與同
事們的身上,我也看見了人因夢想而偉大的真實意義”,年初有同事問黃士傑以前研究電
腦圍棋時有沒有想到今天,他寫下這樣一段話。
從開始到現在,黃士傑看著AlphaGo的出生、成長、名滿天下。黃士傑一直以AlphaGo
人肉臂的樣子出現,像一個機器人一樣。
http://n.sinaimg.cn/kandian/crawl/20170601/4U82-fyfuzmy0370380.jpg
但黃士傑,遠遠不止是AlphaGo的人肉臂。
他也絕不是一個冷漠無趣的機器人。
不信你聽聽下面這首黃士傑彈的樂曲,這是黃士傑初二時從音樂班轉學後創作的。在
音樂課的前一晚,黃士傑準備了這首曲子。
http://sports.sina.com.cn/go/2017-06-01/doc-ifyfuzym7534553.shtml
難得中國這麼詳盡的報導黃博士,還寫得文采並茂挺不錯的
--
他面無表情,他冷靜鎮定,他會出現在對手的夢裡,他是AlphaGo人肉臂。他熱情幽默
,多才多藝。他很少登臺演講。他不被允許接受採訪。他是AlphaGo真正的創造者。他是
Aja,黃士傑。
許峰雄綽號“CB”。
1980年,許峰雄(Feng-Hsiung Hsu)從臺灣大學本科畢業,1985年考入卡內基梅隆
大學。1988年,CB製造出國際象棋程式Deep Thought(深思),後來經過學弟李開複介紹
,1989年加盟IBM繼續展開研究。
1997年
這一年5月11日,卡斯帕羅夫與Deep Blue(深藍)的第二次國際象棋人機大戰落幕,
最終人類棋王以2½-3½的總比分,不敵IBM的超級電腦。
這是載入人類歷史的一戰。
Deep Blue,就是CB許峰雄在IBM開發出的新一代國際象棋電腦程式,棋力數百倍於早
先的Deep Thought。
http://n.sinaimg.cn/kandian/crawl/20170601/kGRo-fyfuzmy0370295.jpg
△ 卡斯帕羅夫與深藍的國際象棋人機大戰
同年7月,臺北成功高中的黃士傑參加聯考。當年國文試題第15題,B選項是:現代電
腦的優點多得‘罄竹難書’令人不得不嘆服 。
黃士傑最終考入臺灣交通大學,四年後獲得電腦與資訊科學學士。2001年,黃士傑考
入臺灣師範大學攻讀研究生學位。
2003年,黃士傑碩士畢業。畢業論文:《電腦圍棋打劫的策略》。在學校當了一年的
研究助理後,2004年,黃士傑再次考入師大資訊工程研究所博士班。
2007年
這年2月28日,臺灣師範大學的學生組織了一次圍棋同好聚會。隨後這個定期的聚會
,發展為師大圍棋社,黃士傑是其中年紀最大的學長,並擔任首屆社長。3月,黃士傑擬
定了首次對戰分組表,比賽地點在男生宿舍地下餐廳。
http://n.sinaimg.cn/kandian/crawl/20170601/wUuV-fyfrfvv5507720.jpg
左一是師大就讀期間的黃士傑
同年5月,黃士傑帶領師大圍棋社參加臺灣大專杯圍棋賽。曾經有臺灣媒體報導稱黃
士傑曾經帶領師大圍棋社在這項比賽中奪冠。不過量子位仔細查找後發現,師範大學僅在
2009年獲得過第五名,其他年份均榜上無名。
同一賽事15個級別的個人戰中,前八名也沒有看到黃士傑的名字。2004-2011年間,
黃士傑一直博士在讀,而他的棋力水準是業餘六段。
雖然沒能在人類的圍棋賽中獲得矚目成績,但黃士傑在另一條路上繼續進發。他的一
個主要戰場是國際電腦遊戲協會(ICGA)組織的電腦棋類程式競賽。顧名思義,來自全世
界的電腦高手,在象棋、圍棋等領域展開鬥法。
在這個比賽中,黃士傑的名字寫作:Shih-Chieh Huang。
2006年,黃士傑獨自開發的第一款圍棋程式AjaGo,獲得圍棋大賽第11名;他參與的
中國象棋程式Elephant(大象),獲得大賽的銅牌。此後幾年,黃士傑開發的圍棋程式參
賽成績一直沒有亮眼的成績。
2010年
這一年9月,哈薩比斯(Demis Hassabis)等三人在英國倫敦合夥成立了一家新公司
,名字叫做DeepMind。
http://n.sinaimg.cn/kandian/crawl/20170601/ZTMt-fyfrfvv5507725.jpg
2010年黃士傑開發的Erica擊敗Zen獲得冠軍
同一個9月,黃士傑在Rémi Coulom的指導下,開發出圍棋程式Erica,並在圍棋比賽
中擊敗日本的Zen,獲得當年的冠軍。這在當時可算了不起的成就。Rémi Coulom是另一
個圍棋程式Crazy Stone的作者。
因為Erica的奪冠,讓黃士傑在參加博士畢業答辯前,就已經獲邀前往加拿大阿爾伯
塔大學攻讀博士後,並擔任電腦圍棋程式的研究員。他的博士論文題目是:《應用于電腦
圍棋之蒙地卡羅樹搜尋法的新啟發式演算法》。
2011年6月,黃士傑博士答辯通過,7月1日,黃士傑飛赴加拿大。
此時,他後來會遇到的席爾瓦(David Silver),早於一年前從阿爾伯塔大學離開,
前往倫敦大學學院。在倫敦,席爾瓦會遇到哈薩比斯。
到阿爾伯塔大學後,黃士傑繼續研究蒙特卡洛樹搜索。他還淺度參與了Fuego的開發
,這個團隊裡還有Markus Enzenberger、Martin Müller等人,這個圍棋參加了當年的
ICGA大賽,不過可謂一無所獲。
當年11月,奪冠的還是Zen。
時間再過一年,2012年11月,黃士傑也來到倫敦,加入DeepMind擔任高級研究員。至
少從這個時候開始,黃士傑開始用新的英文名:
Aja Huang。
2014年初
加入DeepMind的兩年裡,黃士傑似乎沒有重大的研究成果。從論文發佈量上看,也是
如此,2014年前幾乎搜不到他發的論文。
然而事情很快有了轉機。
2014年1月26日,Google宣佈5億美元收購DeepMind,拿下這家日後會大放異彩的初創
公司。
http://n.sinaimg.cn/kandian/crawl/20170601/taIq-fyfrfvv5507728.jpg
△ 左為哈薩比斯,右為席爾瓦
有一天,席爾瓦走到黃士傑面前說:“Aja,我們準備啟動一個圍棋項目。最開始只
有你和我”。2014年2月,AlphaGo項目正式啟動,團隊三個人:哈薩比斯、席爾瓦、黃士
傑。哈薩比斯是整個公司的老闆,席爾瓦是黃士傑的經理。所以,這個團隊真正幹活的只
有黃士傑一個人。
AlphaGo項目,就是想搞出一個強大的圍棋程式。而且從一開始,這個團隊就決定不
會嘗試所有的方法,他們只有一個方向:沿著深度學習和強化學習的方向探索。也是從一
開始,他們就知道這是一個非常困難的挑戰。
哈薩比斯說,希望通過AlphaGo的研究,讓機器獲得直覺和創造力。
而更現實的困難是,與國際象棋相比,圍棋的計算空間巨大,而且電腦無法理解一盤
棋到底誰獲得了勝利。
但他們就這樣出發了。
2014年6月-2015年6月
這年夏天,AlphaGo的第一個重要武器出現了。在卷積神經網路的説明下,AlphaGo學
習了很多人類高手的棋譜,能在3毫秒內做出比肩人類的下棋直覺。後來黃士傑給這個武
器命名:“策略網路”,並且持續進行訓練優化。
這個時候,AlphaGo的訓練還是在GPU上完成的。
時間再過一年。2015年6月,AlphaGo擁有了更強大、分散式的搜索技術支援。閱讀棋
局的能力大幅提升,可以檢索多種局面變化,並且找到最佳的應對方式。這個時候的
AlphaGo,可以算出後續40-60步棋。
(量子位注:擊敗柯潔的最新版AlphaGo,也只算到50步棋就停止了。)
當時在相同的硬體條件下,AlphaGo對另一個圍棋程式Crazy Stone取得了70%的勝率
,換句話說棋力領先了一個子。這個成就讓整個DeepMind都很受鼓舞,哈薩比斯這時候對
黃士傑說:
“Aja,咱們要組一個團隊,你不用再單打獨鬥了”。
從這時候開始,逐漸有更多的深度學習工程專家加入AlphaGo團隊。黃士傑還為新加
入的同事辦了一個訓練班,普及基本的圍棋規則。
http://n.sinaimg.cn/kandian/crawl/20170601/SGxO-fyfrfvv5507733.jpg
黃士傑
2015年8月
與此同時,另一個重要的節點已在不遠。兩個月後,AlphaGo將掌握稱霸圍棋世界最
關鍵的能力:形勢判斷。
“事實上,形勢判斷是圍棋過程中最難、最令人頭疼的環節,要進行準確的判斷,必
須具備精確測算雙方目數的能力,同時還要兼備綜觀全域的大勢觀、挖掘潛在價值的分析
能力和推理能力……要下出真正具有水準的圍棋,形勢判斷十分必要。”
上面這段話,來自李昌鎬。這位綽號“石佛”的韓國棋手,從1992年奪得第一個世界
冠軍開始,到2007年為止共獲得18次個人冠軍、13次團體冠軍,開創了“李昌鎬時代”。
AlphaGo如何獲得形勢判斷的能力?
解決這個問題的人是席爾瓦。有天他對黃士傑說:“Aja,我有一個主意,我覺得可
能會管用”。席爾瓦的主意後來被稱為“價值網路”。當時黃士傑對這個主意非常懷疑,
他回復說:“能管用麼?咱們試試吧。”
價值網路也是一個卷積神經網路,輸入是落子位置,輸出0-1之間的數字,0代表對手
勝利,1代表自己勝利,如果差不多就輸出0.5。(量子位注:Google最近公佈的數字是
-1~1,略有不同)。
總之,AlphaGo通過自我對弈,訓練出價值網路,進而可以判斷每一手棋背後代表的
勝率。這就形成了形勢判斷的能力。
價值網路的出現,讓AlphaGo棋力突飛猛進。與Crazy Stone的對弈中,AlphaGo勝率
達到95%,也就是達到讓兩子的水準。
“當時AlphaGo已經可以碾壓我了,我已經感覺到它的強大”黃士傑回憶說。
2015年10月
也是8月,樊麾在參加歐洲圍棋大會,回到法國的家中。他收到一封電子郵件,寄件
者是AlphaGo團隊的Maddy。郵件內容非常簡單:我們是一家倫敦的公司,希望邀請你來我
們公司。也沒有更多資訊。
樊麾一度認為是垃圾郵件。但鬼使神差,他回了郵件說:“可以呀”。然後他們用
Skype進行了線上溝通,席爾瓦當時也參加了,他們給樊麾講述正在做有趣的專案,也講
述了自己是一家Google收購的公司。
隨後樊麾上了DeepMind的官網,確定有這麼一家公司,以及公司主頁上還提到了圍棋
的字樣。於是他下定決心過去看看。
雙方第一次見面是9月底,當他確定自己要跟一個圍棋程式對弈時,整個人一下就放
鬆了,心說:“對付一個軟體,還不分分鐘的事兒”。樊麾當時甚至跟AlphaGo團隊表示
,他跟AlphaGo的下棋時間,只需要一個小時就夠了。
當時黃士傑反復跟樊麾說AlphaGo很厲害。但樊麾根本聽不進去。
http://n.sinaimg.cn/kandian/crawl/20170601/fdj5-fyfuzpn2355721.jpg
△ 最後一局樊麾為自己的失誤懊惱不已
2015年10月5日-9日。樊麾再赴倫敦,跟AlphaGo大戰五回合,當時代替AlphaGo落子
的就是黃士傑本人。結果可能大家都知道,樊麾全輸了。“當時我的整個圍棋世界都崩潰
了。”樊麾說。
和樊麾的比賽結果,DeepMind一直到2016年初才對外發佈。那時樊麾已經受聘成為
AlphaGo的教練。公佈賽果那天,樊麾關閉了手機。外出買菜的樊麾妻子給家裡座機打電
話:“千萬不要上網看評論,說的可難聽了。”
聶衛平當時評價說:“樊麾水準太低,給我們丟臉了。”
2016年
1月27日,《自然》雜誌以封面論文的形式,介紹了DeepMind團隊開發的AlphaGo,以
及它擊敗了歐洲冠軍樊麾的消息。
席爾瓦和黃士傑,並列作為這篇論文的第一作者。
在擊敗樊麾之後,AlphaGo的價值網路、策略網路和搜索能力都在繼續增強,使用的
硬體也從GPU換成TPU。TPU讓AlphaGo的計算能力獲得極大提升。
3月9日-15日,AlphaGo和李世石大戰五場。最終AlphaGo以4:1取得勝利。當時坐在
李世石對面,代替AlphaGo落子的還是黃士傑。
http://n.sinaimg.cn/kandian/crawl/20170601/mxR_-fyfuzpn2355741.jpg
左一為黃士傑,中間坐著的是樊麾
黃士傑第一次出現在全球觀眾的視線裡。
黃士傑像機器人一樣,出現在李世石和全球觀眾的視線裡。
李世石後來回憶說:“黃士傑是此次人機對弈中最辛苦受累的人,他擔心我會受到影
響,對弈期間,他一直面無表情,甚至連一次洗手間都沒去過”。
一次對弈,最長可能耗時近6個小時。在與李世石的無論對弈中,黃士傑只喝過一口
水。黃士傑的這種表現,甚至走進了對手的夢裡。
有次酒店的早餐送來後,李世石的妻子喚醒他起來吃早飯。沒想到李世石竟然回答說
:“嗯,我要和Aja一起吃。”
與李世石的比賽之後,黃士傑有過短暫的休假,幾乎沒有採訪報導留下。一位元名叫
Fred Zhou的中國記者告訴量子位元,在韓國比賽期間,黃士傑並不被允許接受採訪,據
說是因為他習慣於表達的毫無保留。
再後來DeepMind放出了棋譜,AlphaGo繼續新的成長。這年11月18日,黃士傑總結說
:“最近我的一個心得是,人的進步最多是用跑的,電腦的進步卻是用飛的”。
在這一年即將結束的時候,AlphaGo又回來了。2016年12月30日,Science News發佈
了一條推特,基本跟內文無關,推文如下:
AlphaGo: “Now, I am the master。”
2017年
事情從2016年12月29日晚開始,一個用戶名為“Master”,標注自己是韓國九段的棋
手,連續在弈城和野狐圍棋平臺大殺四方,連續“斬殺”各路圍棋高手,包括:柯潔、朴
廷桓、井山裕太、陳耀燁、申真諝、常昊、古力、周睿羊……
Master挑起的這場戰鬥,以60連勝頂級高手而告終。其中柯潔連輸三場,期間因為急
性腸胃炎而人生第一次住院,這一經歷也被編成調侃的小段子。
取得第59場連勝之後,Master在聊天室公佈了自己的身份:“我是AlphaGo的黃博士
”。果然是AlphaGo,果然又是黃士傑。
http://n.sinaimg.cn/kandian/crawl/20170601/U_T8-fyfuzpn2355745.jpg
黃士傑自報身份
“非常期望今年能有機會與圍棋組織以及專家共同探索圍棋,在相互啟發的氣氛中共
同領會圍棋的奧妙。我們希望儘快發佈其他公告”,哈薩比斯在稍後的正式聲明中說,這
再次暗示了AlphaGo與柯潔的大戰即將進行。
4月10日下午三點,在中國棋院的發佈會上,正式宣佈柯潔與AlphaGo的人機大戰5月
底開打,柯潔當時表態會不惜一切手段與AlphaGo一決勝負:“我不會說輸了無所謂,我
抱有必勝的心態和必死的信念”。
5月23日,雨從早下到晚,圍棋人機大戰如期舉行。柯潔對面,坐著的仍是黃士傑,
仍然作為AlphaGo的人肉臂代為落子。
柯潔旁邊的桌子上,除了一個水杯,還有兩盤水果和零食。而黃士傑這邊的桌子上,
只有一個白色的瓷質水杯。三場比賽皆是如此。
http://n.sinaimg.cn/kandian/crawl/20170601/L3eY-fyfuzny1696036.jpg
雙方對弈的最後一局
每場比賽結束後,黃士傑都會很快的從對局室,返回現場的觀賽大廳。但他只是靜靜
的站在一個角落,低頭看著自己的手機,有時朝臺上看看,等待柯潔等人站在聚光燈下,
而身材不算高大的他時常會被身邊的人擋住。
第二場對戰結束後,柯潔在臺上談起黃士傑:
“黃博士作為AlphaGo的核心人物,非常了不起。我覺得,他坐在我面前就像個機器
人一樣(笑)。如果是古力坐在我對面,他可能看到AlphaGo的下法可能會露出驚訝的表
情。”
“黃博士來擺棋,可能更讓我有和AI對戰的感覺。我也特別佩服黃博士,大家看直播
也能看到我很愛動,總喜歡活動身體,而黃博士總是一動不動,不上廁所、不喝水、也不
吃東西……所以跟黃博士下棋時,我覺得黃博士就是AlphaGo。”
當時哈薩比斯也說:“黃博士非常不可思議,有時候我們也覺得他是個機器人。我想
他之前一定對著鏡子練過”。
http://n.sinaimg.cn/kandian/crawl/20170601/VfsL-fyfuzny1696041.jpg
“最後一局即將開始,我要親手下出AlphaGo的每一步棋”,人機大戰最後一天的上午9
:35,黃士傑在朋友圈發了這樣一句話。
量子位當時就有一種異樣的感覺。一是黃士傑從來沒有在賽前發聲,二是這話裡明顯
有著隱忍而又強烈的情緒。
最後一戰,柯潔一樣情緒強烈。
那天下午1點06,對局中的柯潔摘下眼鏡,神情沮喪。兩分鐘後,柯潔起身離席。代
替AlphaGo落下第127子的黃士傑博士,趕緊拿起杯子喝了一口水。隨後黃士傑又恢復平靜
的表情,一直低頭看著棋盤。
時間過了很久,離席的柯潔還沒回來,黃士傑也開始抬頭張望。十多分鐘後,柯潔終
於回來。後來我們知道,柯潔躲在現場的宣傳板後,哭了。
下午1點22分,柯潔又抹了抹眼角。此時雙方行至第129手。
經過209手的交鋒,柯潔再負AlphaGo。
“其實今天下棋的時候我有點失態了,因為它(AlphaGo)下得實在是太完美了……
我只能猜得出它一半的棋,這就是我和它之間巨大的差距”,賽後柯潔在臺上哽咽講出最
後一戰的感受。
稍後不就,同在臺上的哈薩比斯表示,AlphaGo從此“退役”。這時量子位才多少理
解了黃士傑早上那條朋友圈的意義。
上述種種發生的時候,黃士傑就坐在台下第一排,正中間的位置,抬著頭靜靜地聽著
。看不到他有什麼表情,也看不到有什麼動作。也仍然沒有上臺發言的機會。有媒體靠近
,黃士傑仍是那句:他們不讓我接受採訪。
5月28日淩晨0:34,黃士傑在朋友圈發出這樣一句話:“天下沒有不散的筵席,我轉
往其他專案的時刻已到”。
一切就這樣收官了。
這是載入人類歷史的又一戰。
http://n.sinaimg.cn/kandian/crawl/20170601/iGsS-fyfuzmy0370375.jpg
最後
“這幾年,特別是來到英國工作之後,有時候我覺得人生就像做夢一樣。在團隊與同
事們的身上,我也看見了人因夢想而偉大的真實意義”,年初有同事問黃士傑以前研究電
腦圍棋時有沒有想到今天,他寫下這樣一段話。
從開始到現在,黃士傑看著AlphaGo的出生、成長、名滿天下。黃士傑一直以AlphaGo
人肉臂的樣子出現,像一個機器人一樣。
http://n.sinaimg.cn/kandian/crawl/20170601/4U82-fyfuzmy0370380.jpg
但黃士傑,遠遠不止是AlphaGo的人肉臂。
他也絕不是一個冷漠無趣的機器人。
不信你聽聽下面這首黃士傑彈的樂曲,這是黃士傑初二時從音樂班轉學後創作的。在
音樂課的前一晚,黃士傑準備了這首曲子。
http://sports.sina.com.cn/go/2017-06-01/doc-ifyfuzym7534553.shtml
難得中國這麼詳盡的報導黃博士,還寫得文采並茂挺不錯的
--
Tags:
圍棋
All Comments
By Ula
at 2017-06-05T10:10
at 2017-06-05T10:10
By Anonymous
at 2017-06-06T22:42
at 2017-06-06T22:42
By Irma
at 2017-06-09T00:27
at 2017-06-09T00:27
By Quintina
at 2017-06-09T16:35
at 2017-06-09T16:35
By Kyle
at 2017-06-10T08:18
at 2017-06-10T08:18
By Sandy
at 2017-06-12T08:47
at 2017-06-12T08:47
By Agnes
at 2017-06-14T19:03
at 2017-06-14T19:03
By Necoo
at 2017-06-16T00:34
at 2017-06-16T00:34
By Ida
at 2017-06-20T02:55
at 2017-06-20T02:55
By Jacob
at 2017-06-22T06:38
at 2017-06-22T06:38
By Candice
at 2017-06-25T01:02
at 2017-06-25T01:02
By Hardy
at 2017-06-29T09:45
at 2017-06-29T09:45
By Sarah
at 2017-06-29T17:56
at 2017-06-29T17:56
By Kristin
at 2017-06-30T20:52
at 2017-06-30T20:52
By Suhail Hany
at 2017-07-05T00:14
at 2017-07-05T00:14
By Wallis
at 2017-07-08T03:39
at 2017-07-08T03:39
By Sarah
at 2017-07-11T20:16
at 2017-07-11T20:16
By Emily
at 2017-07-12T23:05
at 2017-07-12T23:05
By Selena
at 2017-07-14T10:17
at 2017-07-14T10:17
By Thomas
at 2017-07-18T02:39
at 2017-07-18T02:39
By Odelette
at 2017-07-19T00:31
at 2017-07-19T00:31
By John
at 2017-07-20T18:31
at 2017-07-20T18:31
By Mia
at 2017-07-23T09:27
at 2017-07-23T09:27
By Valerie
at 2017-07-27T13:09
at 2017-07-27T13:09
By Quintina
at 2017-07-27T17:33
at 2017-07-27T17:33
By Joseph
at 2017-07-30T11:25
at 2017-07-30T11:25
By Andrew
at 2017-08-03T07:40
at 2017-08-03T07:40
By Candice
at 2017-08-06T12:26
at 2017-08-06T12:26
By Puput
at 2017-08-08T18:47
at 2017-08-08T18:47
By Ivy
at 2017-08-09T19:38
at 2017-08-09T19:38
By Joseph
at 2017-08-10T18:25
at 2017-08-10T18:25
By Rae
at 2017-08-14T11:02
at 2017-08-14T11:02
By Gary
at 2017-08-17T08:56
at 2017-08-17T08:56
By Iris
at 2017-08-21T20:13
at 2017-08-21T20:13
By Kristin
at 2017-08-23T06:34
at 2017-08-23T06:34
By Rae
at 2017-08-23T20:40
at 2017-08-23T20:40
By Blanche
at 2017-08-25T14:22
at 2017-08-25T14:22
By Olive
at 2017-08-26T13:28
at 2017-08-26T13:28
By Heather
at 2017-08-30T11:24
at 2017-08-30T11:24
By Harry
at 2017-09-02T06:56
at 2017-09-02T06:56
By Isla
at 2017-09-03T08:20
at 2017-09-03T08:20
By Rebecca
at 2017-09-05T21:21
at 2017-09-05T21:21
By Lauren
at 2017-09-08T13:24
at 2017-09-08T13:24
By Doris
at 2017-09-10T06:59
at 2017-09-10T06:59
By Iris
at 2017-09-12T20:59
at 2017-09-12T20:59
By Jessica
at 2017-09-15T11:59
at 2017-09-15T11:59
By Eden
at 2017-09-16T17:58
at 2017-09-16T17:58
By Puput
at 2017-09-16T23:12
at 2017-09-16T23:12
By Hazel
at 2017-09-21T10:33
at 2017-09-21T10:33
By Iris
at 2017-09-24T17:51
at 2017-09-24T17:51
By Lucy
at 2017-09-28T10:01
at 2017-09-28T10:01
By Connor
at 2017-10-01T21:33
at 2017-10-01T21:33
By Tristan Cohan
at 2017-10-05T22:27
at 2017-10-05T22:27
By Agatha
at 2017-10-08T18:04
at 2017-10-08T18:04
By Poppy
at 2017-10-10T04:09
at 2017-10-10T04:09
By Eartha
at 2017-10-10T15:56
at 2017-10-10T15:56
By Catherine
at 2017-10-13T22:47
at 2017-10-13T22:47
By Poppy
at 2017-10-16T04:22
at 2017-10-16T04:22
By Una
at 2017-10-19T15:34
at 2017-10-19T15:34
By Olga
at 2017-10-21T04:53
at 2017-10-21T04:53
By Caitlin
at 2017-10-22T03:43
at 2017-10-22T03:43
By Lily
at 2017-10-26T18:33
at 2017-10-26T18:33
By Elma
at 2017-10-30T01:20
at 2017-10-30T01:20
By Selena
at 2017-10-31T19:58
at 2017-10-31T19:58
By Rae
at 2017-11-05T17:46
at 2017-11-05T17:46
By Dora
at 2017-11-07T01:40
at 2017-11-07T01:40
By Linda
at 2017-11-07T09:28
at 2017-11-07T09:28
By Kristin
at 2017-11-12T09:06
at 2017-11-12T09:06
By Christine
at 2017-11-16T11:38
at 2017-11-16T11:38
By Edward Lewis
at 2017-11-17T06:20
at 2017-11-17T06:20
By Linda
at 2017-11-21T17:55
at 2017-11-21T17:55
By Jake
at 2017-11-26T07:27
at 2017-11-26T07:27
By Victoria
at 2017-11-29T14:29
at 2017-11-29T14:29
By Bethany
at 2017-11-29T18:56
at 2017-11-29T18:56
By Rae
at 2017-12-02T07:54
at 2017-12-02T07:54
By Rebecca
at 2017-12-03T05:59
at 2017-12-03T05:59
By Adele
at 2017-12-06T09:57
at 2017-12-06T09:57
By Joseph
at 2017-12-10T22:43
at 2017-12-10T22:43
By Skylar DavisLinda
at 2017-12-14T22:54
at 2017-12-14T22:54
By Aaliyah
at 2017-12-15T08:21
at 2017-12-15T08:21
By Dinah
at 2017-12-18T01:49
at 2017-12-18T01:49
By Hedy
at 2017-12-19T18:50
at 2017-12-19T18:50
By Kristin
at 2017-12-22T11:14
at 2017-12-22T11:14
By Delia
at 2017-12-23T19:00
at 2017-12-23T19:00
By Rosalind
at 2017-12-26T14:05
at 2017-12-26T14:05
By Agnes
at 2017-12-29T07:57
at 2017-12-29T07:57
By Agatha
at 2018-01-02T09:39
at 2018-01-02T09:39
By Connor
at 2018-01-04T13:39
at 2018-01-04T13:39
By Hedy
at 2018-01-07T00:45
at 2018-01-07T00:45
By Sarah
at 2018-01-08T19:17
at 2018-01-08T19:17
By Ivy
at 2018-01-12T15:27
at 2018-01-12T15:27
By Puput
at 2018-01-12T18:58
at 2018-01-12T18:58
By Frederica
at 2018-01-17T14:42
at 2018-01-17T14:42
By Kelly
at 2018-01-18T16:19
at 2018-01-18T16:19
By Franklin
at 2018-01-20T18:13
at 2018-01-20T18:13
By Frederic
at 2018-01-24T14:58
at 2018-01-24T14:58
By Regina
at 2018-01-25T06:52
at 2018-01-25T06:52
By Isla
at 2018-01-29T10:38
at 2018-01-29T10:38
By Wallis
at 2018-02-03T01:35
at 2018-02-03T01:35
By Callum
at 2018-02-07T02:15
at 2018-02-07T02:15
By Mia
at 2018-02-07T05:04
at 2018-02-07T05:04
By Doris
at 2018-02-10T06:09
at 2018-02-10T06:09
By Frederica
at 2018-02-13T08:55
at 2018-02-13T08:55
By Faithe
at 2018-02-16T21:33
at 2018-02-16T21:33
By David
at 2018-02-18T10:46
at 2018-02-18T10:46
By Damian
at 2018-02-18T15:34
at 2018-02-18T15:34
By Sarah
at 2018-02-19T22:58
at 2018-02-19T22:58
By Elvira
at 2018-02-21T17:22
at 2018-02-21T17:22
By Irma
at 2018-02-22T09:34
at 2018-02-22T09:34
By Gary
at 2018-02-26T10:00
at 2018-02-26T10:00
By Andrew
at 2018-03-02T08:41
at 2018-03-02T08:41
By Irma
at 2018-03-04T10:27
at 2018-03-04T10:27
By Caroline
at 2018-03-07T17:01
at 2018-03-07T17:01
By William
at 2018-03-09T10:01
at 2018-03-09T10:01
By Mason
at 2018-03-09T13:02
at 2018-03-09T13:02
By Heather
at 2018-03-11T12:38
at 2018-03-11T12:38
By Hazel
at 2018-03-16T11:26
at 2018-03-16T11:26
By Olivia
at 2018-03-19T17:02
at 2018-03-19T17:02
Related Posts
前版主開投票啦 大家來投一波
By Todd Johnson
at 2017-06-01T15:11
at 2017-06-01T15:11
猜AlphaGo的一手(已發完)
By William
at 2017-05-31T21:34
at 2017-05-31T21:34
聽AlphaGo創辦人上課 李嘉誠多次激動起身
By Skylar Davis
at 2017-05-31T21:32
at 2017-05-31T21:32
罡哥帶大家來讀圍棋聖經5
By Anonymous
at 2017-05-31T18:56
at 2017-05-31T18:56
LG杯8強對陣:柯潔再戰申真諝
By Harry
at 2017-05-31T15:31
at 2017-05-31T15:31