大樣本計算支撐AlphaGo取勝
據(jù)AlphaGo的研發(fā)者介紹,它之所以能在圍棋這種擁有“3的361次方”種局面的超高難度棋類比賽中獲勝,在于它突破了傳統(tǒng)的程序,搭建了兩套模仿人類思維方式的深度神經(jīng)網(wǎng)絡(luò),第一種叫“策略網(wǎng)絡(luò)”,它讓計算機(jī)程序?qū)W習(xí)人類棋手的下法,挑選出比較有勝率的棋譜,拋棄明顯的差棋,使總運(yùn)算量維持在可以控制的范圍內(nèi);另一種叫價值網(wǎng)絡(luò),主要用于減少搜索的深度,它不會一下子搜索一盤棋所有的步數(shù),而是一邊下一邊進(jìn)行未來十幾步的計算,這樣也就大量減少計算量。
其實,神經(jīng)網(wǎng)絡(luò)并非AlphaGo獨(dú)有。據(jù)IBM中國研究院大數(shù)據(jù)及認(rèn)知計算研究總監(jiān)蘇中介紹,這種計算模型最早出現(xiàn)于1943年,但由于當(dāng)時的計算機(jī)運(yùn)行速度難以滿足其巨大的計算量而遭受“詬病”,因此沉寂了很長時間。近年來,計算機(jī)技術(shù)迅速發(fā)展,運(yùn)行速度大幅提高,這一計算模型才重新煥發(fā)出了生機(jī)。即便如此,與李世石對弈,AlphaGo仍需將CPU增加至1200多個才能滿足其龐大的計算量。
據(jù)研發(fā)出AlphaGo的研究人員之一——大衛(wèi)·希爾韋介紹,這款程序還會自己與自己下棋,普通人一年也許能下一千盤,但AlphaGo每天能下三百萬盤棋,通過大量的鍛煉,它拋棄可能失敗的方案,精中選精,這就是所謂的“深度學(xué)習(xí)”能力,即通過大樣本量棋局對弈,不斷從中挑選最優(yōu)的對弈方案并保存下來。
與人腦學(xué)習(xí)差距仍很大
“大數(shù)據(jù)對人工智能的發(fā)展是一種‘取巧’,為深度學(xué)習(xí)提供了眾多數(shù)據(jù)。”在2015中國人工智能大會上,中國科學(xué)院院士譚鐵牛曾就深度學(xué)習(xí)做過解讀。他說,這就像人類見多識廣后會積累一些經(jīng)驗一樣,機(jī)器學(xué)習(xí)也需要豐富多彩的內(nèi)容。只是這個內(nèi)容的數(shù)據(jù)量之龐大,與人腦學(xué)習(xí)所需不是一個數(shù)量級。因此,人工智能的學(xué)習(xí)與人腦的學(xué)習(xí)有非常大的不同。“給一個孩子看看卡片上的蘋果,他就能認(rèn)識蘋果,但機(jī)器要認(rèn)出一個蘋果,可能需要把互聯(lián)網(wǎng)上所有蘋果的照片都認(rèn)一遍,標(biāo)識出蘋果的所有特征,才有可能成功識別蘋果。”蘇中說。



