close
AlphaGo之父詳解“圍棋上帝”是怎樣煉成的
DeepMind創始人傑米斯·哈薩比斯(Demis Hassabis)和AlphaGo團隊負責人Dave Silver便對外講述瞭AlphaGo研發背後的故事。
AlphaGo
鳳凰科技訊(作者/白楊)5月24日消息,烏鎮圍棋峰會進入第二天論壇環節。昨天,AlphaGo取得瞭與柯潔對陣的首場勝利,再一次展示瞭人工智能在圍棋領域的非凡實力。今天,DeepMind創始人傑米斯 哈薩比斯(Demis Hassabis)和AlphaGo團隊負責人Dave Silver便對外講述瞭AlphaGo研發背後的故事。
DeepMind於2010年在倫敦成立,2014年被谷歌以4億美元收購,目前有200多名員工。哈薩比斯說,DeepMind相當於人工智能的阿波羅計劃,希望打造新的研發科學的方式。
所以,DeepMind所有的研究內容都圍繞智能。大致分為兩個步驟:一是要攻克智能,真正的掌握智能;二是用智能去解決問題。
如何實現這樣的目標?DeepMind在努力打造一臺通用型的學習系統。在DeepMind的所有算法中,都有一個學習的機制,而不是預設的系統。
通用型的學習系統最大的特點是可以舉一反三,一個算法可以做一系列的事情。這很接近人類的大腦,從一個任務中學習到的經驗,可以應用到其他事情中去。
目前,絕大多數機器都無法做到這點,DeepMind希望能夠打造出這樣的能力。
Deepmind創始人傑米斯 哈薩比斯
哈薩比斯舉瞭一個例子,上世紀90年代,IBM 發明的深藍系統(Deep Blue)曾打敗瞭國際象棋冠軍加裡 卡斯帕羅夫(Gary Kasporov)。但這並不是一個通用型學習系統的例子,深藍是一種弱人工智能,它通過機器暴力搜索,來搜索研發人員預設的數據。
所以,深藍不能說是一個聰明的機器,隻能說背後的編程者很聰明。
那DeepMind在做的強人工智能是什麼樣子?簡單概括來說,機器需要掌握觀察和行動兩個技能。假設有一個智能體,當它獲得一個目標信息,它首先需要去觀察自己所處的環境,這個環境可以是真實環境或者是虛擬環境,然後通過視覺、聽覺,甚至是感覺去熟悉環境。
然後就設定一個想法,針對環境去決定當下應該采取什麼樣的行動來實現目標。看似簡單的兩個步驟,背後卻涉及瞭極其復雜的算法和原理。
為什麼AlphaGo要下圍棋?
回到AlphaGo,哈薩比斯和他的團隊為什麼選擇圍棋,而不是象棋或者其他棋類?哈薩比斯表示,圍棋對計算機來說是最困難的,其復雜程度讓窮舉搜索都難以解決。
對機器來說,圍棋的困難主要在兩方面:一是,機器無法寫出評估程序來決定誰贏瞭;二是,圍棋是一種直覺性的比賽。
輸贏的判斷對比賽來說非常重要,但是圍棋不像象棋,吃掉對方的 帥 或者 將 即可獲勝,這也導致圍棋的搜索空間非常龐大。
圍棋更像是一個築防遊戲,每走一步都需要盤算整個棋局,而象棋是所有棋子都擺在盤上。另外,圍棋選手都是依靠直覺在下棋,且圍棋中沒有等級概念,所有的棋子都一樣,小小的一子,就可以影響全局。
正因如此,AlphaGo在圍食品設備棋上取得的成績,確實得來不易。哈薩比斯也說,去年戰勝李世石,讓他們整個團隊都很激動。為這一刻,等瞭十年。
AlphaGo是如何工作的?
Dave Silver稱,按照傳統的算法,每下一步棋計算出幾十種可能,然後每種可能又產生幾十種可能。這種窮舉式的搜索方法應用在每一步都有上百種可能的圍棋上,會變得非常笨拙。
AlphaGo團隊負責人Dave Si烘焙設備lver
所以AlphaGo團隊在研究時,一直想辦法減少窮舉式搜索的寬度和深度。
他們結合瞭監督學習和強化學習的優勢。一方面形成一個策略網絡(policy network),用於學習棋盤;另一方面,形成一個價值網絡,以-1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。
這兩個網絡結合在一起,就形成瞭AlphaGo的樹搜索。在獲取棋局信息後,AlphaGo 會根據策略網絡探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。
與柯潔對戰的AlphaGo自學成才
但這次與柯潔對戰的AlphaGo相較於去年的版本,進行瞭很大的改變。今年的AlphaGo更強化瞭學習,它通過自己與自己下棋,產生大量的棋局,然後學習、改進。
這樣一來,AlphaGo就不需要依靠人類的數據,而是自學成才。然後不斷給下一代版本提供更好的數據,這是一個良性循環。
去年,與李世石對戰的AlphaGo在谷歌雲商有50TPUs在運作,每一步可以搜索50個棋步,並且可每秒搜索10000個位置。
昨天與柯潔對戰的AlphaGo,則是在單個TPU機器上進行比賽,它擁有瞭更強大的策略和價值網絡。
哈薩比斯說,AlphaGo最酷是它不僅把圍棋當做比賽,更是當做一種藝術,而且是非常可觀的藝術。
在與李世石對陣的第二局比賽中,它走出瞭令人驚嘆的第37步棋,這讓研發人員都感到驚訝。按照圍棋幾千年來的經驗,人類是絕不會下出這一步。
李世石當時在賽後也表示,AlphaGo給圍棋帶來瞭全新的體驗和認知,讓他有瞭繼續下棋的比賽。
柯潔在昨天比賽技術後也有著同樣的感受,AlphaGo讓圍棋有瞭更多食品機械台中的可能,似乎沒有哪一步是不能下的。
AlphaGo已經展現出瞭它在圍棋方面的創造力,並給圍棋選手打開瞭新的世界的大門,圍棋的邊界遠遠超乎他們之前的認知。
哈薩比斯說,他們會繼續打造AlphaGo,不斷彌補它知識方面的空白,讓它變得更完美。
對於未來,以AlphaGo為代表的人工智能也會成為人類的工具,就像望遠鏡一樣,幫助人類探索更多未知的領域。比如在材料設計、新藥研制等方面,人工智能一旦有所突破,給人類帶來的影響也同樣超乎想象。
最後,哈薩比斯還強調一點,當人工智能真正來到人們身邊時,正確恰當的使用人工智能也非常重要。
DeepMind創始人傑米斯·哈薩比斯(Demis Hassabis)和AlphaGo團隊負責人Dave Silver便對外講述瞭AlphaGo研發背後的故事。
AlphaGo
鳳凰科技訊(作者/白楊)5月24日消息,烏鎮圍棋峰會進入第二天論壇環節。昨天,AlphaGo取得瞭與柯潔對陣的首場勝利,再一次展示瞭人工智能在圍棋領域的非凡實力。今天,DeepMind創始人傑米斯 哈薩比斯(Demis Hassabis)和AlphaGo團隊負責人Dave Silver便對外講述瞭AlphaGo研發背後的故事。
DeepMind於2010年在倫敦成立,2014年被谷歌以4億美元收購,目前有200多名員工。哈薩比斯說,DeepMind相當於人工智能的阿波羅計劃,希望打造新的研發科學的方式。
所以,DeepMind所有的研究內容都圍繞智能。大致分為兩個步驟:一是要攻克智能,真正的掌握智能;二是用智能去解決問題。
如何實現這樣的目標?DeepMind在努力打造一臺通用型的學習系統。在DeepMind的所有算法中,都有一個學習的機制,而不是預設的系統。
通用型的學習系統最大的特點是可以舉一反三,一個算法可以做一系列的事情。這很接近人類的大腦,從一個任務中學習到的經驗,可以應用到其他事情中去。
目前,絕大多數機器都無法做到這點,DeepMind希望能夠打造出這樣的能力。
Deepmind創始人傑米斯 哈薩比斯
哈薩比斯舉瞭一個例子,上世紀90年代,IBM 發明的深藍系統(Deep Blue)曾打敗瞭國際象棋冠軍加裡 卡斯帕羅夫(Gary Kasporov)。但這並不是一個通用型學習系統的例子,深藍是一種弱人工智能,它通過機器暴力搜索,來搜索研發人員預設的數據。
所以,深藍不能說是一個聰明的機器,隻能說背後的編程者很聰明。
那DeepMind在做的強人工智能是什麼樣子?簡單概括來說,機器需要掌握觀察和行動兩個技能。假設有一個智能體,當它獲得一個目標信息,它首先需要去觀察自己所處的環境,這個環境可以是真實環境或者是虛擬環境,然後通過視覺、聽覺,甚至是感覺去熟悉環境。
然後就設定一個想法,針對環境去決定當下應該采取什麼樣的行動來實現目標。看似簡單的兩個步驟,背後卻涉及瞭極其復雜的算法和原理。
為什麼AlphaGo要下圍棋?
回到AlphaGo,哈薩比斯和他的團隊為什麼選擇圍棋,而不是象棋或者其他棋類?哈薩比斯表示,圍棋對計算機來說是最困難的,其復雜程度讓窮舉搜索都難以解決。
對機器來說,圍棋的困難主要在兩方面:一是,機器無法寫出評估程序來決定誰贏瞭;二是,圍棋是一種直覺性的比賽。
輸贏的判斷對比賽來說非常重要,但是圍棋不像象棋,吃掉對方的 帥 或者 將 即可獲勝,這也導致圍棋的搜索空間非常龐大。
圍棋更像是一個築防遊戲,每走一步都需要盤算整個棋局,而象棋是所有棋子都擺在盤上。另外,圍棋選手都是依靠直覺在下棋,且圍棋中沒有等級概念,所有的棋子都一樣,小小的一子,就可以影響全局。
正因如此,AlphaGo在圍食品設備棋上取得的成績,確實得來不易。哈薩比斯也說,去年戰勝李世石,讓他們整個團隊都很激動。為這一刻,等瞭十年。
AlphaGo是如何工作的?
Dave Silver稱,按照傳統的算法,每下一步棋計算出幾十種可能,然後每種可能又產生幾十種可能。這種窮舉式的搜索方法應用在每一步都有上百種可能的圍棋上,會變得非常笨拙。
AlphaGo團隊負責人Dave Si烘焙設備lver
所以AlphaGo團隊在研究時,一直想辦法減少窮舉式搜索的寬度和深度。
他們結合瞭監督學習和強化學習的優勢。一方面形成一個策略網絡(policy network),用於學習棋盤;另一方面,形成一個價值網絡,以-1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。
這兩個網絡結合在一起,就形成瞭AlphaGo的樹搜索。在獲取棋局信息後,AlphaGo 會根據策略網絡探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。
與柯潔對戰的AlphaGo自學成才
但這次與柯潔對戰的AlphaGo相較於去年的版本,進行瞭很大的改變。今年的AlphaGo更強化瞭學習,它通過自己與自己下棋,產生大量的棋局,然後學習、改進。
這樣一來,AlphaGo就不需要依靠人類的數據,而是自學成才。然後不斷給下一代版本提供更好的數據,這是一個良性循環。
去年,與李世石對戰的AlphaGo在谷歌雲商有50TPUs在運作,每一步可以搜索50個棋步,並且可每秒搜索10000個位置。
昨天與柯潔對戰的AlphaGo,則是在單個TPU機器上進行比賽,它擁有瞭更強大的策略和價值網絡。
哈薩比斯說,AlphaGo最酷是它不僅把圍棋當做比賽,更是當做一種藝術,而且是非常可觀的藝術。
在與李世石對陣的第二局比賽中,它走出瞭令人驚嘆的第37步棋,這讓研發人員都感到驚訝。按照圍棋幾千年來的經驗,人類是絕不會下出這一步。
李世石當時在賽後也表示,AlphaGo給圍棋帶來瞭全新的體驗和認知,讓他有瞭繼續下棋的比賽。
柯潔在昨天比賽技術後也有著同樣的感受,AlphaGo讓圍棋有瞭更多食品機械台中的可能,似乎沒有哪一步是不能下的。
AlphaGo已經展現出瞭它在圍棋方面的創造力,並給圍棋選手打開瞭新的世界的大門,圍棋的邊界遠遠超乎他們之前的認知。
哈薩比斯說,他們會繼續打造AlphaGo,不斷彌補它知識方面的空白,讓它變得更完美。
對於未來,以AlphaGo為代表的人工智能也會成為人類的工具,就像望遠鏡一樣,幫助人類探索更多未知的領域。比如在材料設計、新藥研制等方面,人工智能一旦有所突破,給人類帶來的影響也同樣超乎想象。
最後,哈薩比斯還強調一點,當人工智能真正來到人們身邊時,正確恰當的使用人工智能也非常重要。
台灣電動床工廠
電動床
台灣電動床工廠
電動床
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
X戰警多鏡頭行車記錄器專業網|多鏡頭行車記錄器|多鏡頭行車紀錄器比較|多鏡頭行車紀錄器推薦|多鏡頭行車紀錄器影片
台中抽水肥專業網|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
台灣靜電機批發工廠|靜電機|靜電機推薦|靜電油煙處理機|靜電油煙處理機推薦
優美環保科技工程-靜電機,靜電機推薦,靜電機保養,靜電機清洗,靜電油煙處理機
文章標籤
全站熱搜
留言列表