人工智能(AI)研究在语言识别、图像分离、基因组学、药物发现等领域取得的迅猛发展,很大程度上依赖于人类的经验和数据。可是,人类的经验有时候不易获得或者并不可靠。所以绕过这一过程,在没有人类输入的情况下实现超人类的表现,是 AI 研究长远雄心的目标。
之前,Google DeepMind 开发的 AlphaGo 战胜了围棋人类世界冠军。AlphaGo 中的树状搜索使用深度神经网络对位置进行评估,选择移动。从人类专业选手的移动中监督学习,并在自我对弈中强化学习,这些神经网络得到训练。
10 月,DeepMind 研究人员发表在《Nature》上的研究论文报告称,新的 AI 程序 AlphaGo Zero 仅仅依靠强化学习,除了游戏规则之外没有人类数据、指导和领域知识,自己做自己的老师,在与 AlphaGo 的对弈中取得 100:0 的胜利。
AlphaGo Zero 在 72 小时里设法重新发现人类关于围棋的 3 000 年的知识。而后,3 天打败了战胜李世石的 AlphaGo,40 天打败了战胜世界冠军的 AlpahGo。
尽管有如此高效的表现,AlphaGo Zero 仍然没有把全部潜能发挥出来,研究者不知道其极限在哪里。DeepMind 决定关闭这个实验,去进行其他的工作。CEO 表示未来可能重启 AlphaGo Zero,来帮助人类选手提升技能。
阅读果壳网文章了解更多 - https://www.guokr.com/article/442444/
以上内容参考了下列链接:
1. https://deepmind.com/blog/alphago-zero-learning-scratch/
2. https://www.nature.com/articles/nature24270
3. https://techcrunch.com/2017/11/02/deepmind-has-yet-to-find-out-how-smart-its-alphago-zero-ai-could-be/
之前,Google DeepMind 开发的 AlphaGo 战胜了围棋人类世界冠军。AlphaGo 中的树状搜索使用深度神经网络对位置进行评估,选择移动。从人类专业选手的移动中监督学习,并在自我对弈中强化学习,这些神经网络得到训练。
10 月,DeepMind 研究人员发表在《Nature》上的研究论文报告称,新的 AI 程序 AlphaGo Zero 仅仅依靠强化学习,除了游戏规则之外没有人类数据、指导和领域知识,自己做自己的老师,在与 AlphaGo 的对弈中取得 100:0 的胜利。
AlphaGo Zero 在 72 小时里设法重新发现人类关于围棋的 3 000 年的知识。而后,3 天打败了战胜李世石的 AlphaGo,40 天打败了战胜世界冠军的 AlpahGo。
尽管有如此高效的表现,AlphaGo Zero 仍然没有把全部潜能发挥出来,研究者不知道其极限在哪里。DeepMind 决定关闭这个实验,去进行其他的工作。CEO 表示未来可能重启 AlphaGo Zero,来帮助人类选手提升技能。
阅读果壳网文章了解更多 - https://www.guokr.com/article/442444/
以上内容参考了下列链接:
1. https://deepmind.com/blog/alphago-zero-learning-scratch/
2. https://www.nature.com/articles/nature24270
3. https://techcrunch.com/2017/11/02/deepmind-has-yet-to-find-out-how-smart-its-alphago-zero-ai-could-be/
评论
发表评论