alphago (alphago是什么意思)
今天看到消息,说新版AlphaGo(AlphaGo Zero)完全不用人类的棋谱,可以从完全不懂围棋开始,不断自我对弈学习下棋,最终超越人类棋手和自己的上一代AlphaGo。研发团队解释说,AlphaGo Zero采用了新的强化学习模式,跟此前先用“策略网络”(又称走棋网络)模拟下一步棋走法,再用“价值网络”(又称估值网络)来预测赢家的方法不同,新模式是只采用一种的神经网络来研究下一步。
或许这样理解会比较好,此前的AlphaGo是要大量而快速得走子,靠量来不断累积;而新版的AlphaGo Zero,是靠更为先进的神经网络模式,提升每一步走子的策略计算,按“质”来提升自己。打个不太正确的比方,好比前代是千千万万只蚂蚁靠广撒网来四周觅食,而后者已经是有一定的思考能力,像老鼠一样,看到有类似厨房的平台,就断定专往这个地方去觅食的几率会更高,因此更有针对性,也就是思考的水平和能力更高。
所以,看到有人在看完AlphaGo团队刚发表的论文之后,惊呼上一代的AlphaGo是用Policy Gradient(策略梯度,一种策略搜索强化学习方法,作用是不估计后验概率而直接优化学习目标),来加强策略网络。而新版的AlphaGo Zero不提Policy Gradient,而是Policy Iteration(策略迭代),即策略网络和价值网络合一,而舍弃快速走子。这些与深度学习的理念已经很相符了。
深度学习思维能力提升的结果,就是无需再调用任何人类已有的数据和经验,自成一派。从技术的角度来看,未来随着人工智能的算法、机器运算能力和应用领域的进一步拓展,机器是的确可以实现自学成才这个目标的,而且这个速度可能会比我们想象中的都要快。通常大家会说人工智能可能需要20-30年才能大规模成熟,但现在看来,自学成才的人工智能,或许不到20年就能全面应用到方方面面,真正融入到工作和生活当中。
那么我们回到标题的提问,既然人工智能已经不需要人类需求了,那么未来会失控吗?
很自然,这个时候,大家都会联想起当初谈论人工智能和机器进化的神级大师,凯文凯利的“KK三部曲”(《失控》、《科技想要什么》和《必然》),其中光是《失控》想必已让大家觉得恐慌。大家更知道电影《黑客帝国》三部曲,其哲学思想就是从凯文凯利这里传承过来的,只是用电影故事这个形式做了包装,讲得更通俗。从未来发展的方向来看,如果人类不预设对机器的深度学习和人工智能思考运算做安全设定,那么人工智能的自我发展,必定是让人类恐慌的。这个恐慌包含两重完全相反的意思:
第一层意思是人类因为机器进化对其不利而恐慌。
因为机器的所有预算策略不包含感情,而感情是人类在千万年的进化中不断强化和丰富的,人类做任何事,都会从本能上考虑生存这个问题,但是机器第一不考虑自己的生存,第二也不考虑人类的生存,机器只是按照最初的设定,去考虑如何更接近最优化的选择。于是,你在设定机器的时候,告诉它什么叫利,什么叫害,然后告诉他规则就是趋利避害。但是,机器是不会因为最终结果包含对机器自己不利的因素,而故意忽略掉的。
简单来说,好比一些科幻作品里面所探讨的哲学那样,如果机器人发现降低犯罪率的最佳选择就是把人类都锁在家里,把犯罪率降到零的话,它不会因为此举遭遇人类对自己的反抗,让自己的部分机器人挂掉,而停止执行。
所以《黑客帝国》这类作品的推导,就是如果机器的人工智能进化到超越人类的地步,而人类的天性是无法找到跟机器和谐共存的方法,那么机器最终必然失控,人类必然恐慌。
第二层意思是人类会惊,但更多的是喜,惊喜惊喜,喜多于惊。即人类会因为机器进化,发现如果按照机器的推导,现有的发展方法是有害的,于是感到恐慌,停止在错误的道路上进发,选择更好的方法。那么这点对人类的终极幸福是好的。
这一层意思的前提是,人类能够与机器的进化和谐共存,机器的推导结果是“即使不把人类当敌人,也能得到达到最趋利避害的效果”。这一方面既需要人类从一开始就对人工智能的自我演进作出明确的规定(不能伤害人类利益)。另外也需要人类的上层生产关系和社会结构能够快速适应人工智能的发展水平。举个例子,就是像电影《AI》那样,如果真的有夫妇没法生子,又想拥有孩子,那么法律能规定他们能合法拥有AI机器人孩子作为他们的儿子。
如果人类因为机器的告知,基于对自己未来的恐慌,停止研究错误方法论,启用机器所提供的全新正确方法论,那么人类的未来或许充满难以想象的美好。举个例子(只是虚拟举例,不是真的),例如人工智能发现现在各家药厂去攻克一些绝症的办法是错的,有很大副作用,而应该启用一些人类自己压根都没有想过的办法来合成新药,那么对人类的终极幸福当然是非常好的。
谈了这么多哲学,我们又把话题拉回来AlphaGo Zero这里。毫无疑问,AlphaGo Zero已经在机器独立思考的道路上前进了一步,但是,这都是需要人类首先告诉他最基本的围棋规则,以及定下了“追求赢”这个规矩的。这是最基本的启蒙,也是最大是大非的原则。如果没有人类定下“追求赢”的规矩,它会不知道自己的运算为的是什么。在这点上,它无法不在伊始就依赖人类。
我们得非常清楚一点,一旦给了它规则,它就不会停下来,因为它没有情感,它不会自己趋利避害,它不会因为最终觉得“其实我存在还是不存在对我来说无关利弊”而停止运算。如果,有一天,机器最终进化到明白“我应该想尽办法生存下去”,以及开始开始理解情感……我没法想象这一天到来之后,人类与机器的命运会如何……
最后推荐一部美剧《疑犯追踪》,里面对“好机器”和“坏机器”的就有很多哲学探讨。操刀者是诺兰,拍《蝙蝠侠》、《盗梦空间》、《星际穿越》的那个克里斯托弗诺兰的弟弟乔纳森诺兰。
本文由火源体育发布,不代表火源体育立场,转载联系作者并注明出处:https://www.jchhysm.cn/nbasaishi/11453.html