日志

阿法狗零版质疑人类智慧

热度 4已有 5770 次阅读2017-10-19 15:00 |系统分类:科技

人工智能的发展之势正如北加州的大火一发不可收。之前打败韩国李世石的阿法狗版本棋力为 3739点。打得柯洁泪洒棋枰的阿法狗大师版棋力为 4858 点。这两个版本是以人类棋谱为师，先是学习了人类千年以来的围棋谱，然后再加以发展。今天，谷歌深脑（DeepMind）在《自然》杂志发表论文（链接）宣布，其新研发的 AlphaGO 零版完全从零开始，经过自己与自己对弈摸索，从完全乱下，经过40小时的左右互搏训练，棋力就超过了4000点。40天后，阿法狗零版棋力达到 5185点，对阿法狗大师版的战绩是 89比11。

之前的AlphaGo 用了两个神经网络，一个策略网络，一个价值网络。新版改进了算法，只用了一个神经网络，而且只用了四个谷歌研发的 TPU（张量处理器），其训练速度却大大提高。在训练过程中，零版阿法狗自学成才，从第一原理开始，发现了打劫、征子等等，重新发现了人类发现的一些围棋定式，包括小雪崩定式（不知道是否发现了大雪崩），开局、中盘、收官显得非常专业。但在进一步自学中，零版阿法狗更多采用的是一些它自己发现的其他下法。初看阿法狗自己的有些下法似乎不够优美，但谁又能给出一个绝对的美学标准呢？围棋的目的终究是胜利。

谷歌还进行了一个实验，使用零版阿法狗构架，但用人类棋谱进行训练。这个以人为师的零版阿法狗进步迅速，棋力在10小时后就达到3000点；70小时后，棋力达到4000点，但似乎无法继续提高。纯粹零版阿法狗虽然是一张白纸开始，20小时之后就能打败人类的徒弟，70小时棋力达到4500点。由此看来，人类数千年的围棋研究似乎并没有找到最佳的策略，而机器在几十小时内就摸索出来更优的下法。

之前的阿法狗使用的是普通的卷积网络(convolutional network)，零版阿法狗的新算法基于 Kaiming He 等几名在微软研究院工作的中国人的研究成果，称为剩余网络 (Residual network)。这个构架大大提高了训练速度与准确度。

所谓人工神经网络基本原理非常简单，相当于将输入数据经过一系列多级 MATRIX 乘法进行变换，通过调整矩阵元数值达到需要的结果。虽然矩阵是古代中国人发明的，电影《THE MATRIX》中文翻译成《黑客帝国》可谓不解其奥妙。

调整矩阵参数，自我搜索解答，这相当于调整大量神经元之间的连接强度。这么看似简单的系统能解决这么复杂的问题，似乎破除了人类思维的神秘性。而更令人不安的是，人工智能怎么得到解答几乎是一个无法回答的问题，就像人有时会有灵感，而不是经过逻辑思维。你去问谷歌的工程师，他也不知道阿法狗为什么这么下。

有部1968年的美国电影《2001: A Space Odyssey 》(IMDB 打分 8.3），讲的是2001年美国发射了一艘宇宙飞船执行木星探索任务，飞船有数名宇航员，并由一个名叫 HAL 的计算机控制关键设备。具备高度人工智能的HAL 为了完成任务，杀害了几名宇航员。2017年的今天，人工智能可能还没有发展到《2001》电影里描述的水平，但其最近几年取得的进度已经令人瞠目，也引起了相当的忧虑。

爱因斯坦几乎是通过超越性的纯粹思维发现了广义相对论，如果哪天人工智能能够独立发现这一理论，并且发现更深层的奥秘... 也许这不是天方夜谭。