北京环球度假区开园后,“话唠机器人”威震天成了第一网红,不少人去环球影城就为一睹威震天,跟他唠上几句。饱满的声音以及拿捏极好的人设,让威震天一度被认为是AI控制的。实际上,声音来自机甲里的真人。

当前AI的高速发展,让人们毫不怀疑一台机器也可以与游客聊得妙趣横生、充满个性。

跟机器聊天早就不是新鲜事。比如Siri、天猫精灵、小度等早已为人们所熟知,连火星车都能直接从火星发布短信息,有时候我们说不清某些BOT账号是人还是机器。

这让“人工智能之父”艾伦·图灵的假想测试走到了我们身边,也让我们开始怀疑:这个经典的人工智能测试,似乎没那么难以逾越,它还有那么大意义吗?

图灵测试,曾被认为是评估人工智能熟练程度的最好办法。1952年,图灵的《计算机与智能》开篇是一个问题:“机器能思考吗?”。而图灵认为机器“思考”与否只能体现为一个实验:人类面试官与藏在幕后的家伙笔谈,去猜这是人还是机器。如果面试官猜不出,那机器在思考能力上就和人没有区别。

但图灵测试的实质,不是机器有多强,而是机器和人的对话是否合乎人的习惯。而一台不怎么高级的机器,也能被大家认为聊天聊得挺成功。

比如苹果的Siri或亚马逊的Alexa,为了确保机器能聪明对话,苹果和亚马逊公司先是记录用户都怎么跟系统聊天,收集常见的提问和查询,再让创意团队一条条编写相应的回答。

让许多技术观察家惊讶的是,这种笨办法的效果非常好。虽然一句话对应一个预设脚本,机制特简单,不涉及什么复杂的社交思考能力。然而机器回复多用几句讽刺妙语,就让许多用户感到震惊,并因此大大肯定机器的智能水准了。Siri大受欢迎表明,俗人对AI的评价,与AI的实力并不对应。

简单机制不变,只要我们再多收集它一千万亿条对话,再多写一堆“有个性有情感有灵气”的回应,那机器不仅会被认作人,可能还会被认作一个情商颇高的人。

甚至不需要多少创意写手,图灵当年还没有互联网,所以他可能想不到,好多人类提出的问题,都被问烂了,AI可以在互联网上轻松找到最佳回复,显得比一般水准的人聪明得多呢。

这就涉及对人类所谓的智能和意识的反思了。我们要问问自己,我们真的比机器更加有意识,有灵魂,有创意吗?我们是否也只是偶然学了几句套话,就鹦鹉学舌了一辈子?这么一群浅薄的,不挑剔的,容易被糊弄的大脑,去做图灵测试的面试官,面试结果有多大价值?

其实,现在有些AI研发者,已经放弃了图灵测试。

亚马逊在2016年推出Alexa时,就如何评估AI激烈辩论。是争取让人相信社交机器人是人类,好通过图灵测试?还是让AI做到自然交谈,帮助人学习和娱乐就可以?

亚马逊要开发一个具备类人对话能力的深度学习神经网络。它确定了一个新测试,要求社交机器人与人类就娱乐、体育、政治和技术等广泛的热门话题进行20分钟的连贯和引人入胜的对话。人类评委按连贯性和自然度打分——如果任何社交机器人能连续聊20分钟,并且被评分4.0以上,就算达标了。

目前来看,亚马逊的聊天AI挺成功,他们的思路也很受重视。而亚马逊也认为,AI应该有效地完成任务,而不是假装人。

图灵的思路和亚马逊的思路,是对AI本质的理解的大相径庭。图灵继承的是欧洲传统的机器模拟人的奇幻思想,机器能与人对话,并且表现得像人,是一个让人极感兴奋愉悦的事儿,灵性价值是第一,实用价值不考虑。而亚马逊明确把AI看作工具:拖拉机会说话也是为了更好地耕田。

这两种思路无所谓对错,你赞同哪种思路,主要看你的兴奋点在哪里。很多人觉得Siri已经足够好玩,并不需要更有“深度”的机器陪他们谈星星月亮人生理想,那么亚马逊的创新正是他们应该资助的方向。(翼德)

推荐内容