Google日前正在测试一个乒乓球机器人计划,这个计划被称为i-Sim2Real。事实上,这个计划不仅只是要与人类对打乒乓球而已,而是最终要创建一个可以与快节奏和相对不可预测的人类行为一起协同工作的系统。
利用乒乓球测试这个协同工作的系统是最好的方式,因为乒乓球本身就具有相当严格的限制(相对于打篮球或板球而言)和复杂与简单的平衡的优势。
“Sim2Real”是描述人工智能创造过程的一种方式,其中机器学习模型被教导在虚拟环境或模拟中做什么,然后在现实世界中应用这些知识。当需要多年的试验和错误才能得出一个有效的模型时,这是很有必要的–在模拟中进行,可以在几分钟或几小时内完成多年的即时训练。
但是,在模拟中做一些事情并不总是可能的;例如,如果一个机器人需要与人互动呢?这不是那么容易模拟的,所以你需要真实世界的资料来开始。你最终会遇到一个鸡和蛋的问题:你没有人类的资料,因为你需要它来制造人类将与之互动的机器人,并首先产生这些资料。
Google的研究人员通过简单的开始和制造一个反馈回路来解决这个难题。
i-Sim2Real使用一个简单的人类行为模型作为近似的起点,在模拟训练和在现实世界中部署之间交替进行。在每次迭代中,人类行为模型和政策都会得到完善。
从人类行为的近似值开始是可以的,因为机器人也只是刚刚开始学习。每场比赛都会收集到更多真实的人类资料,从而提高精准性,让人工智能学习更多。
这种方法足够成功,该团队的乒乓球机器人已能够连续对打340次。
它还能够将球送回不同的区域,当然这并不是要求做到精准的物理精密程度,但是至少好到可以开始执行策略。
该团队还尝试了一种不同的方法,以实现更多的目标行为,比如从不同的位置将球返回到一个非常具体的地方。同样,这并不是要创造终极乒乓球机(尽管这很可能是一个结果),而是要找到有效训练人类互动的方法,而不是让人们重复成千上万次的相同动作。