01:34
如果你曾在黑暗中摸索过自己的眼镜或手机,就会知道我们人类非常擅长通过触摸来弄清楚物体是什么。
即使我们的其他感官失败了,提供给我们大脑的触觉信息仍然是我们与周围环境交互的有力工具。这是一种非常重要的能力,也是机器人研究喜欢模仿的能力。如果实现了的话,机器人可以拥有更灵巧的机械手,假肢也会更加逼真和有用。
研究和复制人类的感官能力,例如视觉、听觉和触觉,依赖于能否得到合适的数据。通常,数据集越大、越丰富,模型就越能模拟这些功能。
MIT人工智能实验室(CSAIL)的Subramanian Sundaram等研究人员开发了这种低成本的触觉手套,通过获得详细压力图的大型数据集,使AI系统能够仅通过触摸来识别物体。他们的论文发表在最新一期Nature杂志上。
论文地址:
https://www.nature.com/articles/s41586-019-1234-z
Subramanian Sundaram是该研究的第一作者,其他研究人员还包括CSAIL博士后Petr Kellnhofer和朱俊彦、博士生李昀烛(Yunzhu Li),以及MIT教授Antonio Torralba和Wojciech Matusik。
64条导电线,548个传感器,原始成本10美元
这个神奇手套名为“可伸缩触觉手套”(scalable tactile glove,STAG),使用柔性材料,在几乎整只手上布置了550个微型传感器。
手套由一个手形的传感器套和一个普通的针织手套组成,如下图所示:
低成本的触觉手套,由一个普通针织手套(黄色)和一个手形的传感器套(黑色)组成。
传感器套筒分两层排布了64条导电线,横向和纵向分别32条,在两层导电线之间有一张力敏膜(对垂直力敏感的薄膜)。
这些线交叉的548个点,每一个都是压力传感器。当这些点被按压时,交叉点处薄膜的电阻会变小,电极阵列就能进行感知。
手套的输出可以处理成32×32的灰度像素阵列,其中每个像素的颜色表示压力变化,黑色表示压力低,白色表示压力高。
研究人员每秒七帧的速度将压力图记录下来。使用手套在操作物体时传感器收集到的压力图,可以让机器学习模型学习识别物体、估计物体的重量,以及区分不同的手部姿势。
Sundaram和同事戴着这只手套,在3~5分钟的单手操作26件日常物品(包括汽水罐、剪刀、网球、勺子、钢笔、水杯等)的过程中,记录了几段压力图的视频。
用于实验的物品。
实验总共使用了 26 个物品;这里显示了 24 个,此外还有两个可乐罐(一个空罐和一个满罐)。
这个过程产生了一个详细的压力图数据集,作者表示,这是最大的此类数据集之一。
尽管手套的制造成本仅为10美元左右,但十分灵活、结实,对微小的压力变化敏感。
为了证明手套能捕捉到手与每个物体的不同互动,研究人员使用记录的数据进行了自动对象识别。他们展示了一个最先进的深度学习模型如何从收集的压力图数据中学习重新识别26类物体,该模型最初是为大规模图像分类而设计的。
仅使用触觉数据,AI系统识别物体的准确率高达76%。实验还证明,大量的压力图及其空间分辨率是成功识别目标的关键。
接下来,作者使用手套来拾取物体,并证明了类似的深度学习模型可以估计未知物体的重量。结果显示,重量在60克以内的物体大部分都能准确估计出来。
重量估计的示例和性能。
他们还实验了不同的姿势,证明手套传感器读取的信号非常详细,足以区分不同的姿势。
使用分解的手姿态信号的六个传感器的对应图。
从物体相互作用中分解出的手位信号被用来共同提取传感器和全手之间的相关性。
手势信号
最后,Sundaram和他的同事通过观察信号相关性分析了不同手部区域在抓取物体时的协作。
触觉手套抓起一个咖啡杯产生的交互
触觉手套抓起一个刺角瓜的交互
两位中国学生参与,新智元专访
前面提到,该研究有两位中国学生参与,分别是MIT的博士后研究员朱俊彦和博士二年级的李昀烛。
朱俊彦
朱俊彦目前是CSAIL的一名博士后研究员,主要从事计算机视觉、计算机图形和机器学习的研究。朱俊彦毕业于加州大学伯克利分校,2012 年获得清华大学计算机科学系的工学学士学位,在 CMU 和 UC Berkeley 经过 5 年学习后,于 2017 年获得 UC Berkeley 电气工程与计算机科学系的博士学位。
朱俊彦也是一系列“网红GAN”的作者,包括CycleGAN、GauGAN等。
李昀烛
另一位作者李昀烛是CSAIL的二年级博士生,他的研究领域是计算机视觉、机器学习和机器人技术,尤其是基于深度学习的机器人动力学建模和多模态感知。
李昀烛本科毕业于北京大学,本科期间参加北京大学和斯坦福大学的多个实验室研究,并以第一作者身份发表多篇计算机视觉和机器学习顶级会议论文。
新智元采访到李昀烛,为我们讲述了“触觉手套”的研发过程、工作原理、挑战和未来的计划。
新智元:您和团队是如何萌生研发这个手套的想法的?
李昀烛:人在和周围环境进行交互的时候,除了用视觉,我们还会用听觉和触觉等多种感官来感知这个世界,而其中触觉在我们日常生活中和环境进行物理性交互的过程中尤为重要。
比如伸手到裤兜里拿钥匙,需要在看不见的情况下对钥匙进行定位和抓取;或者在揉面团的时候,要判断面团的软硬,这些任务仅靠视觉是很困难的,还需要有来自触觉的反馈。所以我们希望引入像人手一样的压力传感器,去研究人到底是如何利用触觉和世界进行交互的。
现在已经有不少令人印象深刻的触觉传感器,比如麻省理工学院Edward H. Adelson组的GelSight和Alberto Rodriguez组的GelSlim,他们都基于摄像机,有很高的分辨率,但问题在于能感知的区域有限,而且不能进行大幅度的形变;还有的触觉传感器可能面积比较大,但是感知器的密度非常稀疏,并且可能很难进行更大的扩展,所以我们希望能做一个非常密集的且有很强可扩展性的手套感知器。
我们开发的这一套传感器使用的是柔性材料,非常适合去贴合像手这样自由度比较大的物体。我们带上这个手套去跟各种各样的物体进行互动,就能得到清晰度很高的触觉数据集,来分析人在抓取物体过程中的一些行为模式。
我们希望在未来能帮助机器手做到像人的手指一样灵活。比如人在抓一个东西的时候,我们就得到了人的手指压力分布数据,那么这有助于机器人更灵活地把物体抓起来,或者完成某个相似的任务。
新智元:这个手套的工作原理是怎样的?应用了哪些技术或算法?
李昀烛:手套的基本原理比较容易理解。当你在对手套施加压力的时候,它的导电性就会有一定变化,这就变成了数据。其中我们分两层在横向和纵向分别排布了32条导电线,在两层导电线之间加入了一张对垂直力敏感的薄膜,当压力变化时,薄膜的电阻也会随之变化,电极阵列就能进行感知。
新智元:你们花了多长时间研发这个手套?手套使用了550个微型传感器,是怎样得出这个数字的?如果采用更多传感器,准确度上是不是会更好?
手套的研发花了大半年时间,后续的数据采集和实验分析也花了接近半年的时间。在目前实验室的环境里,如果做的更密集,导电线在人手大幅度运动的过程中就可能接触发生短路。再者,因为手掌形状的不规则,在手掌的区域内只能容纳大约550个压力传感器。在未来我们可能会使用更精细的排线设计,来实现更高的传感器密度。
新智元:手套研发的过程中遇到了哪些挑战?您和团队是如何解决的?
李昀烛:设计和制作整个带触觉的“皮肤”是很有挑战性的,我们既需要很强的可扩展性和长时间稳定工作的能力,还不能去影响人本身的动作,之前的研究很难兼得这些要求。我们通过提出一种新的传感器的设计和制造方法来解决这些问题。具体原理的简单介绍可以参考前面第二个问题。
新智元:现在的手套可以识别物体和重量,未来有没有可能做到识别物体材质、温度、甚至更科幻一点——产地呢?
李昀烛:我们未来可能考虑在已有压力传感器的基础上,加上识别温度和震动的传感器。温度和震动的感知对识别物体的材质非常重要。识别产地难度很大,这对人来说也是一个很困难的任务。
新智元:这个手套成本极低,如何做到的呢?低成本让商业化成为可能,您觉得这个手套可以用在哪些地方?距离商业化还有多远?
李昀烛:这项研究的一大突破就在于我们提出的设计和制造方法不需要特别的制作工具,使用的也都是市场上能买到的材料,最后的产品很灵敏,成本很低,并且有很强的可扩展性。手套和传感器的物料成本大概是10美元。除了手套以外,我们目前连接传感器的线路板大约为100美元。
这项研究有很多可能的应用,比如我们可以记录人在完成某个复杂任务时的触觉反馈,然后通过模仿学习去帮助机器人完成类似的任务;或者我们可以将传感装置的面积做得更大,包裹住整个机械臂,这可以帮助机器人更好地和人类进行交互;我们也可以把传感器织成衣服和鞋子,来分析人在走路、跑步或登山时的受力分布,有助于设计出更好的产品;在交互游戏的设计上也会有很多想象的空间。
目前的传感器距离商业化还有不小的距离,实验室的原型和真正让用户喜欢的产品之间还是有很多工作需要完成的。
新智元:下一步还想在哪些方面有所突破?比如说要扩展哪些功能?
李昀烛:我们目前在考虑做成其他的形状来帮助除了“手”以外的物体获得触觉感知,我们还在不断加入更多模态的传感器,也在计划采集更大规模的用户数据,分析更复杂场景下的人类行为,未来我们也会探索这种传感器在机器人任务里的应用。