“善解人意”的手机相机:从人像模式和Google Lens谈起
编者按:人工智能正在改造生活的各个方面,从购物体验到社交应用,再到各种各样的工业应用等等。现在,它正在改变我们智能手机上的摄像头。近日,A16Z合伙人Benedict Evans在其博客上发表了一篇文章,讨论了这一趋势。他认为,我们显然正朝着普通消费者拍摄的照片在技术上都很完美的方向前进,但是要求计算机“告诉我们这张照片是什么”也带来了其他的问题。原题为“Cameras that understand: portrait mode and Google Lens”。
关于机器学习和计算机视觉技术带来的影响,我已经谈了很多,比如电子商务推荐到社交应用,再到各种很酷的工业应用等等。现在来看看机器学习对智能手机相机的影响,也挺有趣。
对于苹果和谷歌来说,智能手机上摄像头的大部分技术进步,都发生在软件上。
这方面的营销术语是“计算摄影”,这实际上意味着,除了努力制造更好的镜头和传感器(受物理规则和手机大小的限制)之外。
我们还在使用软件(现在大多是机器学习技术或“人工智能”),试图从来自硬件的原始数据中获得更好的图片。
因此,苹果在双镜头手机上推出了“人像模式”(portrait mode) ,使用软件将这些数据组合成一张重新聚焦的图像,现在,它在单镜头手机上也推出了这一功能(谷歌复制这一功能时也是如此)。
同样,谷歌的新款Pixel手机具有“夜景”功能,这完全是一个软件功能,而不是使用了完全不同的硬件。你看到的图片的质量,因为新的软件和新的硬件推出而变得更好。
大多数这样的变化,用户都看不到。HDR从一个花哨的新事物变成了智能手机相机中的一个设置。现在,这个设置变成了自动化的,它出现的时候,你可能不知道,也不需要知道。
我预计,单独的“人像模式”或者“夜景”功能的选项也将会消失,就像HDR一样。
随着相机能够更好地计算出你实际拍摄的照片,这种自动化情况可能还会更进一步。
当你在滑雪坡道上拍照时,相机会完全曝光,色彩平衡,因为相机知道这是雪,并且能够准确调整相应设置。
如今,人像模式正在进行人脸检测和深度映射,以确定应该关注什么;将来,它会知道照片哪张脸是你的孩子的,并将焦点聚焦在他们身上。
因此,我们显然正朝着普通消费者拍摄的照片在技术上都很完美的方向前进。
然而,这里还有第二个步骤——不仅仅是“这张照片是什么,我们应该如何聚焦?”但是“你为什么拍这张照片?”
智能手机相机的一个理想进化路径是,因为我们一直随身携带着手机,我们可以免费拍摄无限的照片,并且可以立即得到它们,我们不仅会拍摄更多关于孩子和狗的照片,还会拍摄以前从未拍摄过的照片。
我们会拍摄海报、书籍和我们可能想买的东西——我们拍摄食谱、目录、会议日程、火车时刻表和传单。智能手机上的图像传感器已经变成了一个记录的笔记本。
机器学习技术的应用,意味着计算机将能够解开很多这种照片中的东西。
如果这张照片上有一个日期,那会意味着什么?这看起来像食谱吗?这张照片里有一本书吗?我们可以把它和亚马逊上的书目对比一下吗?
所以你可以想象,你的智能手机上会有这样的一个建议:“你想把这张照片中的日期添加到你的日程中吗?”就像今天电子邮件程序从电子邮件中提取航班、会议或联系方式一样。
这是一个有趣的产品设计挑战。其中一些功能可能是被动的,比如在电子邮件中自动检测航班。
机器学习意味着我们现在有了面部识别和物体分类技术:默认情况下,你手机上的每张图片都有索引,你可以要求找出“我儿子在海滩上的所有照片”或者“所有关于狗的照片”。
但你可以做更多的分析,而且我们拍了很多照片,你可以在所有这些照片中分析一些东西。
你也许可以索引或翻译你拍摄的所有照片中的所有文本(假设没有资源限制),但是你应该对手机上每张照片中的每一个对象进行相应的搜索吗?
在某个时候,你可能需要某种“告诉我这个是什么”的功能,在这种情况下,你会明确要求计算机施展“魔法”。
不过,要求计算机“告诉我这张照片是什么”也带来了其他的问题。
我们没有HAL 9000,也没有任何通向HAL 9000的路径,我们不能随意识别任何物体,但是我们可以在很多物体类别中做出不同程度的猜测。
那么,用户应该如何知道什么会起作用,以及系统如何知道要做什么样的猜测呢?这一切应该发生在一个通用的应用程序中,还是发生在许多有特定用途的应用程序中?
你是否应该有一个“海报模式”,一个“求解这个方程式”模式,一个“日期模式”,一个“书籍模式”和一个“产品搜索模式”吗?
或者,你是不是应该有一种模式,在这种模式下,用手机的摄像头拍一些东西,然后“魔法”就会发生?
版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/37303.html