谷歌AI对超市产品识别的研究

Google Research的一名软件工程师Chao Chen于2020年8月11日发表在Google AI博客上。该文章的标题为：设备上超市产品识别。尽管最近几天我一直在撰写有关自然语言处理的文章，但我认为我会在这段努力中稍作休息，以了解这项研究。

Chen强调视障用户所面临的挑战。

在杂货店和厨房中很难识别包装食品。

许多食物使用相同的包装-装在盒子，罐子，广口瓶等中。

在许多情况下，唯一的区别是产品上印刷的文字和图像。

随着智能手机的普及，陈认为我们可以做得更好。

他建议使用机器学习(ML)来应对这一挑战。随着速度的提高和智能手机中计算能力的提高，许多视觉任务可以完全在移动设备上完成。

但是，在时代，不亲自触摸产品以检查包装信息也可能是有利的。

在谷歌AI博客上发布了在瑞士一家超市中进行设备上商品识别的早期实验。

他提到了设备上模型的开发，例如 MnasNet 和 MobileNets (基于资源感知的体系结构搜索)。

“ MnasNet：面向移动平台的神经结构搜索”，探索了一种自动神经结构搜索方法，用于使用强化学习设计移动模型。

“ MobileNetV3 和Pixel 4 Edge TPU优化的对应 MobileNetEdgeTPU 模型是硬件感知型 AutoML 技术的进步，以及体系结构设计的多项进步。”

利用这些开发成果(最近发布的 Lookout)，这是一个Android应用程序，该应用程序使用计算机视觉使视障用户可以更轻松地访问物理世界。

“ Lookout 使用计算机视觉来帮助弱视或失明的人更快，更轻松地完成工作。通过使用手机的摄像头，Lookout可以更轻松地获取有关您周围世界的更多信息，并更有效地执行日常任务，例如分拣邮件，存放食品杂货等等。”

它是在盲人和弱视社区的指导下构建的，并支持Google的使命，即使所有人都能普遍获得世界各地的信息。

很高兴看到Google向难以访问信息的人们朝着这个方向发展。陈写道：

“当用户将智能手机相机对准产品时，Lookout会识别它并大声说出品牌名称和产品尺寸。”

这导致了一种架构，该架构足够高效，可以完全在设备上实时运行。

Chen认为可能必须如此。

通过设备上的方法，它具有低延迟且不依赖网络连接的优势。

Lookout使用的数据集由200万种流行产品组成，这些产品根据用户的地理位置动态选择。

从这个意义上讲，它可以涵盖大多数用法。