MIT研究人员帮助计算机搜索图像

乍一看，并不多。但是，当计算机纠缠于识别图像的极其复杂的任务时，它可能被灰绿色，尖尖的突起和大教堂和仙人掌的垂直方向所欺骗。

在麻省理工学院人工智能实验室的两名研究人员的帮助下，计算机在寻找图像匹配方面变得越来越好。有一天，这种能力可以插入互联网搜索引擎，并说“找我日落”或“给我克拉克山墙”或“找到一张看起来像这个的照片”。

Eric L. Grimson，电气工程和计算机科学教授，Paul Viola，电气工程和计算机科学助理教授，专注于使用统计和信息理论技术的计算机视觉和机器学习。

虽然他们的主要目标是进一步了解人类和机器如何“看到”，但他们和其他人已经提出了许多可能的技术用途。

我们或许可以快速浏览一下某房子的房地产清单; 通过目录查看合适的沙发，西装或壁纸; 搜索照片档案，查看在肯特州身体尖叫的女孩的照片; 或比较生物技术行业中使用的蛋白质的物理结构。

格里姆森正在与美国专利和商标局合作，以绕过手工检查商标申请的繁琐程序，反对现有商标的抽签。

网上估计有5000到1亿张图片。随着新闻照片的巨大历史档案被数字化并提供给互联网用户，还增加了1700万。

现在，你不能对你的普通电脑说“找我哥特式大教堂”或“我需要在硫磺岛上升起的旗帜照片”。

“关键是弄清楚人们如何看待图像以及我们如何对其进行建模，”Viola说。

Viola和Grimson从不同角度处理任务。Viola有兴趣模仿人类大脑如何处理图像。

大脑对图像的初始处理发生在大脑后部的视觉皮层中。它广泛地决定它在顶部或底部，右侧还是左侧是否更亮。关于颜色和特征的更复杂的决定在大脑的不同部分发挥作用，其中细胞响应于非常复杂的空间关系。

同样，Viola的方法基于这样的想法：如果两个图像正确匹配，它们有很多共同的信息。当你给计算机两个相似的图像并要求它找到匹配时，它使用两个例子的相关方面。

Viola让计算机扫描两到三个相似的图像，以确定亮度，方向，形状和颜色的区域：它总共有49,000个“技巧”可用于对图片进行分类。例如，日落看起来就像是一个黑暗区域的亮度区域，一个被云层遮蔽的太阳的亮点。

它检查其5,000个图像的数据库，以查找适用于这两个给定图像的匹配。然后它将其范围缩小到几百个技巧，然后用它来挑选大约20个匹配。

它的选择可以非常接近。如果两个第一张图像是汽车，那么你得到的大多数图片都是汽车。一些可能是飞机(它们都有细长的车身和车轮)和一对看起来无关，就像日落一样。不过，仔细观察一下，通常可以告诉你计算机如何决定即使是糟糕的比赛。

“这与使用文本搜索引擎不同，”Viola指出。“有些比赛正是你想要的，而其他比赛甚至都不是很接近。看看它的含义很有趣。”

如果每个图像都有书面描述，您可以使用单词在Internet或数据库中搜索您想要的内容。但是不能保证一个人会使用相同的单词或单词将图片描述为另一个人。

“我们的目标是捕捉真实描述内容的图像中的内容，以找到与其相似的图像，”格里姆森说。

他的商标计划非常成功。如果你给它CBS眼睛标志，它会带回来以及包含相同基本风格元素的其他图像。

如果你给它一个花哨的字母“B”，它会找到类似的字母。它的优势还在于找到一个人可能不会将其描述为字母的其他B形设计。例如，其“B”搜索会显示一个图像，其中形状的上半部分是轮廓中的面部。计算机擅长匹配外观相同的图像，而内容则不然。

“你甚至可以给它草图，”格里姆森说。

他的课程基于人类对图像的感知研究。识别图像是人们非常好的做法。我们可以看到模糊的图像，微小的图像，扭曲的图像，在不同光线下拍摄的照片，并且仍然可以识别它们。

为了让计算机模仿这种能力，Grimson让它寻找具有共同点的部分，如颜色或亮度。然后，他将这些共性中的每一个与数据库中的图像进行比较。它越是必须扭曲其参数以使其与新图像匹配，匹配就越不准确。

这个相同的系统可以成功地用于面部。Grimson和Viola也开始致力于将他们的技术应用于视频序列。

Viola和Grimson说，有一些方法可以“教导”计算机以提高计算机的成功率。例如，如果你展示了大教堂的照片，并在机器的记忆中标记出来，那么最好选择一张大教堂的照片。这些计算机能够学习，因为他们可以通过获得良好匹配的积极反馈来提高他们的表现。

麻省理工学院人工智能实验室的学习与愿景小组专注于机器学习中的问题和应用。该小组将学习方法应用于适用于各种领域的视觉问题，包括信息检索，事件预测，特征发现，重合检测，功能学习和优化，以及视觉相关问题，如图像对齐，对象识别和对象跟踪。

Grimson和Viola教授的工作主要通过海军研究办公室和DARPA资助。