在你买买买的背后AI图像算法都做些什么?

2018-07-30 15:03 来源:未知 责任编辑:admin

  自 2013 年转型以来,蘑菇街电商平台历经了多次双 11 大促的洗礼。通常而言,大量的商家与商品参与双 11,用户规模相比平时也会剧增。今年双 11,蘑菇街还开辟了微信小程序作为新的支点,希望以此撬动新社交电商战略。平台为用户带来价值的关键是保障商品丰富、价格合理、服务可靠。在此背景下,有很多挑战需要在复杂的业务场景中去应对,其中包括:如何提高商品管理的效率,以及如何改善用户体验。在众多的技术和产品方案中,图像算法作为一项重要能力,运用于电商场景中,支持上述业务问题的改善。

  如同 1 所示,在电商平台中可以按照业务流向简单地描述图像数据。电商平台从商家或者用户处,获取到不同来源的图像数据,并且存放于后台图像数据库;前台 APP 产品作为面向用户的界面,基于图像数据和业务算法,把商品呈现在用户眼前,主要包括商品展示图墙页面和用户浏览页面。

  利用 CNN 提取图像特征,关键在分类标签的定义。有文章(ICLR 2017: On the Limits of Learning Representations with Label-based Supervision)指出:模型提取特征能力的上限,不在数据集的大小,而在标签质量。因此,设计监督更强、质量高的标签,更有利于特征的表示。我们的商品标签有两个来源,一个是商品在类目体系中从属的类别,另一个是商家对商品的描述。数据清洗过程主要解决商家打标的标签和图像实际内容不符合的问题。利用自动化图像标签模块,可对商品图片自动打标,辅之以人工矫正。通过这种方式我们累积了数以千万计的样本图像数据,所涉及的标签 label 数目有几千种,从而构建了高质量的训练样本。

  特征模型部署在 GPU 服务器上,为控制系统的整体响应时间,需要缩短特征提取的时间,因此要对深度学习网络模型进行压缩。压缩算法采用的是(ICLR 2017: Pruning Filters for Efficient ConvNets)所提到的剪枝策略。具体的做法是:针对每个卷积核计算其绝对值和,然后排序,针对绝对值小的权值和通道进行剪枝。流程中包括两个主要步骤:首先按照一定比例 (比如 10%) 进行压缩,然后进行模型的 fine-tunning 训练;两者交替迭代进行,直至模型精度的下降超过预设的目标,流程结束。最终我们所获得的特征模型在 GPU 卡 K40 上,单次特征抽取的时间在 40ms 内。

  鉴于搜索数据库数据量级很大,对每个查询都要计算所有的距离是非常困难的,同时存储数千万图片的高维残差网络特征向量需要耗费巨大的存储空间。为了解决这些问题,采用了近似最近邻算法中的局部优化的乘积量化算法(Product Quantization,PQ),训练得到粗量化质心和细量化质心,粗量化的结果用来建立倒排索引,细量化的结果用来计算近似距离。通过这种方法,既能保证图像索引结果的存储需求合理,也能使检索质量和速度达到更好的水平。

  图像检索系统的整体架构如图 2 所示。基于底层的图像搜索算法,通过中间接口层提供给具体的业务使用,提升了相似图像搜索的扩展性,能够快速地响应实际的需求和应用。

  目前该系统部署在蘑菇街电商平台中,提升了商品管理的效率。在亿级图像索引规模下,系统识别准确率为 99.06%,单张图像查询的整体响应时间为 20ms。

  图 4. 搜相似的用户界面,左 (a) 商品展示原图,右 (b) 相似商品列表页面

  图 5 展示了系统概要图。在实现过程中,采用了图像搜索技术来承担相似图像查询,从而召回相似商品列表,然后结合业务因素和图像相似性,进行商品排序。通过该功能,能够提升用户在蘑菇街 APP 上的浏览体验,有利于发现更多相似商品;同时,用户的停留时长也有所增加。

  图像语义分割是图像理解的基础技术,在服饰信息分析、自动驾驶系统(具体为街景识别与理解)、无人机应用(着陆点判断)以及穿戴式设备应用中举足轻重。众所周知,图像是由像素组成,语义分割就是将像素按照图像中表达语义含义的不同进行分组和分割。如图 6 所示,紫色区域表示语义为“上衣”的图像像素区域,荧光蓝代表“下装”的语义区域,军绿色表示“包包”,橙色则表示“鞋子”区域。在图像语义分割任务中,输入为一张 H×W×3 的三通道彩色图像,输出则是对应的一个 H×W 矩阵,矩阵的每一个元素表明了原图中对应位置像素所表示的语义类别(Semantic label)。因此,图像语义分割也称为“图像语义标注”。

  在语义分割领域,全卷积网络 (Fully Convolutional Networks,FCN) 推广了原有的 CNN 结构,在不带有全连接层的情况下能进行密集预测。FCN 使得分割图谱可以生成任意大小的图像,且与图像块分类方法相比提高了处理速度。实际上几乎所有关于语义分割的最新研究都采用了 FCN 结构;不过该框架中的池化层在增大上层卷积核的感受野、聚合背景的同时,却丢弃了部分位置结构信息。

  丢失的位置结构信息主要由于重复池化和下采样造成,因此我们的网络中移除了最后的若干个最大池化层下采样操作,并对滤波器进行上采样,在非零的滤波器值之间加入空洞,进行空洞卷积。如图 7 所示,(a) 中的常规卷积只能获取到较小感受野上的稀疏特征;(b) 中方法采用空洞卷积后可以得到较大感受野对应的更丰富特征,对应到服装语义分割也就保留了人体和服装之间的位置结构信息,有助于服装分割效果的提升。

  我们定义的类目包括服装类、生活类、化妆品,元素范围包括风格、纹理、版型等。以服装为例,标签信息比较复杂,覆盖到服装的多级类目、颜色、领型、衣长等,这导致同一张图存在多个标签。在实际工作中我们聚焦于以下两个方面的属性分类解决方案。

  实际应用中,蘑菇街商品图片的颜色会受到拍摄光线和滤镜处理的影响,这给我们的颜色识别带来了挑战,主要表现为两个方面:

  商家在发布新品时,需要填写商品的标题、上传图片,填写商品的属性值,以及详情页信息。当上新量很多的时候,特别是筹备双 11 期间,填写商品信息比较费时,加大了商家的工作量。而图像算法能够在商家上新的环节,通过分析上传的图片,得到图中的关键信息,为商家提供便利。以服装类目举例,商家上传了商品图片后,我们通过图像标签技术模块,计算得到图中商品的一系列属性信息。例如图 8 所示,这些信息包括:类目(毛呢外套)、袖长(长袖)、版型(收腰)、领型(西装领)、衣长(长款)、风格(韩系)、颜色(藕粉色)等。利用这些信息,自动帮商家填写好对应的属性,节省了商家选择属性值的时间。当商家发现图像算法识别错误时,可以在自动填写的基础上,对已填写内容进行手动修改。整个流程能够大幅度减少商家上新填写信息所需时间,提升商家的业务效率。

凡注明“来源:北京赛车pk10 开奖直播_北京赛车pk10开奖网现场直播_凤凰彩票官网推荐”的所有作品,未经本网授权,不得转载、摘编或以其他方式使用。