计算机视觉的发展是多技术的融合

计算机视觉(CV)在人工智能(AI)领域扮演首要角色。

作为CV三大顶会之一,CVPR 2018正在如火如荼的召开。

这些年直播、短视频、自动驾驶的兴起,让CV更是大放异彩。

CV的应用方向包括图片分类、目标检测、语义分割、目标跟踪、姿态估计、3D重建等。

各方面技术的发展日新月异,优质的模型和算法与日俱增。

ResNet, Inception, Yolo, SSD, Mask-RCNN, OpenPose…

这些众所周知的优秀模型,各自在特定领域解决了问题。

我认为面向互联网的计算机视觉应用,下一代应该是各技术的融合,而不是分割。

看如下图:

这个图体现的结果,是将视频里的人体姿态,进行实时三维建模。

用到了几乎所有CV技术,包括:

  1. 目标检测与分类:首先要检测出每个人体目标
  2. 语义分割:分割出人体的像素单位,与背景区别开
  3. 姿态估计:估算出人体的姿态关键点(网状多点)
  4. 目标跟踪:跟踪人体运动轨迹,捕捉上下文信息
  5. 3D重建:将视频里的2D信息重建为3D,补充深度信息

而这样的CV产品,可以广泛应用在多个方面。

比如最近很火的秒变大长腿与瘦腰。

比如跳舞、健身的动作矫正。

比如在线试衣。

甚至全息投影也是可以的。

CV多技术的融合,可以使生活更美好、梦想更简单。

技术发展的代表案例,可以参考DensePose

Print this entry