计算机视觉(CV)在人工智能(AI)领域扮演首要角色。
作为CV三大顶会之一,CVPR 2018正在如火如荼的召开。
这些年直播、短视频、自动驾驶的兴起,让CV更是大放异彩。
CV的应用方向包括图片分类、目标检测、语义分割、目标跟踪、姿态估计、3D重建等。
各方面技术的发展日新月异,优质的模型和算法与日俱增。
ResNet, Inception, Yolo, SSD, Mask-RCNN, OpenPose…
这些众所周知的优秀模型,各自在特定领域解决了问题。
我认为面向互联网的计算机视觉应用,下一代应该是各技术的融合,而不是分割。
看如下图:
这个图体现的结果,是将视频里的人体姿态,进行实时三维建模。
用到了几乎所有CV技术,包括:
- 目标检测与分类:首先要检测出每个人体目标
- 语义分割:分割出人体的像素单位,与背景区别开
- 姿态估计:估算出人体的姿态关键点(网状多点)
- 目标跟踪:跟踪人体运动轨迹,捕捉上下文信息
- 3D重建:将视频里的2D信息重建为3D,补充深度信息
而这样的CV产品,可以广泛应用在多个方面。
比如最近很火的秒变大长腿与瘦腰。
比如跳舞、健身的动作矫正。
比如在线试衣。
甚至全息投影也是可以的。
CV多技术的融合,可以使生活更美好、梦想更简单。
技术发展的代表案例,可以参考DensePose。