资讯 更多 >>
比特斯拉还少1个摄像头!智能车赛道...
中国铝业午盘涨近4% 机构指云南电...
聚焦全域突破 引领整体提升
B站与BBC联合制作纪录片《亘古文明...
天和投资&温岭城发集团3.59亿竞得台...
消息称Temu已在日本上线,首次进军...
大学四年如何不虚度,这份攻略送给...
新华全媒+丨火出圈的录取通知书见证...
做好用人单位防暑降温工作
哪一款捕鱼游戏最好玩 好玩的捕鱼...
动态更多 >>
科伦药业:7月6日融券卖出15.37万股...
晶科能源(688223):7月4日北向资...
安大教务系统登录_安大教务系统_环...
当前热议!相约古黟,相会水彩!中国...
携程发布《2023乐山文旅热力榜》 ...
微头条丨将首次启动自有APP直播,东...
天天热文:苹果股价上涨影响主动型...
iphone发售当天可以去苹果店买到吗...
世界上最高的高原是(世界上最高的...
震裕科技拟20亿元投建范斯特新能源...
会展 更多 >>
中国碳中和(01372)子公司中碳绿信与...
世界今头条!万马科技:300698万马科...
景宁召开农村网格改革工作动员部署...
提升农业机械化水平,四川的“破”...
广东省能源局新能源处:没有说暂停...
环球视讯!汤臣倍健股价异动 上半...
《逆水寒手游》铜币获得玩法
遇害3儿童家属:嫌犯欲侵犯孩子奶奶...
【港股通】中国海油(00883):5座全...
东安动力 (600178):7月3日该股...
专题报道 
当前位置: 资讯 > >> 正文
 
比特斯拉还少1个摄像头!智能车赛道最隐秘的AI视觉玩家浮现
来源:快科技     时间:2023-07-07 14:59:20

智能车赛道,藏着一个最隐秘的AI视觉玩家。

这个玩家尚未官宣任何智能车相关的业务进展,但又在最核心、最前沿、最被渴求的自动驾驶系统能力上屡屡展现竞争力——全球AI顶会冠军级的统治力。

不仅具体技术上突出,在目标检测、语义分割、视觉推理等方面有诸多顶会级研究;还拿下多个自动驾驶相关比赛的冠军,甚至还用7个摄像头的纯视觉方案,完成了高速、城区和泊车环境的自动驾驶。


(资料图)

这个玩家不是特斯拉的AI团队,这个玩家是旷视科技

在最近的AI顶会CVPR中,大模型加持下的视觉研究,正在驱动自动驾驶方向的新研究,而旷视研究院,在一众自动驾驶和智能车玩家参与的竞赛中,获得了考察自动驾驶环境感知能力的冠军。

AI视觉领域的超级明星,现如今在业务上还没有与智能车传出关联。

但有这样的技术研究和成果,当真会纯出于学术研究?

旷视刷榜了什么自动驾驶比赛?

旷视研究院参加的这个比赛,是CVPR 2023专门面向自动驾驶感知决策系统设立的挑战赛。

其中OpenLane拓扑关系挑战赛冠军,被旷视收入囊中。

挑战赛一共四个赛道,除了旷视参加的OpenLane拓扑关系挑战赛(OpenLane Topology),还有在线高精地图构建挑战赛(Online HD Map Construction)、三维占据栅格预测挑战赛(3D Occupancy Prediction)和nuPlan规划挑战赛(nuPlan Planning)。

其中,OpenLane拓扑关系赛道主要考察自动驾驶技术理解场景的能力。

赛道要求基于OpenLane-V2(OpenLane-Huawei)数据集,输入给定环视相机照片,参赛者需要输出车道中心线和交通元素的感知结果,以及这些元素之间的拓扑关系预测。

也就是说,这个比赛不是考察以往自动驾驶感知中,对车道边缘线或者交通标志单一的识别能力,而是要求自动驾驶技术可以感知车道中心线,还要能理解车道中心线和交通元素的逻辑关系,比如绿灯亮了,这意味着哪条车道可以通行。

那么如何判定冠军?OpenLane-V2数据集提供了判定标准:OLS分数(OpenLane-V2 Score),通过计算感知结果和拓扑预测mAP的平均值判定得分。

在34个参赛队伍中,来自旷视研究院的队伍得分唯一超过55分,达到分,具有明显优势。

那么,旷视用了什么样的方法?

旷视的自动驾驶纯视觉方案

首先感知阶段,对于交通元素检测和车道中心线检测两个感知任务,旷视分别采用了两个不同的模型。

对于交通元素检测,旷视使用主流2D检测模型YOLO系列中最新一代YOLOv8作为baseline,相较于其他2D检测方法YOLO速度更快,性能更准确。

△图片来源:GitHub用户RangeKing

再加上比赛使用的数据集OpenLane-V2标注了交通标识和车道的对应关系,旷视在YOLOv8训练过程中增加Strong augmentation、Reweighting classification loss、Resampling difficult samples、Pseudo label learning和Test-time augmentation共5个trick,通过和前视角图像交互生成对应交通元素的特征。

对于车道中心线检测,旷视使用自研PETRv2模型作为baseline。PETRv2提供了一个统一的纯视觉3D感知框架,可以用于3D目标检测和BEV分割。

而在这次比赛中,旷视利用PETRv2从多视角图像中提取2D特征,以及利用摄像头截锥空间中生成3D坐标,把2D特征和3D坐标输入3D位置编码器。

随后使用3D位置编码器给Transformer解码器生成key和value组件,lane queries再通过全局注意力机制和图像特征进行交互,生成3D车道中心线检测成果和对应的车道中心线特征。

而在拓扑关系预测阶段,旷视基于YOLOv8和PETRv2搭建了一个多阶段的网络框架,并利用两个感知任务生成的成果拼接对应特征,再使用两层MLP预测对应的拓扑关系矩阵。

(图注:旷视最终在验证集上的预测结果,包括边框、类别和置信度)

最后从OLS得分来看,旷视团队的这套方法在交通元素感知(DETt)、车道线之间拓扑关系预测(TOPll)和车道线与交通元素拓扑关系预测(TOPlt)方面均领先于其他参赛者。

智能车赛道最隐秘的AI视觉玩家

参加这次比赛的,是旷视研究院的MFV(Megvii-Foundation model-Video)团队。

比赛成果论文一作是吴东明,2019年在北京理工大学徐班取得学士学位,后来继续在北理攻读计算机系的博士学位,师从沈建冰教授,在2022年成为旷视研究院的研究实习生。

论文的其他作者也都来自旷视研究院,其中Chang Jiahao毕业于中国科技大,Li Zhuoling毕业于香港大学。

值得一提的是,这次挑战赛使用的PETRv2模型,还是旷视研究院创始院长孙剑博士去世前,带领研究团队发布的学术成果之一。

并且,这也不是旷视唯一的自动驾驶相关研究成果。

除了PETR系列大模型,旷视还发布过BEVDepth检测模型(可对3D目标实现高精度的深度估计),LargeKernel3D(首次证明大卷积核对3D视觉任务的可行性和必要性),BEVStereo(nuScenes纯视觉方案3D目标检测SOTA)等……都是行业领先级的技术成果。

△BEVStereo模型框架

一直以来,旷视研究院都是旷视AI技术的研发“大脑”,主攻深度学习和计算机视觉方向,也是包括AI生产力平台Brain++、开源深度学习框架天元MegEngine、移动端高效卷积神经网络ShuffleNet等成果的诞生地,已经对外发表了超过120篇全球顶会论文;斩获顶级赛事中冠军数超过40项,拥有1300余件业务相关专利授权。

而且在区别于纯研发或前沿技术预研布局的企业研究院,旷视研究院从一开始就被作为作战部队使用,所以旷视研究院的最新成果、瞄准的方向,一般都不会一时兴起,或者纯为研究而研究。

于是这也是旷视接二连三在自动驾驶、智能车赛道方向上产出顶级成果后,需要关注的地方。

相比老朋友商汤科技,旷视至今没有官宣任何智能车、自动驾驶业务或合作,而商汤则推出了专门的智能车业务品牌绝影,由联合创始人王晓刚带队,目标要成为商汤的支柱型新增长引擎。

对于智能车和自动驾驶这样的万亿规模赛道,旷视会始终心如止、按兵不动?不太可能。

更何况从技术研究能力到技术实现水平,都已经通过顶会得到了展现。

以及,旷视研究院还展示过一段自动驾驶预研Demo,仅使用7个摄像头,就能实现高速公路和城区的自动驾驶,并且还能完成水平、垂直以及侧方位停车。

这是什么水平?

作为参考,纯视觉王者特斯拉,自动驾驶感知方案最少也需要8个摄像头。

论文传送门:

/e2ead/AD23Challenge/Track_1_

关键词:

热门推荐
猜你喜欢