登陆

CVPR 2019 | 智能体张量交融,一种坚持空间结构信息的轨道猜测办法

admin 2019-06-04 379人围观 ,发现0个评论

机器之心转载

来历: 北京大学前沿核算研究中心

本文是核算机视觉范畴国际尖端会议 CVPR 2019 当选论文《Multi Agent Tensor Fusion for Contextual Trajectory Prediction》的解读。该论文由 MIT 支撑的自动驾驭草创公司 ISEE Inc,北京大学王亦洲教师课题组,UCLA,以及 MIT CSAIL 协作共同完结。该论文首要提出了一种依据深度学习的车辆和行人轨道猜测办法,提出了一个能够坚持空间结构信息的多智能体张量交融网络,在机动车驾驭和行人轨道数据会集对模型的功能进行了验证。

链接:https://arxiv.org/abs/1904.04776

简介

轨道猜测问题之所以具有挑战性,是由于智能体的动作是随机的,而且取决于他们的目的地、与其他CVPR 2019 | 智能体张量交融,一种坚持空间结构信息的轨道猜测办法智能体的社会交互、以及其所在场景的物理束缚。猜测还必须对不同场景中不断变化的智能体数量和类型具有泛化性。依据神经网络的猜测算法往往很难编码相似的信息,由于规范的神经网络架构只承受固定的输入、输出和参数维度;而关于这类猜测使命,这些参数维度会因场景而异。之前的论文或运用面向智能体(agent-centric)的办法进行轨道猜测,例如 SocialLSTM [1],Social GAN [2];或运用面向空间结构(spatial-centric)的编码办法处理这个问题,例如 Chauffeur Net [3]。面向智能体的编码在多个智能体的特征向量上运转聚合函数,而面向空间结构的办规律直接在俯瞰视角的场景标明图进步行运算。

而多智能体张量交融(Multi-Agent Tensor Fusion, MATF)则提出了一种立异的多智能体张量交融编码器-解码器(Encoder-Decoder)网络架构。该架构结合了面向智能体和面向空间结构的轨道猜测办法的利益,经过端到端练习学习标明和推理有关社会互动和场景物理束缚的一切相关信息。图 1 展现了 MATF 的中心张量 MAT 的结构,该张量在空间大将场景的特征编码与场景中每个智能体的曩昔轨道的特征编码向量对齐,坚持了静态场景以及多智能体的空间方位联络。接下来,经过全卷积网络(Fully Convolutional Layers)结构出交融的多智能体张量编码(见下一个末节)。这种编码办法一方面能够像面向空间结构的办法那样很自然地坚持多智能体张量中的一切智能体和静态场景的空间结构以捕捉空间信息,另一方面也能够像面向智能体的办法那样灵敏捕捉多智能体间的奇妙社会互动。

MAT 编码是一个俯瞰视角的静态场景和动态多智能体的特征图(Feature Map),包含多智能体编码通道(Multi-Agent Encoding Channels)(上)和静态场景编码通道(Scene Context Encoding Channels)(下)。单智能体长短时记忆网络(Single Agent LSTM)编码器输出的多智能个别特征向量(赤色)在空间上依据这些智能体的坐标对齐,结构出多智能体编码通道。多智能体编码通道与静态场景编码通道(场景编码全卷积网络的输出特征图)对齐,以坚持智能体与场景间的空间结构。

MAT 紧接着将交融了社会互动和场景物理限制的 MAT 编码成果解码,以一起猜测场景中一切智能体的未来轨道。实际国际中人的行为不是确定性的,智能体能够在同一个场景中做出不同的行为,MATF 运用条件生成对立练习(Conditional GAN)来捕获猜测轨道的这种不确定性。

MATF 对新提出的模型在驾驭数据集和行人人群数据集进步行了试验验证。该论文报告了来自以下数CVPR 2019 | 智能体张量交融,一种坚持空间结构信息的轨道猜测办法据集的成果:揭露的 NGSIM 驾驭数据集,斯坦福无人机行人数据集(Stanford Drone dataset),ETH-UCY 人群数据集,以及最近搜集的暂未揭露的马萨诸塞州驾驭数据集。文章汇报了定量和定性试验成果,显现了模型每个部分的奉献。与范畴最先进论文的定量比较标明所提出的办法在高速公路驾驭和行人轨道猜测方面都有着最好的体现。

网络架构

多智能体张量交融(MATF)的网络架构简图如下所示:

该网络的输入是在曩昔时间段内的一切智能体的轨道,以及俯瞰视角下的静态场景图画。每个智能体的曩昔轨道和静态场景图画别离经过循环(Single-Agent LSTM Encoders)和卷积编码流独立编码。编码后的多智能体向量和静态场景特征图在空间上对齐以结构出多智能体张量。例如,图中 3-D 黑框(下方)显现的是橙色智能体周围的多智能体张量切片。

接下来,结构相似 U-Net 的全卷积网络(Convolutional Operator: Multi-Agent Tensor Fusion)作用在结构出的多智能体张量上,用以揣度社会交互和空间物理束缚,一起始终坚持空间结构和空间局部性特征,该全卷积网络终究输出交融的多智能体张量(上方)。每个交融的智能体向量从该张量切片得出,包含了推理加工过的相应智能体的社会互动信息、本身前史轨道信息、以及其周围的场景物理束缚信息。值得指出的是,由于 MATF 架构运转同享卷积运算,所以在同一次正向传达中能够核算得出的一切智能体的相应交融向量。例如,实心蓝框(上方)所标明的智能体交融向量交融了来自卷积层感触野内的CVPR 2019 | 智能体张量交融,一种坚持空间结构信息的轨道猜测办法该智能体邻近的一切智能体和场景特征的归纳揣度信息。

MATF 在此之后将这些交融的特征向量作为残差(Residual)加到相应智能体的原始编码向量上,以取得终究智能体编码向量。这些向量终究将被循环神经网络解码器(Single-Agent LSTM Decoders)独登时解码为网络对这些智能体的未来的轨道的猜测成果。MATF 整个架构是彻底可微的,而且支撑端到端的练习。

驾驭数据集试验成果样例

马萨诸塞州驾驭数据集的定性试验成果样例如上所示。每辆车的曩昔轨道以不同的色彩显现,这以后衔接的是网络对这些车未来轨道的猜测的采样。正确成果(Ground Truth)的轨道以黑色显现,车道中心以灰色显现。

(a)一个触及五辆车的杂乱景三菱evo象;MATF 精确地猜测了一切车的轨道和速度散布;

(b)MATF 正确地猜测了赤色车辆将完结换道;

(c)MATF 捕捉到赤色车辆是否将驶入高速公路出口的不确定性。

(d)当紫色车辆经过高速公路出口后,MATF 猜测它将不会退出。

(e)在这里,MATF 无法猜测精确的实在未来轨道;但是,一小部分采样轨道成功猜测到了赤色车辆将继续变道。

行人数据集试验成果样例

斯坦福无人机数据集的定性试验成果样例如上所示。从左到右别离是 MATF 多智能体-场景揣度模型,MATF 多智能体-无场景揣度模型,和 LSTM 基准模型的猜测成果,一切用来猜测的模型都是确定性模型。蓝线显现的是曩昔的轨道,赤色是实在的未来轨道,绿色的是三个模型别离猜测的未来轨道。MATF 能够经过一个CVPR 2019 | 智能体张量交融,一种坚持空间结构信息的轨道猜测办法正向传达一起猜测该图所示的一切的智能体的未来的轨道。绿色的猜测轨道越挨近赤色的实在未来轨道,猜测就越精确。MATF 多智能体-场景揣度模型成功猜测了:

(1)两个人或自行车从顶部进入环形交叉口,并将向左驶出;

(2)环形交叉路口左上方途径的一位行人正在转弯向左移动到图画的顶部;

(3)一个人在环形交叉路口的右上方建筑物门口减速;

(4)在一个风趣的失利事例中,环形交叉路口右上方的人向右转,向图画顶部移动;该模型成功猜测了此次转弯,但失利在无法猜测转弯的急缓程度。

MATF 多智能体-场景揣度模型正确猜测了这些和其他各种场景的轨道景象,其间一些景象也被 MATF 多智能体-无场景揣度模型近似地猜测了出来,但大多数景象都没有被基准的 LSTM 模型猜测出来。

参考文献:

[1] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2016.

[2] A. Gupta, J. Johnson, L. Fei Fei, S. Savarese, and A. Alahi. Social gan: Socially acceptable trajectories with geneCVPR 2019 | 智能体张量交融,一种坚持空间结构信息的轨道猜测办法rative adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018.

[3] M. Bansal, A. Krizhevsky, and A. S. Ogale. Chauffeurnet: Learning toCVPR 2019 | 智能体张量交融,一种坚持空间结构信息的轨道猜测办法 drive by imitating the best and synthesizing the worst. CoRR, abs/1812.03079, 2018.

本文为机器之心经授权转载,转载请联络原大众号取得授权。

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
请关注微信公众号
微信二维码
不容错过
Powered By Z-BlogPHP