本网讯(通讯员陈玉乾)近日,模式识别与人工智能领域的国际顶级期刊《模式识别》(《Pattern Recognition》)在线发表我司跨媒体智能计算科研团队科研论文:“CATNet: Convolutional Attention and Transformer for Monocular Depth Estimation”。det365手机版为第一署名单位,2021级研究生唐帅为第一作者,鲁统伟副教授为通讯作者,合作单位为湖北文理学院。《Pattern Recognition》被公认为是模式识别领域最重要的国际期刊之一,该期刊最新影响因子为8.0,是中科院一区TOP期刊,被中国计算机学会(CCF)认定为B类国际学术期刊。
单目深度估计是指从单幅图像中获取场景深度信息。该任务包括预测相机光源中心与图像中每个像素对应的三维点之间的距离,这在三维建模、机器人技术和自动驾驶汽车等下游应用中具有直接意义。由于单目深度估计本质是一个病态问题求解过程,因此极具挑战性,得到了全世界研究者们的广泛关注。
为了获得更高的性能,现有的研究是通过利用Transformer大模型编码器去提取图像多尺度特征,这使得训练过程占用大量的计算资源,模型更加复杂和参数量一般为数百兆字节。针对这一问题,论文提出了一种新颖的简单编码器-解码器架构,使用一个基于卷积注意力的编码器来预测多尺度特征图,并通过基于隐式神经表示的轻量深度估计解码器有效融合。提出了多维卷积注意模块,进一步细化编码器提取的多尺度信息,在此基础上提出了一种双注意力Transformer模块增强全局信息的提取精度以实现精确的像素分类。论文首次在少量的参数下实现与基于Transformer大型模型编码器几乎相同的深度估计精度。该论文的算法框架如下所示。
下图展示了论文算法和前沿算法定性的对比实验结果。
论文技术成果能够在算力受限条件下获得高精度的场景深度信息,预期在机器人导航、视觉SLAM和自动驾驶领域具有广泛的应用前景,能为机器人自主导航定位提供理论和技术支撑。
论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0031320323006805
(审稿 卢涛)