赛派号

计算机视觉研究范畴 CVPR 2023

关注公众号,发现CV技术之美

向大家介绍一篇今天新出的非常有意思的 CVPR 2023 的论文,相比于传统的目标检测算法,训练时标注了几个类别,就只能检测几个类别,这篇论文属于通用目标检测的范畴。

通过在训练过程中图像和文本对齐,它可以自动扩展到检测那些视觉标注中没有出现的类别。

这将有效帮助视觉系统目标检测能力的迁移,感觉是非常有前途的技术方向。

论文信息:

 ▌Detecting Everything in the Open World: Towards Universal Object Detection17843195a53638205584980ec986e8bc.jpeg

论文作者:Zhenyu Wang,Yali Li,Xi Chen,Ser-Nam Lim,Antonio Torralba,Hengshuang Zhao,Shengjin Wang

作者单位:北京信息科学与技术国家研究中心;清华大学;香港大学;Meta AI;MIT

论文链接:http://arxiv.org/abs/2303.11749v1

开源地址:https://github.com/zhenyuw16/UniDetector

(尚未开源)

这篇论文作者大多数是国内学者。

传统的物体检测算法受限于繁琐的人工标注,在开放世界中出现新类别后往往需要“从头来过”,即使只增加一个新类别,也要完整过一遍标注、训练、部署整个流程,严重限制了其通用性,这显然不“科学”。

该论文作者提出了UniDetector,就是要让目标检测器具有识别开放世界中大量类别的能力。

其核心关键点:

1)基于图像和文本空间的对齐,利用多个来源和异构标签空间的图像进行训练,保证了通用表示的充分信息。

2)由于视觉和语言模态的丰富信息,使其易于推广到开放世界,同时保持已知和未知类别之间的平衡。

3)为了应对训练中的新挑战,作者还提出了提出的解耦训练方式和概率校准,进一步提高了对新类别的泛化能力。

论文中仅用了500个类别参与训练,就可以使UniDetector检测超过7k个类别!而这并不是代表UniDetector只能检测7K个类别,而是现有公开数据集只能让这项研究最多在7K个类别上进行检测和评估!

(好吧,这个世界限制了UniDetector的发挥~04ae64e2b257964377995dbeb2d6326d.png

UniDetector算法示意:

afc6622892f621eee57c8b49bb61f5cb.png

UniDetector算法流程:

333308eb014a00368f0b0ad2b4cf18ed.png

训练过程中的异构标签空间:

a3eb2adb2f7882a15c06a5108d791542.png

通过实验发现,在具有大量类别的目标检测数据集LVIS、ImageNetBoxes和VisualGenome上,UniDetector表现出强大的零样本泛化能力(也就是数据集中参与训练的图像样本为0个),超过传统监督算法平均4%以上!而在另外13个具有不同场景的目标检测数据集上,UniDetector仅使用3%的训练数据就实现了最先进的性能!

在开放世界数据集上的检测性能:

f52be4ac8a94f30ed8e0303bb8875678.png

在COCO数据集上的性能:

37ac89599beab5415e0bdcda09a9df56.png

零样本设置下 在 13 个开放世界数据集上的检测性能:

cf3c7744fbe4a328e70e7ab29dd492f6.png

在COCO数据集上与其他开放类别的目标检测方法的比较:

64b48ee46a1eb0f63ed2bf31ea32a8ba.png

在LVIS 数据集上与其他开放类别的目标检测方法的比较:

72f860235f4157587516753834186508.png

更多CVPR 2023论文,请关注:

https://github.com/52CV/CVPR-2023-Papers

5a414860dda6f7c7d7ad6cffbe9794eb.jpeg

END

欢迎加入「目标检测」交流群👇备注:Det

f518f208e87c85d64ada5f873698d468.png

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lsinopec@gmail.com举报,一经查实,本站将立刻删除。

上一篇 没有了

下一篇没有了