近日,第37届人工智能领域顶级会议AAAI 2023(CCF A类会议)落下帷幕。中心2021级硕士研究生叶茂源在刘菊华副教授的指导下,发表题为“DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer”的学术论文,并在线上会议做口头报告(Oral),中心是该论文的第一署名单位。
AAAI是人工智能领域的国际顶级会议,也是中国计算机学会(CCF)的A类会议。AAAI每年召开一届,近年来投稿量逐年增加。官网数据显示,2023年度AAAI有效投稿为8777篇,最终有1721篇论文被接收,接收率仅为19.6%,被录用论文主题涵盖了人工智能领域的各项前沿工作。
本次发表的论文主题是自然场景文本检测。近期基于DEtection TRansformer (DETR) 预测控制点的研究工作较为活跃,在基于DETR的检测器中,Query的构建方式至关重要,现有方法中较为粗糙的位置先验信息构建导致了较低的训练效率及性能。除此之外,在如何监督模型方面,之前工作中使用的点标签形式影射了人的阅读顺序,这实际上会降低检测器的鲁棒性。为解决以上问题,该工作提出动态点场景文本检测模型DPText-DETR。(1)对于Query构建方式的问题:提出一种简洁高效的显式点Query构建(Explicit Point Query Modeling, EPQM) 方法,直接利用点的坐标构建显式细化的位置先验信息以加速训练收敛,并且提出了一个增强的因子化自注意(Enhanced Factorized Self-Attention, EFSA) 模块进一步挖掘同一文本实例内控制点Query之间的关系。(2)对于标签形式的问题:设计一种简单的位置性形式(Positional Label Form)。为进一步探究真实场景中不同标签形式对检测鲁棒性的影响,该工作还提出了包含500张图像的测试集Inverse-Text进行验证,包含约40%的类反向(inverse-like)文本实例,弥补现有数据文本类型的缺失。实验表明,提出方法显著改善模型的收敛速度、数据效率、对旋转文本检测的鲁棒性,并在Total-Text、CTW1500、ICDAR2019 ArT三个基准数据集上分别取得最优性能(F-measure:89.0%、88.8%、78.1%)。
在自然场景图像文本信息提取领域,除了上述研究成果发表在AAAI 2023外,刘菊华副教授课题组此前在IJCV、AAAI 2022、IJCAI 2020、IEEE TIP等计算机视觉、人工智能领域顶级期刊/会议上发表了多篇高水平论文。
相关论文链接网址:
Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu*, Bo Du*, Dacheng Tao. DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer. The 37th AAAI Conference on Artificial Intelligence (AAAI 2023, Oral). (CCF A, Acceptance rate: 1721 out of 8777 (19.6%) submissions)
https://arxiv.org/abs/2207.04491
Bo Du, Jian Ye, Jing Zhang, Juhua Liu*, Dacheng Tao. I3CL: Intra-and Inter-Instance Collaborative Learning for Arbitrary-shaped Scene Text Detection. International Journal of Computer Vision, 2022, 130(8):1961-1977. (CCF A, IF: 13.369)
https://link.springer.com/article/10.1007/s11263-022-01616-6
Yue He, Chen Chen, Jing Zhang, Juhua Liu*, Bo Du*, Fengxiang He, Chaoyue Wang. Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition. Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI 2022). (CCF A, Acceptance rate: 1349 out of 9020 (15%) submissions)
https://ojs.aaai.org/index.php/AAAI/article/download/19971/version/18268/19730
Jian Ye, Zhe Chen, Juhua Liu*, Bo Du*. TextFuseNet: Scene Text Detection with Richer Fused Features. The 29th International Joint Conference on Artificial Intelligence (IJCAI 2020). (CCF A, Acceptance rate: 592 out of 4717 (12.6%) submissions)
https://www.ijcai.org/proceedings/2020/72
Juhua Liu, Zhe Chen, Bo Du*, Dacheng Tao. ASTS: A Unified Framework for Arbitrary Shape Text Spotting. IEEE Transactions on Image Processing, 2020, 29(1):5924-5936. (CCF A,IF: 11.041)
https://ieeexplore.ieee.org/document/9056856
(学生通讯员:叶茂源)