中心硕士生研究成果被CCF A类国际计算机视觉顶级会议CVPR录用-武汉大学图像传播与印刷包装研究中心

学术动态

中心硕士生研究成果被CCF A类国际计算机视觉顶级会议CVPR录用时间：2023-02-28 15:42:52

2023年度国际计算机视觉顶级会议CVPR公布录用结果，中心2021级硕士研究生叶茂源在刘菊华副教授的指导下，题为《DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting》的学术论文被录用。中心是该论文的第一署名单位，该文是继叶茂源在人工智能顶级会议AAAI 2023发表学术论文后，在计算机视觉领域的又一突破。

CVPR（IEEE Conference on Computer Vision and Pattern Recognition）是计算机视觉领域顶级会议，属于中国计算机学会CCF A类会议。CVPR在最新的学术期刊和会议影响力中排名第四，仅此于Nature，NEJM和Science。根据CVPR官方数据，本届会议共收到9155篇投稿，2360篇被接收，接收率为25.78%。

本次发表的论文主题是端到端自然场景文本信息提取。该任务旨在将场景文本检测和识别集成为一个统一框架。处理检测与识别两个子任务之间的关系对设计高效的端到端识别器起着枢纽性的关键作用。尽管基于Transformer的方法摆脱了启发式后处理，但仍然存在子任务之间的协同与训练效率低等问题。为此，该工作提出了一个简洁高效的DETR类基线模型DeepSolo，以实现端到端文本信息提取。具体地，对于每个文本实例，将字符序列凝聚抽象为有序点，并使用可学习的显式点查询对其进行建模。在流出单个解码器之后，点查询已经编码了必要的文本语义、位置等信息，因此可以通过多个预测头并行地解码出文本的中心线、轮廓点、字符内容等关键信息，从而以统一表征方式同时进行文本检测与识别，进一步简化了端到端文本信息提取流程。实验表明，在不使用词典的设置下，DeepSolo模型在Total-Text和CTW1500上分别取得了82.54%与64.2%的端到端精度，使用通用词典时，在ICDAR 2015上取得了79.08%的端到端精度，并且DeepSolo相比之前的方法具有更好的训练效率。此外，该模型还可以支持中心线形式的位置标注，相比多边形形式标注显著减少了标注成本。

在自然场景图像文本信息提取领域，除了上述研究成果被CVPR 2023录用外，刘菊华副教授课题组此前在AAAI 2023、IJCV、AAAI 2022、IJCAI 2020、IEEE TIP等计算机视觉、人工智能领域顶级期刊/会议上发表了多篇高水平论文。

论文链接网址：

Maoyuan Ye†, Jing Zhang†, Shanshan Zhao,Juhua Liu*, Tongliang Liu, Bo Du*, Dacheng Tao.DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting.IEEE Conference on Computer Vision and Pattern Recognition 2023 (CVPR 2023). (CCF A, Acceptance rate: 2360 out of 9155 (25.78%) submissions)

https://arxiv.org/abs/2211.10772

（学生通讯员：叶茂源）