调教小说

您当前所在的位置: 调教小说 -> 调教小说动态 -> 科研成果 -> 正文

我院博士生两篇论文被ACL2026录用:面向低资源多语种智能处理与内容安全的新探索

发布日期:2026-04-28  来源:   点击量:


近日,我院国家安全技术专业相关师生在自然语言处理国际顶级会议ACL2026上取得新进展,两篇围绕低资源多语种智能处理的研究论文被录用。两项研究分别聚焦低资源多语种大模型对齐与低资源多语种OCR文档识别,面向低资源民族语言信息处理中的跨语言理解、模型可靠性、文档智能解析与数字内容治理等关键问题展开探索,为边疆民族语言智能处理、网络空间内容安全治理以及国家安全技术研究提供了新的方法支撑和应用参考。

ACL(The Association for Computational Linguistics)年会是自然语言处理与计算语言学领域最具影响力的国际顶级学术会议之一。ACL 所属的国际计算语言学学会成立于1962年,会员覆盖全球62个国家和地区,其年度会议长期被视为自然语言处理领域的重要学术风向标,并被中国计算机学会(CCF)列为A类国际学术会议。ACL2026将于7月2日至7日在美国加利福尼亚州圣迭戈举办。据官方统计,本届会议共收到12,148篇有效投稿,论文录用率约为19%,竞争十分激烈。

一、面向低资源多语种大模型对齐:让主观评价更可验证

论文 “Verifying the Subjective: Structured Multilingual Rewards for Low-Resource Alignment” 由我院沙九同学以第一作者身份完成,面向低资源多语种场景下大语言模型对齐中的奖励建模难题展开研究。现有大模型在英语等高资源语言中表现较好,但在民族语言、小语种和跨文化语境下,仍容易出现评价标准漂移、回答质量不稳定、奖励信号不可解释等问题,进而影响模型在内容安全、舆情分析、跨语言问答等场景中的可靠应用。

图1. 模型架构
图1. 模型架构

针对上述问题,该研究提出了结构化多语种奖励建模框架,将开放式、主观性的回答质量评价拆解为可追踪、可解释、可验证的细粒度评价维度。该框架通过结构化清单、生成式评价解释和自适应多语种奖励优化,将“主观判断”转化为更加稳定、可控的训练信号,从而提升大模型在低资源语言场景下的推理、生成与安全对齐能力。

图2. 数据构建流程
图2. 数据构建流程

从国家安全技术视角来看,该研究有助于提升大模型在低资源民族语言环境中的可信生成能力,为跨语言内容审核、边疆网络空间治理、民族语言智能服务和涉安全文本分析等任务提供基础能力支撑。

图3. 通用任务上的结果
图3. 通用任务上的结果
图4. 安全及幻觉任务上的结果
图4. 安全及幻觉任务上的结果

二、面向低资源多语种 OCR:突破复杂文字结构识别瓶颈

论文 “Beyond Atomic Characters: Glyph-Aware Sub-character Alignment for Low-Resource Multilingual OCR” 由我院沙九同学以第三作者身份参与完成,聚焦低资源多语种 OCR 识别问题。对于藏文、蒙古文、维吾尔文等复杂文字系统,字符往往具有叠加、连写、部件密集等视觉结构特征,传统 OCR 模型容易将形近字符混淆;同时,低资源语言普遍缺少大规模标注数据,使模型难以依赖充足语料进行有效纠错。

图5. 模型架构
图5. 模型架构

为此,研究提出BASA框架,引入字形感知的细粒度适配模块,从笔画、部件、结构拓扑等子字符层面增强视觉—语言对齐能力。该工作还构建了面向多语种低资源OCR的数据与评测体系,覆盖多种复杂文字结构和真实文档场景,验证了字形结构建模在低资源OCR 中的重要作用。

图6. 数据分布
图6. 数据分布

从国家安全技术应用角度看,低资源多语种 OCR 是边疆地区文档数字化、跨语言信息抽取、历史档案保护、涉民族语言文本识别和网络内容治理的重要基础能力。该研究能够为非结构化文档理解、民族语言知识库建设和多语种信息安全分析提供更可靠的技术底座。

图8. 最终结果
图8. 最终结果

三、面向国家安全技术的交叉研究价值

这两篇论文虽然分别关注“大模型对齐”和“OCR 文档识别”,但都指向同一个关键问题:如何在低资源、多语种、跨文化场景下构建可信、可解释、可部署的智能处理能力在国家安全技术专业背景下,这类研究具有三方面意义:

第一,服务边疆网络空间安全治理。低资源民族语言信息长期存在数据稀缺、模型能力不足、自动化分析困难等问题。相关研究能够提升多语种内容理解、风险识别和安全治理能力。

第二,支撑跨语言内容安全与智能监管。大模型在不同语言环境中可能出现幻觉、偏见或安全失配。结构化奖励建模有助于提升模型在低资源语言场景下的稳定性与可控性。

第三,推动民族语言资源保护与数字化建设。低资源OCR技术能够提升复杂文字文档识别能力,为古籍文献、档案材料、区域文献和多语种知识资源建设提供基础支撑。

四、结语

此次两篇论文被ACL2026录用,体现了我院国家安全技术团队在低资源多语种智能处理与国家安全技术交叉方向上的持续积累,也为后续开展面向真实安全场景的智能技术研究奠定了良好基础。面向未来,我院国家安全技术团队将继续围绕低资源多语种大模型、民族语言智能处理、多模态内容安全与国家安全技术应用开展研究,推动人工智能技术在边疆治理、网络空间安全、文化资源保护和跨语言智能服务中的落地应用,以新质生产力促进国家安全。