基于领域增强大模型的定制化公安信息抽取方法（TIPS）研究成果

数据空间研究中心近日在公共安全领域信息提取方面取得了重要进展。随着信息技术的飞速发展，人工智能在公共安全领域的应用日益增多，尤其是在处理大量非结构化的案件数据时，如何快速准确地提取关键信息成为了一个挑战。依托于国家重点研发项目《多元矛盾纠纷成因分析及疏导技术研究与应用示范》，数据空间研究中心刘跃等人提出了专门针对公共安全领域的定制化信息提取方法。

01. 背景介绍

互联网时代下，大数据、云计算和人工智能等技术被应用于公共安全领域，助力智能公共安全的发展。警务工作起始于对警情事件的理解，这些事件数据主要是非结构化的自然语言文本，包含如人、事、物、时间和地点等关键案件信息。迅速准确地从这些数据中提取关键信息，对事件分析、风险评估和指挥调度等任务至关重要。因此，运用智能分析技术从公共安全事件数据中高效提取信息，实现对大量事件文本数据的认知理解，变得极为关键。

深度学习模型在学习大量高质量数据后表现良好，但在数据稀缺的特定领域效果不佳。在公共安全领域，数据的敏感性和保密性导致严格的数据保护规定，同时数据处理和标注既耗时又费力，因此可用的场景数据十分有限。传统模型需要大量数据来拟合，导致其在面对专业领域低资源场景时，难以学习特定知识，并可能引发过拟合带来的负面影响。因此，在有限的可共享数据资源下，传统模型难以高效提取信息。为了解决上述问题，本文提出了TIPS，一种在公共安全领域使用基于模板的合成数据集和LoRA微调大模型的信息提取方法，主要工作如下：

利用大型语言模型实现信息提取任务：为应对传统深度学习在数据稀缺环境下的性能问题，本文提出使用大型语言模型执行信息抽取任务，通过少量领域数据训练得到高效领域模型。

创建可靠的数据集：为解决公共安全数据集稀缺问题，本文生成了模拟数据，通过人机结合的方式构建了一个警情事件信息提取数据集。

领域特定信息提取：本文提出一种基于大型语言模型的公共安全领域信息提取方法，以高效提取警情文本中的关键信息，支持警务人员的高效认知、实时分析和趋势评估需求。

02. 研究方法

该研究设计了一种基于大语言模型（LLM）的公共安全领域信息提取方法。利用大语言模型强大的文本理解和生成能力，结合领域数据集与模型微调技术，构建了适用于公共安全领域的大语言模型，以从警情数据中高效提取关键信息。

如图1所示，研究工作分为数据构建、提示词设计和模型微调三个模块。

图 1 TIPS框架图

2.1数据构建

该工作采用脱敏的真实报警数据构建模板并通过大型语言模型生成虚构数据，同时以人机结合的方式进行数据集标注，构建了一个包含1,000条警务事件记录、涵盖多个案件类别的文本提取数据集，构建流程如图2所示。

数据来源为市级警务数据库。首先，提取了100条真实警务事件记录制作模板，关键字段被空白化并设计了目标插槽。随后，基于数据模板，通过闭源大型语言模型生成逼真的虚构警务事件数据，实现了案件数据的扩展。每条数据经过专业警务人员的人工审核，形成有效的警情事件记录，确保数据质量和隐私保护。其后，再次利用闭源大模型和设计好的抽取提示模板（见2.2节）对生成数据进行自动化标注，再由研究团队人工核查自动化标注结果的准确性，最终形成了保留真实场景风格、覆盖各类型警情事件的公安信息抽取数据集。

图 2 数据集构建流程图

2.2提示词设计

该工作设计了一种针对公共安全领域的信息提取提示模板，如图3所示。

图 3 提示词模板示例图

提示词模板包含五个主要部分：角色、技能、功能、架构和警情文本。角色部分指定模型为公共安全警务信息提取器。技能部分强调模型在该角色中的基本或关键能力，确保其在处理数据时能有效执行任务。功能部分涉及模型的其他特殊要求，如输出格式和异常处理，确保模型准确提供所需内容。架构部分提供了一个预定义的信息提取框架，使模型能够根据用户需求提取信息。文本部分包含所有待提取信息的原始文本。此模板引导和规范了模型生成结构化信息，进而提升信息提取的精确度和可控程度。

2.3 模型微调

最后该研究工作利用构建的警情信息提取数据集，通过LoRA技术对开源大型语言模型如Qwen2-7B-Instrcut与GLM-4-9B-Chat等，进行模型微调。所有实验均在Ubuntu 20.04操作系统环境下执行，其硬件配置包括2颗Intel Xeon Gold 5520处理器及8张NVIDIA Tesla V100 32GB图形处理单元。实验主要依赖LLaMA-Factory作为模型微调框架。在LoRA微调阶段，使用了AdamW优化器，学习率设定为5e-5，训练周期5轮，批量处理大小设定为2。将温度参数设置为0.3-0.8，top-p参数设置为0.6-0.8，以评估模型在不同条件下的输出。

03. 实验分析

首先，在本次实验中，选定Qwen2模型作为代表性模型，以探究训练模型时的温度参数与top-p参数对生成输出质量的影响。如表1所示，当温度参数为0.5，top-p参数为0.8时，模型展现出了接近最优的性能表现。

表 1 不同温度和Top-p值的性能指标

随后，在评估微调模型的抽取能力时，采用自然语言处理任务中广泛认可的标准相似度指标，例如BLEU和ROUGE，对提取结果进行定性的衡量与评价。使用F1等评估指标，针对数据集中涵盖的各个事件领域进行定量分析。

表2对实验所选取的四个模型在微调前后所取得的结果进行了比较，并将最佳表现的结果以粗体字呈现。从表中可见，相较于基础模型，各微调模型的表现均实现了显著提升，足以胜任警务事件信息提取的任务。其中，Qwen2和GLM-4的表现更佳。

表 2 不同模型的性能指标和误差

实验还计算了各字段的F1分数，以详细调查模型表现不佳的领域，结果如图4所示。结果显示，“职位名称”、“民族”等训练集中相关信息有限的字段表现相对较差。而在“警号”、“身份证号”等具有独特的数字结构的字段上表现出色。

图 4 不同模型在各领域的F1分数

最后，该研究基于Qwen2-7B-Instruct模型进行了消融实验，使用自动化数据集和人工验证数据集的训练集比较模型在两者上性能提升的表现，并采用相同的参数设置以保持一致性。这些微调模型的性能通过人工验证数据集的测试集进行评估，结果如表3所示。

表 3 Qwen2在两个数据集上训练的F1分数比较

结果表明，经过手动验证数据集微调的Qwen2模型性能显著提升，评估指标提高了约10%。实验结果表明手动验证和修正数据集的工作，对于提高信息提取模型的准确性和可靠性至关重要。

04. 总结

该项研究成果《TIPS: Tailored Information Extraction in Public Security using Domain-Enhanced Large Language Model》已在CENet2024中发表，并获得了CENet2024 Best Paper Award奖项。实验表明，结合领域数据集微调与提示工程的大模型在各项评估指标上都表现出色，显著提高了公共安全信息提取的准确性和效率，展现了大语言模型在公共安全信息提取中的巨大潜力。这项研究不仅为公共安全领域提供了一种高效的信息提取方法，也为智能公共安全系统的发展提供了强有力的技术支持，相关技术成果目前正在公安部门进行应用示范。