社交媒体零样本立场检测研究成果发表

研究中心近日在立场检测领域发表了一项重要研究成果。

论文链接：https://link.springer.com/chapter/10.1007/978-981-97-5618-6_11

当今数字化时代，随着Twitter和微博等国内外社交平台的迅速兴起，社交媒体已成为全球用户获取信息、表达意见和交互活动的重要平台。数以亿计的用户带来了互联网中信息的爆炸式增长。一些别有用心的人甚至通过虚假信息、谣言和恶意攻击等手段来操纵舆论，严重影响社会稳定和国家安全。对社交媒体上进行立场判别分析研究变得愈发重要。立场检测任务是舆情分析的重要研究课题之一，旨在识别文本作者对特定主题或实体的态度，在社交媒体分析、公共监测和虚假新闻检测等领域得到了重要应用，对构建和谐安全的社交网络环境拥有不可或缺的作用。

传统的立场检测方法大多围绕文本本身建模，而忽略了背景知识的存在，这导致零样本检测的效果往往不佳。过去也有人采用引入外部的维基百科知识或知识图谱等方法，但得到的知识往往与立场检测围绕的话题相关性不高，且由于输入截断问题，知识往往不能很好地体现在目标文本的词嵌入中。近年来，大规模语言模型在自然语言处理领域取得了显著进展，在许多零样本任务中表现出色。然后大模型在某些环境下毕竟部署受限，且直接应用大模型进行立场检测往往效果不佳，难以识别出文本中的隐含情感信息和逻辑关系。现有的数据生成方法通常依赖于相对简单的提示词，根据这些简单提示生成的样本与真实世界的数据存在显著差异，导致模型在生成样本上表现良好，但在真实数据上效果不佳。

团队自2023年开始在零样本立场检测领域展开深入研究，经过了一年多的努力，所取得的研究成果以论文的形式发表于学术会议International Conference on Intelligent Computing（ICIC2024）上，论文题目为“Improving Zero-shot Stance Detection by Infusing Knowledge from Large Language Models“。本研究提出了一种新的检测框架，通过融合大语言模型（LLMs）的知识来改善数据增强技术，显著提升了在低资源场景下的零样本立场检测任务性能。

为了充分挖掘大语言模型的潜力，该研究提出了GPT-TiDA框架，将大模型知识和主题迭代的数据增强策略相融合用于优化零样本立场检测，让大模型代理分别扮演领域专家和经验丰富的社交媒体使用者，在特定场景下生成更全面的背景知识和更高质量的样本。

该框架主要分为三个部分：（1）模型背景知识生成：该步骤要求大模型扮演一个特定领域的专家，利用其专业知识对特定主题进行描述，与从网络抓取的文本数据相比，大模型提供的解释整合了来自广泛语料库的信息，从而更加全面和深刻。并通过精心设计的复杂提示词确引导代理生成详细且准确的描述。（2）主题迭代的数据增强：该步骤生成新的训练样本，以增强模型的泛化能力。使用另一个代理来扮演一个娴熟的社交媒体使用者的角色，表达其对给定话题和立场的看法。生成的训练样本经过我们的人工筛选，以剔除不符合要求的样本，特别是在处理敏感话题时的安全限制。（3）知识融合：在获得话题对应解释后，将其与原始文本融合，作为融合编码器的输入，得到最终的表示。为了清晰地反映话题和文本之间的逻辑关系，我们精心修改了文本的连接形式，并将其输入预训练语言模型（如BERT）以获取词嵌入，并使用交叉熵损失函数来衡量模型的性能。接下来根据被错误分类的话题簇生成更多样本，并继续训练多个轮次。这个迭代过程旨在缩小合成伪样本与真实样本之间的分布差距。

该研究在两个公开数据集VAST和SEM-16上进行了广泛而全面的实验验证。对比实验结果表明，该研究在低资源数据场景中对未见目标的检测显著优于基准方法。在VAST上的少样本表现比目前的基准准确率提高了3.8%。在SEM-16的特定话题中，实验结果表现优于直接使用大模型进行分类，分别达到60.6%和54.1%，比排名第二的基准方法高出3.2%和3.4%。研究还在VAST数据集上对GPT-TiDA进行了消融实验，实验结果表明数据增强和基于大模型的背景知识都可以有效地提升分类性能，结合两者可以达到更优的表现。使用大模型生成的额外样本进行训练，在零样本和少样本场景中分别使仅用BERT的模型性能提升了3%和4%。该研究还提供了生成的训练样本与其他使用生成式语言模型进行数据增强的工作的对比案例分析，通过定量分析证明了该框架确实缩小了增强样本与真实样本的分布差距。

该框架不仅在性能上显著提升了零样本立场检测任务的准确性，同时也证明了将大模型与小模型相结合能够在资源有限或大模型难以在线部署的环境下，提供一个高效且精准的立场检测方案。未来的研究将进一步探索将此方法应用于情感分析和社交网络分析等其他领域，旨在解决数据稀缺问题并拓展小参数模型的适用性。这一成果为零样本立场检测的研究提供了新的方向。