IBM亚马逊研发对抗攻击模型，撕破有害信息的伪装！

作者：智东西来源：智东西公众号

分享到：

04-02

看点：研究发现基于文本的AI模型容易受到释义攻击，研究人员开发新算法对抗释义攻击，对抗攻击技术可以构建更准确模型。

导语：研究人员研发新算法，能够对抗释义攻击问题，帮助建立更准确的文本AI模型。

智东西4月2日消息，在昨日斯坦福大学举行的SysML AI会议上，来自IBM、亚马逊和德克萨斯大学的研究人员展示了一种对抗“释义”攻击的通用框架，用以解决恶意软件钻文本分类算法漏洞、躲避有害信息筛查的问题，帮助建立更稳健的文本AI模型。

其研究论文名为《离散攻击和子模块优化在文本分类中的应用（Discrete Attacks and Submodular Optimization with Applications to Text Classification）》，于2018年12月1日提交。

由于自然语言处理（NLP）技术的进步，越来越多的公司和组织开始使用人工智能算法来执行与文本相关的任务，比如过滤垃圾邮件、分析社交媒体帖子和在线评论的情绪、评估简历和检测假新闻。AI算法可以用来评估电子邮件的文本，将其归类为“垃圾邮件”或“非垃圾邮件”。

然而，有些恶意行为者开始通过使用工具，在不修改文本核心意思的前提下，篡改即将输入到AI模型的文本内容，导致文本分类算法错将垃圾文本归类于非垃圾文本，而人们仍能从这条被误筛的信息时中读出和原文无异的垃圾信息。这一恶意行为被称之为“释义攻击（paraphrasing attacks）”，也就是本文中研究者们试图解决的核心问题。

对抗释义攻击比图像和音频攻击更难

在过去几年，一些研究小组已经从多种探讨了关于对抗攻击的方方面面，修改输入数据会导致AI算法对图像和音频样本进行错误分类，而人类感官最终接收到的信息仍是原信息。

人工智能研究员、语言模型专家Stephen Merity表示，音频和图像与文本相比有很大的差异性。例如，图像分类算法可以通过逐渐更改像素的颜色，观察这些修改如何影响模型的输出，这可以帮助研究人员找到模型中的漏洞。

由于文本具有离散性，所以相比图像和音频算法更难攻击。IBM的研究员Pin-Yu Chen表示，对于图像和音频，进行对抗干扰是有意义的，但对于文本来说，即使只是对一个摘要的一两个词做一些小小的修改，也很难让AI模型流畅的读给人类。释义攻击就是这些攻击的文本等价物。

修改内容但不改原义的典例

过去，针对文本模型的对抗攻击（adversarial attacks）研究，主要是改变句子中的单个单词。虽然这种方法成功地改变了AI算法的输出，但它经常导致修改后的句子听起来像是人为修改的。Pin-Yu Chen和他的同事们除了关注单词的改变，更希望通过改写句子和以有意义的方式改变更长的序列。

对抗释义攻击的研究，通过创建与目标句子语义相似的序列，来为攻击提供更大的空间，并观察模型是否将它们归类为原始句子。

IBM 研究所的科学家Lingfei Wu表示，他们的研究人员开发了一种算法，可以在非常大的空间中搜索单词和句子，目前这是最佳的搜索方式。通过修改搜索的内容，可以对AI模型的输出产生很大影响。这种算法的主要难度是，确保文本的修改版本在语义上与原始版本相似。在该空间中找到最佳对抗示例非常耗时，但该算法具有计算效率，并且提供了理论上的保证。

此项研究中，研究人员还提供了改变情绪分析算法，假新闻检测器和垃圾邮件过滤器行为的修改示例。例如，在一份产品评论中，只要把”定价比一些大牌集团便宜”这句话换成”价格比下面的一些大牌更便宜”，评论的情绪就从100％正面变为100％负面。