绮乐网

人工智能可以使用有限的标签数据清除

诸梦网络

.上的垃圾评论

点评会影响销量,这是众所周知的事实。约71%的客户表示,他们在阅读了其他人的印象后“更放心”购买产品,而88%的客户表示,评论会影响他们的购买决定。因此,有一个真正的动机来减少垃圾邮件和恶意第三方撰写的操纵评论。幸运的是,哈特曼集团和华盛顿大学的科学家们在这个具有挑战性的领域取得了进展。

在预印本服务器上发表的一篇论文(“GAN for semi-supervised opinion spam detection”)中,研究人员描述了“spamGAN”,一种生成的对策网络——即由一个用于生成样本的生成器和一个试图区分生成样本和真实样本的鉴别器组成的两部分神经网络——从有限的标注和未标注数据语料库中学习。

这篇论文的作者写道:“观点垃圾是电子商务、社交媒体、旅游网站、[和]电影评论网站的常见问题。”“垃圾评论者试图通过提供影响读者的垃圾评论来利用这些经济利益,从而影响销售。我们认为,识别垃圾评论是一个分类问题,即如果经过审核,需要分类为垃圾或非垃圾。”

正如该团队所解释的那样,由于相对缺乏预先标记的数据集,垃圾评论对于识别来说是一个挑战。因此,这种方法依赖于一种称为半监督学习的技术,其中未标记的数据与少量标记的数据相结合,以提高学习精度。

具体来说,spamGAN的生成器组件输出一个新句子——给定类标签作为输入——鉴别器试图将其分类为“真”(从训练数据集采样)或“假”(不现实)。其性能作为反馈来改进生成器,具有更好的分类精度,从而获得更多的奖励。

对抗训练前,研究人员事先用批量标记的真句、无标记的真句和假句对破坏分子进行训练。接下来,他们将80%的评论发送到垃圾邮件,这些评论被标记为单词级的1597条评论,其中包括大约800条来自猫途鹰的“真实”芝加哥酒店评论和800条来自亚马逊Mechanical Turk的“欺骗性”评论。(剩下的20%用来验证AI模型的性能。)

在每次重复10次的实验中,研究人员表示,在标签数据有限的情况下,垃圾邮件GAN优于现有的垃圾邮件检测技术,在只有10%标签数据的情况下,准确率(以F1分数衡量)可以达到71%到86%。

除了检测垃圾评论之外,spam还设法生成评论,尽管存在一些困惑,例如:“我喜欢这家酒店,但我认为这家酒店看起来并不差.[P] almer house在任何地方,还有人在评论里说……”

研究人员将该实验与其他审查数据集和更复杂的分类器一起留给了未来的工作。

“[M]现有关于意见垃圾的研究(深度学习方法除外)人工识别启发式[和]分类垃圾行为的功能;然而,在我们基于GAN的方法中,这些特征是由神经网络学习的,”他们写道。“[我们认为] spamGAN还可以生成垃圾[和]非垃圾评论.这些注释可用于在有限的实际条件下生成合成数据。”

标签:垃圾邮件评论