在中国,有偿发帖的人被称为互联网水军,因为他们随时准备着为愿意付钱的人“水淹”互联网。所谓的“水”包括评论、八卦、各种信息(或虚假信息),据说还是供需两旺。
此间暗潮涌动。对于一宗商品而言,若受到市场正面推荐,销售情况将大不相同,而同样的也可将竞争对手驱逐出市场。当公司花费数百万美元推出新产品和服务时,很容易理解为何他们可能会想利用一切可能的工具来取得成功。
而最终的输家是消费者。那些误信了虚假信息而做出购买决策的消费者将为此买单。就目前而言,消费者得不到法律补偿,他们甚至无据可查。
现在,加拿大维多利亚大学的程晨【音】和几个好友将会介绍他在中国网站做水军的经历,帮助我们了解互联网水军如何运作。然后他和他的朋友利用这一经验创造了一款可以自动发现“水贴”的软件。
有偿发帖是一个管理严谨的活动,涉及到数千的不同个体和上万的不同网络ID。发布者通常根据给定的任务,进入网站登记,然后开始生成内容,包括海报、文章、网站和视频链接、甚至使用提问-回答(Q&A)的方式。
通常情况下,要发布的内容都是事先准备好,或是发布者会收到发布内容的详细指示。而且会有一个质量控制团队来检查发布的内容是否符合一定的“质量”要求。例如发出的帖子被删除或是出现乱码就不能算成功发布。
经过秘密工作了解了这个系统的运作方式,程和他的合作者开始研究在中国几家大站点的水贴发布模式:如新浪和搜狐。他们特别研究了这两家公司一些新闻的评论,他们怀疑两家公司都雇用水军与对方打口水战。
新浪数据集包括超过500个用户20000多条评论;搜狐数据集涉及超过200个用户和1000多条评论。
程和他的合作者反复研究了所有的评论,通过人工方法确认出那些他们认为是水贴的评论,然后开始寻找与合法用户相区别的水贴行为模式 (他们承认他们初步印象的准确性是一个潜在的问题,但垃圾邮件过滤器也在处理同样的问题)
他们发现,水贴趋向于发布新的评论,而不大回复其他评论。他们其中50%的人平均每2.5分钟发一次(或更多),他们比合法用户更快的从辩论中溜走,更轻易放弃他们的ID,再不使用。
还有他们发布的内容会有适当的改变。这些水军的工作是按量获得报酬,于是常走捷径,多次剪切和粘贴相同的内容。只有被质量控制小组发现,否则这些帖子是可以计入有效发布的。
因此,程和他的合作者建立一些软件用于寻找重复和相似的信息以及其他已经可以确定行为。然后他们将软件用于数据集开始测试,发现软件的效果非常良好,在查找水贴方面准确度达88%。 他们认为“我们在真实数据集的测试结果表现这款软件非常有前途”。
虽然他们需要将软件测试范围拓展到更广的数据集,但这的确是一项让人印象深刻的工作,对打击水军迈出了第一步。然而除非水军们行为模式一直不改变一直符合这个软件的要求,才能把水军消灭干净。
前方存在着困难。只要该软件的第一个版本进入市场,水军将会从中学习并改变自己的行为模式来钻系统的空子。对于程和他的合作者来说这是一个猫鼠游戏,就像疫症和抗菌素、垃圾邮件和邮件过滤行业一样。
这意味着,与互联网水军的战斗将是漫长而艰巨的。