新知一下
海量新知
5 9 7 6 2 3 5

寻找潜在辟谣者--基于辟谣微博参与者的特征分析

狗熊会 | 数据产业高端智库 2021/10/21 11:27

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

01

研究背景

互联网技术的飞速发展,网络已成为人们传递信息、学习工作、交流和表达感情的重要工具。同时,网络的开放性、虚拟性和隐私性,也使网络谣言的产生更加便捷。新浪微博作为国内最受欢迎的社交媒体平台之一,截至2021年3月,微博月活跃用户达到5.3亿,移动端占比94%,日活跃用户达到2.3亿 [1] 。微博的信息传播快,受众广,人人可以发声。 海量用户生成的内容真假难辨,因此微博等社交媒平台为谣言提供了生存空间。 尤其是当突发危机事件爆发时,网络谣言更是趁机大行其道,引起民众恐慌。例如,近几日河南发生暴雨洪涝自然灾害,一些有关灾情的不实消息被广泛传播,不仅耽误救援进度,同时也加剧人民群众的焦虑与恐慌,威胁社会稳定。

为应对网络谣言带来的不良影响,网络谣言的治理研究己形成了一些具有建设意义的理论与方法。 现目前主要有两种辟谣思路,一是阻止谣言进一步扩散,许多研究者围绕网络谣言的传播特点、传播途径及网络谣言的影响等方面进行研究,且大多数是从传播学、信息管理学和心理学的角度来阐释网络谣言传播这一社会问题,其主要考虑不同的网络结构来建立谣言传播模型,如IWSR模型、SEIR模型等,从而阻止谣言的传播。二是传播真相以澄清谣言,即传播辟谣信息。目前关于辟谣的研究主要侧重于辟谣的有效手段、信息的公开、网络的自净与澄清等方面讨论网络辟谣机制,并从心理学角度、新闻传播学和管理学角度出发,对传播辟谣信息提出一些方向性建议。

通过查阅和梳理相关资料发现,许多学者对辟谣的研究多关注于“物”上,针对辟谣手段、平台的研究较多,但是缺乏对谣言作用对象的研究。 即很少关注人的影响,尤其是对那些参与辟谣信息讨论的群体的描述。而辟谣信息的传播是由传者,受者和中介三个要素构成,其中的受者也就是辟谣信息的受众,它有两个影响因素,受众的批判能力和事件与受众的关联性。如果受众的批判能力越强,则辟谣效果就越弱;在关联性的层面上,谣言内容和自身的关系越近,受众本身就更有可能成为潜在的辟谣者。因此研究辟谣信息参与者的特征,可以识别辟谣目标群体,并提供个性化的推荐服务,加速辟谣信息的传播,减少谣言传播带来的危害。

同时,当人们收到一条信息时,他们可能同时转发和评论,或者只转发,这种属于信息的传播者;如果选择拒绝并传播相应的辟谣信息时,这种属于信息的驳斥者;当只在该条信息下面进行评论时,这种属于信息的评论者。而用户的评论和辟谣信息同时出现在同一个平台界面上,其发表的评论包含个人意见、情感表达和行动号召。用户的评论也会影响之后看到信息的人们的判断。正面的评论会促进辟谣信息的正面传播,而负面评论则会阻止辟谣信息的传播。 因此,通过提取辟谣微博与评论文本特征,寻找潜在辟谣者,有助于检验辟谣信息的效果,为辟谣提供新思路。

因此,本文以新浪微博相关辟谣微博为例,基于传播真相以澄清谣言的角度,爬取辟谣微博文本、辟谣微博下的评论用户相关属性数据以及已发布前十条微博文本信息,关注辟谣传播过程中人的影响。通过研究评论用户的属性和评论等信息,挖掘辟谣微博参与用户的特征。 本文运用自然语言处理的方法,以提取辟谣微博的文本特征,分析评论用户特征以及标签、简介辟谣微博文本和已发布前十条微博文本的相似度,建立是否为潜在辟谣用户的分类模型。 寻找潜在辟谣用户,从而提升微博辟谣效力,为社交平台提供有效的新的辟谣思路和方向,减少谣言带来的影响。

[1] 数据来源于新浪微博2021年第一季度财报

02

数据介绍与说明

1 、数据介绍

本文数据来源于新浪微博,采用八爪鱼爬取了2020年10月到2021年2月转发/评论超过100多次的社会类辟谣微博45条,收集了辟谣微博下评论文本20155条。其中包括爬取评论用户属性和已发布的前十条微博文本。数据包含13个变量,其中因变量为是否为潜在辟谣者(用户评论情感值大于0时,定义为潜在辟谣者),自变量为性别、地区、年龄、会员等级、关注数、粉丝数、以及简介、标签、前十条发布微博文本和员辟谣微博的相似度。 具体变量字段说明如下表2.1。

2、 数据处理

本文数据集中的缺失值主要在用户年龄相关字段,但由于占比较少,不到3%,因此用平均数替代法进行填补。由于收集到的数据集中前十条微博存在缺失值,本文采用了正则表达式进行数据爬取,爬取了相关缺失微博数据。同时对评论去除空格和符号,再对评论进行停用词处理。此外,本文借助NLP短文本相似度接口用来判断 前十条微博与辟谣微博相似度、标签与辟谣微博相似度、简介与辟谣微博相似度, 为后续数据分析做准备。

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

03

描述性分析

1、是否为潜在辟谣用户

当辟谣微博下的评论是积极的,其用户相当于潜在的辟谣者。本文对辟谣微博下评论进行情感分析,并根据情感倾向对文本进行分类。根据评论文本的情感得分,将评论的情感划分为2个类别,当情感得分大于0时,倾向为为积极,为潜在辟谣者,当情感得分小于等于0时,情感倾向为消极,为非潜在辟谣者

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

通过上表可知,潜在辟谣用户有5147人,占比25.5%,非潜在辟谣用户有15008人,占比74.5%,可以发现,辟谣微博下消极评论占大多数,用户对于辟谣微博的态度较消极。

2、用户年龄&性别分布

本文对评论用户性别和年龄进行分析,绘制用户年龄分布基本情况图3.1。

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

根据上情况发现, 评论用户中男性占比略高于女性,男性评论占比51%,女性评论人数占比49%。说明对于人们对于社会类辟谣微博的关注没有性别上的差异。同时,在用户年龄分布上,18岁-30岁占比为68%,55岁以上的用户仅占3%,用户呈现年轻化趋势,年轻人群是微博发展的主力军,这也与《2020年微博用户发展报告》相一致。

3、用户地区分布

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

本文按用户地区出现频次绘制用户地区分布热力图3.2,发现评论用户主要集中于北京、广东、江苏、浙江等相对发达的一线省份,而对于西北地区和台港澳地区评论用户相对较少。这与区域的经济发展水平和互联网发展水平相关,整体来说,评论用户主要集中在经济发达地区,偏远落后地区则较少。

4、会员等级

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

对用户会员等级进行分组,统计得到图3.3,对用户会员等级分析发现,超过66%的微博用户未开通会员,会员等级为0,用户对于微博的使用粘性不高。

5、用户关注数和粉丝数分布

新浪微博平台最大的不同在于你无法强制用户接受你的信息,用户必须先得到个人粉丝的关注才能开展有价值的信息交流。“关注”代表用户关注的人,其用户的存在与否与对方关系不大。粉丝则是恰恰相反。其关注数可以粗略反映出用户的兴趣范围,而粉丝数则反映出用户的言论影响范围和意见领袖指数,对辟谣信息传播具有重要意义。本文对评论用户的粉丝数和关注数进行了分组统计,如图3.4和图3.5,发现用户的关注数主要在一百个至五百个区间,粉丝数五十个以下的用户占比较少,这在一定程度上说明用户的兴趣范围广泛。同时用户的粉丝数集中在一百个左右,说明参与辟谣微博评论的用户有一定粉丝基础,当其转发并评论相关辟谣微博信息时,用户的粉丝能够看到相关辟谣信息,因此能够提升一定的辟谣效力。

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

6、 辟谣微博评论数&词云图

对收集到的45条辟谣微博的评论数进行统计,得到图3.6,发现大多数辟谣微博的评论数在1000到10000条之间,低于200条的仅有4条,说明收集到的辟谣微博的讨论度较高,具有一定的可分析性。

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

此外,本文对45条辟谣文本分词进行频次分析,发现辟谣微博中出现“警方”、“视频”、“辟谣”字眼较多,说明辟谣主体多为警方,辟谣的对象主要是针对于视频类相关信息。

7、用户标签&评论文本词云图

为了研究评论用户兴趣特点,本文对评论用户的标签进行词频分析,并对用户标签的频次绘制了词云图,如下图3.8所示。通过观察词云图可以发现,评论用户的标签主要为美食、旅游、生活、娱乐、幽默、搞笑,这些标签也与社会类话题相一致,说明用户在使用微博时,更倾向于关注和标签相一致的信息,因此,在研究辟谣微博效力时,可以对辟谣微博与用户标签进行相似性分析。

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

为发现用户对辟谣微博信息的态度,本文对用户的评论分词后,对关键词进行频次分析并绘制词云图,如图3.9, 从词云图可以看到,其“回复”二字出现频率较高,说明用户对于辟谣微博的评论主要是在于对他人的评论进行评论,形成社区互动。此外,“怎么”、“doge”,“吃瓜”等字眼说明评论用户对于辟谣信息主要是持以吃瓜的态度,同时,在词云图中,“允悲”、“哈哈哈哈”等字眼也表明了评论用户对于辟谣微博信息的情感态度,因此,在后续的研究中可以研究用户评论的情感,探究评论用户情感倾向的影响因素。

04

数据模型

1、逻辑回归模型

本文根据辟谣微博下评论的情感倾向,将评论用户分为潜在辟谣者(情感得分大于0)与非潜在辟谣者(情感得分小于0)。本文共搜集了20155条数据,以用户相关特征、微博影响力以及与辟谣微博的相似度为自变量建立分类模型,来判别该用户是否为潜在辟谣者。

由于潜在辟谣者人数是非潜在辟谣者的1/3,为保证样本均衡,本文采用随机抽样的方法,在非潜在辟谣者数据中抽取5000条数据进行分类模型构建。首先将所有用户信息平均分为10份,随机抽取其中的1份作为测试集,即测试集占1/10。然后划分自变量与因变量,自变量为微博用户特征,即性别、年龄分组、关注分组、粉丝数分组、会员等级、地区、发表前十条微博与辟谣微博相似度、标签与辟谣微博相似度、简介与辟谣微博相似度,因变量为是否为潜在辟谣者,并建立逻辑回归模型进行分类。

根据逻辑回归模型得到回归系数表4.1,发展逻辑回归模型中,三个有关相似度的自变量在判别用户是否为潜在辟谣者时起着至关重要的作用,即前十条微博与辟谣微博相似度、标签与辟谣微博相似度、简介与辟谣微博相似度,当标签,已发布微博,简介与原辟谣微博越相似,用户是潜在辟谣用户的可能性越大。而对于用户特征,其粉丝数、年龄、会员等级重要性略高于其他属性,且粉丝数和年龄与是否为潜在辟谣者呈正相关,保持其他变量一定时,当粉丝数越多、年龄越大时,用户是潜在辟谣者的可能性越大。因此判别一个微博用户是否为潜在辟谣者时,主要关注该用户的历史微博、标签、简介与辟谣微博的相似度,相似度越高,是潜在辟谣者的可能性越大。

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

2、分类模型比较

在采用决策树模型进行分类时,准确率达到79%。根据Gini来对用户特征的重要性进行计算,发现在决策树模型中,三个关于相似度的自变量在判别用户是否为潜在辟谣者时起着至关重要的作用,即前十条微博与辟谣微博相似度、标签与辟谣微博相似度、简介与辟谣微博相似度;而对于用户特征,其地理区域、粉丝数、关注数重要性略高于其他属性,年龄、性别、会员等级等特征,潜在辟谣者与非潜在辟谣这区别不明显,对于分类帮助不大。因此判别一个微博用户是否为潜在辟谣者时,主要关注该用户的历史微博、标签、简介与辟谣微博的相似度,相似度越高,是潜在辟谣者的可能性越大。

本文采用三种分类方法来进行分类效果比较,分别为逻辑回归模型,决策树模型,以及随机森林模型。用准确率(accuracy)、F1score和AUC这三个指标来比较不同分类器分类效果,在训练集与测试集样本数之比为9:1的情况下,得到的分类结果如表4.2所示。

新知达人, 寻找潜在辟谣者--基于辟谣微博参与者的特征分析

可以看出,随机森林的准确率最高,达到0.80,其次是决策树,为0.79,最后是逻辑回归,为0.72,但三个分类模型的准确率相差不大。而对于分类效果来说,随机森林的分类效果效果略胜一筹,其AUC值为0.84,而对于决策树和随机森林模型,其AUC分别为0.83和0.70,逻辑回归与决策树和随机森林的分类效果相差较大, 因此综合考虑下,建议采用随机森林进行分类。

05

结论与应用

本文搜集了社会类辟谣微博及其评论用户信息,挖掘辟谣微博参与用户的特征。分析发现,用户对于社会类辟谣微博的关注没有性别上的差异。在年龄分布上,用户呈现年轻化趋势。用户主要集中在北上广等经济发展较为发达的地区,大多数用户为非微博会员,对于微博的使用黏性不高。关注社会类的辟谣微博的用户的标签主要为生活,娱乐,这些标签与社会类话题相一致。

通过对评论文本进行情感分析,以及对标签,简介,已发布10条微博和原辟谣微博进行相似度分析,本文以用户相关特征、微博影响力以及与辟谣微博的相似度为自变量建立逻辑回归分类模型,来判别该用户是否为潜在辟谣者。 分析发现,在判断一个微博用户是否为潜在辟谣者时,主要关注该用户的历史微博、标签、简介与辟谣微博的相似度,其相似度越高,是潜在辟谣者的可能性越大。

为增强微博辟谣效力,相关平台可以采用随机森林分类模型,收集一定数量的用户信息,分析用户标签、已发布微博、简介和辟谣微博的相似度,通过分类模型判断用户是否为潜在辟谣者,当其判断为相关潜在辟谣者时,可以向该用户推送相关辟谣微博信息,可以提升微博辟谣效力,为社交平台提供有效的新的辟谣思路和方向,减少谣言带来的影响。

更多“辟谣者”相关内容

更多“辟谣者”相关内容

新知精选

更多新知精选