舆情是由个人以及各种社会群体构成的公众,在一定的社会空间内,对自己关心或与自身利益紧密相关的各种公众事务所持有的多种情绪、态度和意见交错的总和。网络作为一种新兴传播载体,已经成为民众表达舆情的重要窗口[1]。作为社会舆论的重要发源地,网络舆情在社会生活中发挥着日益重要的作用[2]。
热点话题的演化与跟踪研判是网络舆情研究的重点问题。有关热点话题演化的前期研究主要聚焦于文本语义特征,并通过先建模后离散时间[3]、先离散时间后建模[4]、将时间作为模型的变量[5]等方式,将文本语料的时间信息引入静态的文档分析模型中,从而研究热点话题随着时间演化的规律[6]。
当前热点话题演化研究主要采用文档模型,适用于长文本数据分析,受限于文本语义的完整性。然而,网络舆情信息的文本具有短小乃至语义缺失严重的稀疏性问题,不能直接采用文档模型进行研究。网络舆情信息包含时间、社交互动关系、情感等多维特征,将以上异质于文本信息的特征加入模型能更真实地刻画网络舆情事件,可以作为语义缺失的有益补充。其中,社交网络舆情传播模型的已有研究分为两个方向:一个方向聚焦于基于用户特征行为(兴趣、转发、评论、地域等)构造舆情预测模型[7-8],另一个方向关注用户影响力与舆情传播关系[9-10]。此外,传染病模型及其改进模型[11-13]也常用于研究网络舆情传播。
当前关于社交网络舆情的研究主要根据用户社交特征进行建模,这些社交特征未能与文本特征进行结合,时间、情感信息也未得到有效利用。
目前舆情分析常借鉴社会计算及其相关学科中的一个主要研究方法——复杂网络分析的成果[14]。针对网络舆情信息不同于传统文本的短小、高噪声、动态变化快、高交互性、多维性等特点,本文提出基于超网络这一复杂网络,构造通用的多维时序网络舆情表征模型,基于话题的网络特征分析热点话题及其核心社群演化规律,为实时态势研判、舆论引导、同类事件预测等提供指导。
1 研究方法 1.1 超网络与网络舆情超网络模型超网络是复杂网络的一种,泛指节点众多、网络中含有网络的系统,在嵌套、多层、多级和多属性方面表现出自身的优越性[15]。Nagurney等于2002年给出超网络的明确定义,即高于而又超于现存网络的网络[16]。
在网络舆情事件表征方面,超网络由于其多层、多级、多维、多属性的特征,尤其适用于刻画网络舆情的特征、发生和动态演化机理,有效克服了传统的社会网络分析方法难以描述网络舆情事件信息结构的问题。尚艳超等[17]基于虚拟社交网络的拓扑结构,构建了话题-用户二维超网络模型,提出以积极方式与关键人物交流从而引导舆论的网络舆情治理建议;潘芳等[18]通过构造网络社群舆情传播网络-社会网络的微博舆情反腐二维超网络模型,对基于微博网络社群的反腐舆情传播的行为结构和演化过程展开研究,重点研究了政府在反腐舆情中的意见引领作用;马宁等[19]构造了社交-话题-态度三维超网络模型,提出包括节点超度超边重叠度、集聚系数、平均最短距离等的超网络测度指标,详细介绍了这些指标用以识别网络舆论引领者的机制并加以验证;武澎等[20]构造了手机网-人际网-互联网三网融合的超网络模型,提出一种基于超网络的突发事件信息传播系统节点介入、调控能力的评判算法,分别从全网维度、同质子网维度和异质子网维度,对突发事件信息传播载体节点的介入、调控能力作出评判;孙英苹等[21]构造了用户-事件-回音室的三维网络舆情差异化引导模型,实现目标回音室与目标用户的识别,最后根据舆情事件的情感方向给出目标用户的网络舆情引导策略。此外,常用模型还有环境-社交-心理-观点[22]四维社会舆论超网络模型等。
采用超网络研究网络舆情热点话题,可将网络舆情模型由单一的文本维度特征扩展到异质的多维特征,摆脱了以往研究对网络舆情事件受限于文本或用户特征的孤立解释,有效利用了多舆情要素与热点话题的内在联系。
时间因素是影响舆情价值的重要因素。突发公共事件网络舆情属于一种典型的信息生态系统, 并且随着事件发展进程, 网络舆情也将呈现一定的信息生命周期特性[23]。张连峰等[24]、梁晓贺等[25]、王丹等[26]参照舆情的生命周期理论,按照舆情的发展阶段将时间子网纳入超网络,研究了话题发现、关键节点及情感倾向等。
按照舆情的发展阶段,将时间因素加入超网络会带来3点问题:1) 按照事件发展阶段进行时间划分并构造超网络,导致该模型局限于事后分析,无法随事件的发生发展实时构造;2) 由突发事件引发的网络舆情具有高突发性和高时效性,仅按照事件发展阶段进行时间划分,粒度过于粗糙;3) 将时间特征构造为超网络子网,仅连接了该子网节点的超边具有时间特征。为解决以上问题,本文按一定粒度等距划分时间窗口,并将时间窗口序号作为超边的特征而非时间子网的节点。
1.2 基于超网络的微博舆情事件表征模型一个具体的微博舆情事件由多条微博信息构成。每条微博信息都包含发表时间、是否原创、对该舆情事件讨论的不同角度(即该事件所包含的不同话题)、表达的情感倾向等信息。因此,一条微博信息可抽象为“在某个时间,某个用户在与其他用户的互动中,对于某些话题发表了特定文本内容,表达了一定情感倾向”。其中包含的主体为社交主体s、内容主体c、话题主体t、情感主体e以及时间主体。将前4个主体抽象为节点,对这4个节点构造连边,并将时间作为边的特征,即可表征该条微博信息。在此基础上构建改进的微博舆情事件超网络模型,模型的网络结构示意图如图 1所示。
图 1 微博舆情事件表征模型 图选项 1.2.1 子网构建本文构建的超网络模型具有4个子网:内容子网MC、社交子网MS、话题子网MT、情感子网ME。
1) 内容子网MC:表示舆情的文本信息。内容子网的定义为
$ M_C=C \text {. } $ (1)式中:C={c1, c2, …cn}是内容子网所包含的节点集,集合中每个元素表示一条微博信息文本内容抽象出的内容节点。
2) 社交子网MS:表示参与舆情讨论的社交主体及其交互关系。社交子网的定义为
$ M_S=S \cup E_{s_i-s_j} \text {. } $ (2)式中:S={s1, s2, …sn}是社交子网所包含的节点集,集合中每个元素表示一条或多条微博信息的发表者,即参与舆情讨论的一个社交主体;Esi-sj是社交主体节点间连边的集合,
$ \begin{gathered} E_{s_i-s_j}=\left\{\left(s_i, s_j\right) \mid \alpha\left(s_i, s_j\right)=1, \right. \\ \left.\quad w\left(s_i, s_j\right), i, j=1, 2, \cdots n\right\} . \end{gathered} $ (3)式中:α(si, sj)=1表示社交主体si和sj间存在转发关系;w(si, sj)表示该转发关系所在的时间窗口。
3) 话题子网MT:表示网络舆情事件发展过程中网民讨论的不同话题。话题子网的定义为
$ M_T=T. $ (4)式中:T={t1, t2, …tn}是话题子网所包含的节点集,集合中每个元素表示对于该网络舆情事件,网民关注的某一具体话题。
4) 情感子网ME:表示网络舆情事件中网民所表达的情感倾向。情感子网的定义为
$ M_E=E. $ (5)式中:E={e1, e2, e3, e4}是情感子网所包含的节点集,集合中每个元素表示一种情感倾向抽象出的情感节点,节点e1表示情感极性为正向,e2表示情感中立,e3表示情感负向,e4表示情感极端负向。
1.2.2 超边映射一对分属不同子网的节点间的无向边称为超边。
1) 内容子网与社交子网间的超边Eci-sj定义为
$ \begin{gathered} E_{c_i-s_j}=\left\{\left(c_i, s_j\right) \mid \alpha\left(c_i, s_j\right)=1, \right. \\ \left.w\left(c_i, s_j\right), i, j=1, 2, \cdots, n\right\} . \end{gathered} $ (6)式中:α(ci, sj)=1表示内容主体ci由社交主体sj发布,w(ci, sj)表示该发布关系所在的时间窗口。
2) 内容子网与话题子网间的超边Eci-tj的定义为
$ \begin{gathered} E_{c_i-t_j}=\left\{\left(c_i, t_j\right) \mid \alpha\left(c_i, t_j\right)=1, \right. \\ \left.w\left(c_i, t_j\right), i, j=1, 2, \cdots, n\right\} . \end{gathered} $ (7)式中:α(ci, tj)表示内容主体ci参与讨论话题tj, w(ci, tj)表示该讨论关系所在的时间窗口。
3) 内容子网与情感子网间的超边Eci-ej的定义为
$ \begin{gathered} E_{c_i-e_j}=\left\{\left(c_i, e_j\right) \mid \alpha\left(c_i, e_j\right)=1, w\left(c_i, e_j\right), \right. \\ i=1, 2, \cdots, n, j=1, 2, 3, 4\} . \end{gathered} $ (8)式中:α(ci, ej)=1表示内容主体ci的情感倾向为ej,w(ci, ej)表示该情感关系所在的时间窗口。
4) 超边的时间窗口w(p, q)的定义为
$ \begin{gathered} w(p, q)= \\ \left\{k \mid(p, q) \in\left(E_{s_i-s_j} \cup E_{c_i-s_j} \cup\right.\right. \\ \left.E_{c_i-t_j} \cup E_{c_i-e_j}\right), \\ i, j=1, 2, \cdots, n\} . \end{gathered} $ (9)式中:k表示时间窗口序号;p和q为超网络中2个节点,且二者由超边相连。
1.2.3 超网络及超网络切片将文本流划分成连续等距的时间窗口,并对其中具有时序关系的文本集进行建模,每个时间窗口的数据集彼此平行,构造为超网络切片,即超网络切片内的所有超边具有同一个时序特征标识。将全部超网络切片叠加,彼此包含的相同主体用同一个节点表示,构造为超网络,即对于第k个超网络切片,剔除了超网络中时间特征非k的全部超边,以及剔除上述超边后节点度为0的社交节点和内容节点。
本文通过将时序特征构造为超边关系而非某一子网的节点,以一种简单的逻辑实现了随事件发展、数据新增更新模型;同时,同一时间窗口的数据既可以相对独立,用来开展静态的模型分析,又与其他时间窗口数据相关联,可以用来实现动态的模型分析。
1.3 基于超网络接近中心性的热点话题预测 1.3.1 热点话题发现与中心性算法社会网络分析理论认为,如果一个节点处于许多网络交往路径上,可以认为此节点居于重要地位,因为它具有控制其他两节点之间交往的能力。处于这种位置的节点可以通过控制或者曲解信息的传递而影响群体[27]。本文所述超网络模型,其网络结构是对网络舆情事件的多维抽象,能够表征与话题讨论相关的传播、社群关系、情感趋势等因素,而这些因素是评判某一话题是否为热点话题的核心因素。话题节点参与的超网络交往路径越多,即表明该话题的传播能力、引领社群交互与情感走向的能力越强。
中心性是衡量节点在网络中的角色及其对网络影响程度的指标。平亮等[28]在用户这一维度上应用中心性对微博社会网络进行分析。该方法可以扩展到超网络中。节点的中心性大小与节点在网络中的重要性呈正相关关系。网络舆情的热点话题就是在一段时间和范围内网民最关心的问题。因而,可以用话题节点在超网络切片中的中心性大小来衡量该话题是否为当前时间窗口的热点话题。
接近中心性(closeness)[29]是经典的中心性指标,其定义为节点到其他所有节点的最短路径长度的平均值;可以理解为利用信息在网络中的平均传播时长来确定节点的重要性[30]。节点的接近中心性的计算公式为
$ C_{\rm o}(u)=\frac{1}{\sum\limits_{i=1}^{n-1} d\left(u, v_i\right)}. $ (10)式中:u为待计算接近中心性的节点;vi为连通图中所有的所有的非u节点,i=1,2,…,n-1;n为连通图中所有的节点数量;d(u, vi)是节点vi和节点u之间的最短距离。
接近中心性适用于连通图,且其值受图的规模影响较大。对于不同时间窗口对应的超网络切片,其图的规模不同,且可能存在非连通图。为适应非连通图,并实现对不同规模图的节点接近中心性进行公平比较,定义变体接近中心性为
$ C_{\mathrm{WF}}(u, k)=\frac{n_u-1}{N-1}\left(\frac{n_u-1}{\sum\limits_{i=1}^{n-1} d\left(u, v_i\right)}\right) . $ (11)式中:k为当前时间窗口序号;N为当前时间窗口中超网络切片的总节点数;nu为当前时间窗口中,与节点u在同一最大联通子图的节点的数量。
1.3.2 热点话题预测与中心性变化率由于网络舆情事件话题的形成具有时域性,表现为话题的讨论在某个时间窗口前热度较低,而在该时间窗口中热度突增,因此可以用话题节点在临近时间窗口的超网络切片中的中心性变化率来衡量热度变化的快慢。选取热度上升快的话题作为当前时间窗口应重点关注的话题,它们在下一个时间窗口内具有更高概率成为热点话题,从而可以实现对热点话题的追踪和预警。
节点u在第k个时间窗口的变体接近中心性变化率G(u, k)为
$ G(u, k)=\frac{C_{\mathrm{WF}}(u, k)-C_{\mathrm{WF}}(u, k-1)}{1+C_{\mathrm{WF}}(u, k-1)}. $ (12)合理设置阈值GTH。若某话题在当前时间窗口的中心性变化率超过该阈值,该话题记为当前时间窗口应重点关注的热点话题。
2 研究实例 2.1 事件背景与数据预处理2021年5月22日,甘肃省白银市举办“第四届黄河石林山地马拉松百公里越野赛暨乡村振兴健康跑”活动。活动当日,受突变极端天气影响,局部地区出现冰雹、冻雨、大风灾害性天气,气温骤降,造成多名参赛人员伤亡。这场因局部天气突变导致的公共安全事件发生后,迅速在新浪微博上传播、发酵,网民围绕这一事件展开了多角度多话题的讨论。
本研究以“马拉松”为关键词,采样时间为2021年5月23日0时至5月26日24时,从新浪微博平台爬取“甘肃白银马拉松极端天气致多人死亡”这一网络舆情事件数据,具体包括:微博ID、微博文本、发布时间、发布用户、是否转发、转发原微博发布用户。初步清洗和预处理后得到有效数据共40 536条。
2.2 超网络模型搭建针对爬取并预处理后的有效微博数据,将2021年5月23日0时至5月26日24时划分为等长的32个时间窗口,构造4个维度的舆论超网络模型。其中:内容子网中的节点代表某条微博的文本内容;用户子网中的节点代表发布或转发某条微博的用户,用户子网内的超边表示两用户间存在微博的转发关系,用户-内容节点超边表示微博的发布关系;情感子网中的节点分别表示正向、中立、负向情感。以上都可由微博数据中提取得到,而话题子网的节点及包含话题节点、情感节点的超边不能直接获得,因此分别基于潜在Dirichlet分配(latent Dirichlet allocation, LDA)主题模型和Hownet情感词典对微博话题和情感进行数据准备。
2.2.1 基于LDA的话题发现对采集到的微博内容数据首先利用THULAC分词工具实现分词,并在词性筛选和去除停用词后,过滤得到有意义的名词组,用于替代原始微博内容数据。然后,基于LDA实现话题数目的选择、话题发现及话题标注。LDA构造了文档集-隐含主题-词汇集3个层次的Bayes概率模型,并将Dirichlet分布作为其共轭先验分布,从而可以将每条微博内容数据(即过滤后的名词组)先根据文档-主题的概率分布选取主题,再根据主题-词汇的概率分布选取若干个词汇来表征。最终,每个话题由一组关键词来表征,并对每条微博所属的话题进行自动标注。
LDA常用主题困惑度[31]确定最优主题划分数,该指标衡量各条微博内容数据属于不同主题的不确定性。困惑度越低,说明划分效果越好。当主题划分数为1~14时,主题困惑度变化曲线如图 2所示。由图 2可知,在主题划分数小于7时,随主题划分数增加,主题困惑度显著减小,主题划分数大于7时,主题困惑度的变化趋于平缓,故选取7个话题为最优主题划分数。
图 2 不同主题划分数的主题困惑度 图选项基于LDA进行主题发现,每个话题由抽取得到的一组关键词表示。各话题主要关键词见表 1。表 1中:话题“责任赔付”主要涉及事故原因的问责及遇难者亲属的赔付与谅解情况;话题“衍生问题”主要涉及网民对电视台马拉松开幕式重播事件的声讨、对有关单位的不满和官方回应;话题“赛事保障”着重讨论主办方物资和救援力量应提供的保障、赛事举办和熔断标准、参赛者应作出的生理和心理准备;话题“事故通报”主要包含极端天气与伤亡情况,以及遇害的残运会冠军相关情况;话题“救援认亲”主要涉及牧羊人及邻近村民救人情况和遇难者家属认亲情况;话题“事件还原”围绕遇难者生前最后的消息、亲历者发声、实地探访,还原事件全程;话题“科普知识”普及了在恶劣自然环境下的自救知识,并传播了有关大自然的知识。
表 1 话题及主要关键词表 话题 关键词 话题1:责任赔付 天灾/人祸/事故/悲剧/遇难者/家属/保险/协议/赔偿 话题2:衍生问题 重播/电视台/开幕式/新闻/工作人员/组委会/悲剧 话题3:赛事保障 全面/细节/政府/主办方/参赛者/活动/问题/准备 话题4:事故通报 天气/极端/大风/灾害性/气温/冻雨/冰雹/海拔/发布会/好友/残运会/冠军/奖金/事故 话题5:救援认亲 牧羊人/村民/大叔/救援队/救援/窑洞/景区/生命/体征/失联/医院/家属 话题6:事件还原 调查组/调查/事故/应急/省政府/新闻/原因/安全事件/发布会/情况/救助/现场/专家/亲历者 话题7:科普知识 运动/生命/跑步/身体/失温/体温/运动员/挑战/人体/地震/能量 表选项在抽取话题的基础上,LDA对每条微博内容计算了所属各话题的概率,并选取所属概率最大的话题作为它的主题划分,从而可以抽取得到超网络模型中对应的话题节点和相关超边。
2.2.2 基于Hownet的情感标注微博内容数据的情感判别由知网情感词典Hownet实现。该方法设置情感词库,其中每个词对应一个情感倾向度的权值。然后,针对文本中的每个句子,提取所有的情感词并根据情感词前后的程度副词、句式修正情感得分,累加后得到文本的情感分数。由此实现微博内容数据的情感判别,抽取得到超网络模型中对应的情感相关超边。
2.2.3 模型展示搭建4个维度的舆情超网络模型,超网络结构(子网、超边类型及连接关系)如图 3所示。
图 3 超网络结构 图选项该模型能独立地表征某一特定时间窗口内的舆情特征。图 4展示了第26个时间窗口的数据构造的超网络切片。比较不同超网络切片结构,可实现对舆情事件演化的研究。
图 4 时间窗口26对应的超网络切片(部分) 图选项不同时间窗口的数据通过共同的节点实现交互。图 5展示了某官方媒体在不同时间发布多条文本分别讨论不同的话题和表达不同情感的情况。可以看到,在不同时间窗口中共同存在的社交节点、话题节点和情感节点不会重复构造,时间信息通过节点间超边的时序特征体现。
图 5 超网络中某官方媒体相关节点(部分) 图选项 3 结果分析 3.1 热点话题发现计算各话题在不同时间窗口内的变体接近中心性,得到网络舆情事件发展全程的各话题热度变化曲线,如图 6所示。
图 6 网络舆情事件发展全程的各话题热度变化 图选项由图 6可知,在该网络舆情事件发生的前期,网民关注的核心热点话题为事故通报,此后对该话题的关注波动性减少;随着网络舆情的发展,新的信息出现,衍生问题、救援认亲、事件还原、科普知识等话题的热度依次分别出现峰值,占据讨论热点;在事件发展的后期,责任赔付话题占据讨论的主流。此外,赛事保障话题在事件发展的全程都具有较高热度,且热度变化按日规律性波动。
3.2 热点话题迁移随着网络舆情事件的发展,旧的话题演进孕育出新话题,话题间彼此具有联系。以赛事保障话题为例,讨论赛事保障话题的微博常转发讨论责任赔付话题的原微博,其自身又常作为讨论科普知识微博的原微博出现。图 7展示了在时间窗口4内,参与赛事保障话题的用户转发了讨论责任赔付话题用户的微博并作出评论,同时该用户发布的微博也被其他用户转发到科普知识话题并讨论。
图 7 时间窗口4内参与赛事保障话题的用户社群(部分) 图选项由3.1节对各话题热度的分析发现,各话题热度依次出现峰值,因此整体来看,热点话题在不同话题间传递迁移,不同话题的热度变化具有相关性。责任赔付-赛事保障-科普知识3个话题具有典型的演进关系。
1) 责任赔付话题到赛事保障话题的话题演化与热点迁移。
图 8绘制了责任赔付话题在第3~27个时间窗口内热度变化曲线和赛事保障话题在第8~32个时间窗口内热度变化曲线,可以看到二者趋势相近;计算二者Pearson系数为0.778 2,构成强相关。
图 8 责任赔付话题与赛事保障话题热度比较 图选项由此可知,赛事保障话题与责任赔付话题是相关的,且前者相对后者有5个时间窗口的延迟。基于语义进行分析,在对已发生事故进行定责后,微博用户转向关注对未来同类事件的预防准备具有合理性,即话题从责任赔付迁移到赛事保障。基于模型结构进行分析,考虑参与讨论2个话题的是相近的社群,信息通过转发在社群中传递,话题在社群中演化发展。两话题社交节点的交互如图 9所示。
图 9 赛事保障话题与责任赔付话题交互社群 图选项2) 赛事保障话题到科普知识话题的话题演化与热点迁移。
同理,赛事保障话题在第11~26个时间窗口内热度和科普知识话题在第16~31个时间窗口内热度趋势相近(如图 10所示),且构成强相关(Pearson系数为0.691 9)。如图 11所示,信息在相近的社群中交互传递,促成话题演化和热点迁移。
图 10 赛事保障话题与科普知识话题热度比较局部 图选项 图 11 赛事保障话题与科普知识话题交互社群 图选项 3.3 热点话题预测在网络舆情的实时监控和预警中,有2类话题需要重点关注:1) 当前的热点话题,该话题在下一时刻仍然有较大可能是热点话题;2) 当前热度虽低但热度增长快的话题,该话题在下一时刻有较大概率成为新兴的热点话题。热度增长的快慢可用变体接近中心性变化率表示,见式(12)。
计算各话题在不同时间窗口内的变体接近中心性变化率,得到网络舆情事件发展全程的话题热度变化率,如表 2所示。取热度变化率最大的前10%的值作为超过阈限的值,得到阈值为11.9×10-3。表 2中加粗数字表示超过阈值,对应话题为当前时间窗口热度增长最快的若干个话题之一。据此在不同时刻可以动态选择若干个应重点关注的话题,来辅助预测下一时刻的热点话题。
表 2 不同时间窗口的话题热度变化率 时间窗口序号 话题热度变化率/10-3 责任赔付 衍生问题 赛事保障 事故通报 救援认亲 事件还原 科普知识 4 6.4 9.3 8.5 -39.8 0.9 6.5 0.9 5 0.9 -1.1 4.9 -19.2 15.5 -1.3 1.8 6 1.3 7.0 5.3 -2.2 -10.7 21.6 2.1 7 1.7 -1.7 2.3 8.7 -0.8 -15.0 0.2 8 1.9 -1.0 -1.8 7.8 -5.2 -1.3 -1.5 9 2.0 3.5 1.3 12.2 -1.5 -6.0 -3.1 10 21.3 -1.0 -9.8 -15.5 -6.0 6.5 -5.4 11 -3.1 0.2 7.4 -2.1 11.9 7.8 8.7 12 5.8 14.9 -3.6 -7.0 0.1 0.0 8.0 13 -18.1 32.7 -3.5 14.7 -10.5 -15.5 7.7 14 -8.5 0.1 2.4 -9.8 7.4 -5.5 -1.9 15 2.7 -3.0 19.7 -8.4 -0.4 -0.2 -6.2 16 4.7 -28.4 0.6 -1.8 -0.8 9.7 -14.3 17 -5.2 -3.2 -4.1 0.0 -4.2 -6.4 -3.3 18 2.0 -26.2 2.2 -8.9 -11.2 3.9 -7.3 19 11.3 45.1 -7.7 6.6 39.3 3.4 10.0 20 3.0 2.1 -8.3 0.6 1.9 11.9 9.4 21 -8.8 -20.7 0.0 -1.3 -16.1 13.1 -2.2 22 15.4 -9.6 -1.1 2.2 -5.2 -9.2 -0.4 23 10.7 -8.6 -3.7 -3.0 0.0 -20.4 0.5 24 -1.2 -3.4 10.9 0.1 -3.3 3.1 4.3 25 -4.0 -3.9 7.0 -16.0 -2.3 -6.8 -17.9 26 7.7 -10.9 -5.2 -0.5 -1.9 0.7 -3.2 27 1.6 20.8 -5.8 0.1 4.2 1.9 14.3 28 -7.7 -1.8 12.8 4.0 10.0 2.5 3.0 29 -32.9 -10.9 8.2 5.7 -9.0 -0.5 -1.2 30 5.5 10.0 -0.1 -10.7 -2.1 -17.3 1.5 31 -2.1 0.0 -5.9 2.0 11.3 10.0 2.3 32 3.8 8.9 1.0 4.5 -15.3 -14.0 3.5 表选项比较表 2得到的重点话题和图 6的在各个时间窗口中的话题热度曲线,可以发现在网络舆情事件刚刚发生时(第1、2个时间窗口),话题尚未完全分化,从时间窗口4开始,各话题开始分化。1) 责任赔付话题。该话题的热度变化率分别在第10、22个时间窗口超过阈值,有效预测了该话题在第11、23个时间窗口是新兴热点话题。2) 衍生问题话题。该话题的热度变化率分别在第12、13、19、27个时间窗口超过阈值,有效预测了该话题在第13、14个时间窗口是新兴热点话题,并在第20、28个时间窗口热度达到局部极大值。3) 赛事保障话题。该话题的热度变化率分别在第15、28个时间窗口超过阈值,有效预测了该话题在第16、29个时间窗口是新兴热点话题。4) 事故通报话题。该话题的热度变化率分别在第9、13个时间窗口超过阈值,虽然不是热点话题,但热度分别达到了局部极大值。5) 救援认亲话题。该话题的热度变化率分别在第5、11、19个时间窗口超过阈值,有效预测了该话题在第20个时间窗口是新兴热点话题,并在第6、12个时间窗口热度达到局部极大值。6) 事件还原话题。该话题的热度变化率分别在第6、20、21个时间窗口超过阈值,有效预测了该话题在第21、22个时间窗口是新兴热点话题,并在第6个时间窗口热度达到局部极大值。7) 科普知识话题。该话题的热度变化率在第27个时间窗口超过阈值,虽然不是热点话题,但预测了该话题在之后的时间窗口内热度不断上升的趋势。
4 总结对突发事件网络舆情热点话题治理,本文从以下3个角度进行研究:
1) 针对已有网络舆情事件模型信息结构描述困难、表征不全面的问题,本文构造了包含社交子网、内容子网、话题子网、情感子网4个维度的超网络模型,为挖掘具有复杂网络特征的网络舆情事件信息提供了通用模型。
2) 针对既有超网络模型对于时间信息表征不明的问题,提出了超网络切片的概念,将时间作为子网间的连接特征,构造时序超网络。该方法以一种简单的逻辑实现了随事件发展,新时间窗口内模型的更新;同时,同一时间窗口的数据既可以相对独立,用来开展静态的模型分析,又与其他时间窗口数据相关联,可以用来实现动态的模型分析。
3) 针对已有研究中热点话题的发现受限于文本语义的问题,本文使用多维超网络表征网络舆情事件,摆脱了以往对网络舆情热点话题相关因素的孤立解释,有效利用了多舆情要素与热点话题的内在联系,可作为语义缺失的有益补充。在此基础上,进一步提出用变体接近中心性和变体接近中心性变化率来衡量在不同时间窗口的话题热度,实现热点话题的识别和追踪,并辅助进行热点话题的预测,能够为实时态势研判预警、舆论引导提供参考。
经“甘肃白银马拉松”案例验证,本方法不仅能够准确发现热点话题,还可以结合多维特征跟踪热点话题的演化迁移情况,预测下一时段的热点话题,为真实情境下的网络舆情治理提供直观有益的指导。