Statistics and Application 统计学与应用, 2023, 12(4), 833-842 Published Online August 2023 in Hans. /journal/sa  /10.12677/sa.2023.124087
基于LDA 主题模型杭州亚运会微博话题分析
董韶琦,郑  静
杭州电子科技大学经济学院,浙江 杭州
收稿日期:2023年7月4日;录用日期:2023年7月25日;发布日期:2023年8月7日
为了探索杭州亚运会预热阶段新兴媒体传播的结构和内容,帮助相关部门更高效地进行舆论监管与引导,本文创新性地对亚运会传播内容进行LDA 主题模型的构建。本文在新浪微博爬取与杭州亚运会相关内容,
构建亚运会文本的隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)模型,采用困惑度评价指标确定模型最优主题数,然后用框架和语境理论分别从结构和内容挖掘相关文本内涵。结果显示,亚运会预热传播内容主要围绕娱乐宣传、参与人员、基础设施、起止仪式、市场合作、竞技项目6个框架展开,展示出人们对杭州举办此次亚运会的肯定与期待;同时亚运会也为我国经济尤其是杭州经济的发展起到一定的促进作用,也为对内对外经济合作提供了契机。
关键词
杭州亚运会,微博,LDA 模型
Analysis of Microblog Topics of Hangzhou Asian Games Based on LDA Topic Model
杭州电子科技大学
Shaoqi Dong, Jing Zheng
School of Economics, Hangzhou Dianzi University, Hangzhou Zhejiang
Received: Jul. 4th , 2023; accepted: Jul. 25th , 2023; published: Aug. 7th
, 2023
Abstract
In order to explore the structure and content of emerging media communication in the warm-up stage of the Hangzhou Asian Games, and help relevant departments to more effectively supervise and guide public opinion, this paper innovatively constructs the LDA Topic model for the commu-nication content of the Asian Games. This paper builds a Latent Dirichlet Allocation model for the text of the Asian Games by crawling Sina Weibo content related to the Hangzhou Asian Games, uses Perplexity evaluation indicators to determine the optimal number of topics in the model, and then
董韶琦,郑静
uses the framework and context theory to mine the relevant text content from the structure and content. The results show that the warm-up communication content of the Asian Games mainly revolves around six frameworks: entertainment promotion, participants, infrastructure, start and end ceremonies, market cooperation, and competitive projects, showcasing people’s affirmation and expectation of Hangzhou hosting the Asian Games; At the same time, the Asian Games have also played a certain promoting role in the development of China’s economy, especially in Hangzhou, and p
rovided opportunities for domestic and foreign economic cooperation.
Keywords
Hangzhou Asian Games, Weibo, LDA Model Array Copyright © 2023 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
/licenses/by/4.0/
1. 引言
2015年9月16日,经过亚奥理事会代表大会的投票,杭州获得2022年亚运会主办权,成为继北京
和广州之后第三个举办亚运会的中国城市。杭州2022年亚运会以“中国新时代·杭州新亚运”为定位、“中国特、浙江风采、杭州韵味、精彩纷呈”为目标,秉持“绿、智能、节俭、文明”的办会理念,坚持“以杭州为主,全省共享”的办赛原则。亚运会原定于2022年9月10日至25日举办,但由于疫情原因,推迟至
2023年9月23日至10月8日举办。此次杭州亚运会是杭州重要外交活动,是展示杭州风貌,提升杭州国际国内形象的良好机会。
随着互联网等科学技术的不断创新发展,社交网络的不断成熟,人们发表看法言论的平台逐渐从传统的报纸等媒体转移到一些新兴媒体平台上,逐渐改变了原有传统媒体占主导地位的情况。新媒体以其自身强大的沟通能力和实时交互性,吸引了越来越多的民众主动参与到公共事件的讨论中,并表达个人观点。其中,新浪微博以其自身强大的时效影响力和具备快速发布、传播信息的独特优势成为我国最主要的互联网社交媒体平台之一[1]。本文在之前一些学者对LDA模型研究的基础上,首次对与此次杭州亚运会相关内容进行探究。以微博为平台,从框架和语意内涵两方面探索杭州亚运会预热阶段新兴媒体传播的结构和内容,为完善传播实践体系提供相关方向和建议。
2. 国内外研究现状
隐狄利克雷模型本质上是一种无监督的概率主题模型,具有广泛的适用性,国内外许多学者以此模型为基础展开研究。Aakansha Gupta等[2]提出了一个基于LDA的PAN-LDA主题模型,并运用该模型将新冠病例数据和新闻文章合并到通用LDA中,以改进时间序列数据的预测。Zhang等[3]为了解决传统推荐算法存在数据稀疏、不注重推荐结果多样性等问题,使用LDA提取有关电影评论的主题,并识别与主题相关的情感倾向。在面对文本数据具有非结构化、特征稀疏时,Wang等学者[4]在词汇意义共现分析和LD
A主题模型的基础上,提出了一个CL-LDA词意共现主题模型,通过提高主题生成的质量来完成对短文本的主题挖掘任务。2012年,Ozyurt等学者[5]针对LDA不适合用来处理短文本的缺点,提出了一种适用于短文本的隐狄利克雷分配方法SS-LDA。为了挖掘出更多能够代表文档的主题信息,宁宁等人[6]通过融合LDA主题模型和Doc2vec算法得到一种主题向量表示和文档向量表示方法。Sakshi和
董韶琦,郑静
Kukreja Vinay [7]根据提取的研究领域确定突出的识别模型,从提取的研究趋势中绘制发展图表,以指导未来的工作。
针对亚运会各个方面的准备工作,许多学者都进行了研究。基于杭州的地理位置及气象历史数据,任勇等[8]根据赛会核心区内雷电流幅值年最大值的平均值,计算了雷击点与屏蔽空间距离不同时,场馆处无
衰减的磁场强度值,为场馆雷电防护及内部电子信息系统设计提供依据和参考。作为一种被“重新发现”的地区文化,良渚文化在中国文明进程中具有极其重要的地位和作用。单凯等学者[9]通过对良渚文化对外传播与2022年杭州亚运会宣传良性互动内容的考察,探讨良渚文化与亚运文化实现合作共赢的协同发展条件,并为杭州亚运会宣传建设以及推动良渚文化深度国际化提供文化传播对策。
但2022年杭州亚运会宣布延期举办,构成了突发性的体育公共事件,对相关宣传工作产生了不利影响。杨柯[10]采用分类统计的方法,按照选题的不同类型,对多家杭州地方媒体微博端的发稿进行归类。通过分析发稿数量和类型的变化,研究危机发生后,媒体调整议程的方法、策略和缺失,文章提出了强化核心议题、强化众报道两项建议,旨在为突发性体育公共危机中宣传策略的调整提供应对参考。
3. 理论基础
3.1. LDA 模型
本文采用隐狄利克雷模型进行文本聚类分析,LDA 模型的优势在于它可以自动将文本编码为一定数量具有实质性意义的主题,以此来提高效率,减少人为干预负担,其模型结构如图1所示。
Figure 1. Schematic diagram of LDA model structure
图1. LDA 模型结构示意图
LDA 模型分为文本、主题和词语三层,具体过程如下所示[11]: 1) 按照先验概率()i P d 选择一篇文本i d ;
2) 从以参数为α的的迪利克雷分布中随机生成文本i d 对主题的多项分布i θ; 3) 从文本i d 对应主题的多项式分布i θ中随机生成个j 个词语主题,i j z ; 从以参数为β的迪利克雷分布中随机生成主题,i j z 对应词语的多项式分布,i j Ψ; 4) 综合主题,i j z 对应词语分布情况,i j Ψ生成词语,i j w 。
3.2. 困惑度
通常用困惑度来衡量一个概率分布或概率模型预测样本的好坏程度,可以将困惑度看作交叉熵的指数形式,两个模型越接近,交叉熵越小,困惑度也越小[12],它也可以用来比较两个概率分布或概率模型。它的计算方式为,对于给定测试集12N W w w w = ,将困惑度定义为测试集概率的倒数,并用单词数做归一化。
()()
1
12N
N PP W P w w w −
==
使用链式法则来计算()P W :
董韶琦,郑静
()
PP W=如果使用bigram模型,公式为:
(
)
PP W=
词序列的条件概率越高,困惑度越低,也就是说,模型生成能力越强,困惑度值越小。
4. 数据收集与数据处理
4.1. 数据来源
微博作为热点传播的一个重要社交媒体,截止2022年四季度末,月活跃用户达到5.86亿,日活跃用户达到2.52亿,成为网络舆情的重要诞生地。本文利用python获取微博中关于杭州亚运会的相关博文,以“杭州亚运会”为关键词,选取2015年1月1日~2022年9月1日为时间段,共得到31,459篇博文。
4.2. 数据预处理
对获取到的数据进行清洗,主要是删除重复以及空白内容等,处理后共得到28,354篇博文。再利用python软件进行中文分词、去除停用词、词干提取等。
4.3. 确定主题个数
对于预处理之后的文本数据进行困惑度的计算,确定主题数。结果如图2所示,随着主题数的增大,困惑度逐渐减小。按原理来说,困惑度应是越低越好,那么就应当选择更多的主题数,但是当主题数过多时,模型会出现过拟合状况。从图2中可以看出,几个较为明显的转折点在主题数为0~2、2~4、6~7处。当主题数在0~2之间时困惑度过高,应当排除。2~4个主题数与6~7相比较,6~7的困惑度相对较低,因此主题数在6和7之间考虑。为了避免主题数过多出现过拟合状态,所以本文最终选择6个主题数
来进行分析。
Figure 2. Line chart of perplexity - number of topics
图2. 困惑度–主题数折线图
董韶琦,郑静4.4. 主题可视化
进行LDA主题建模之后,将其可视化,便可以知道每个主题出现的频率,同时也可以检测通过困惑度确定主题数的效果。
可视化结果如图3所示,气泡的大小编号表示每个主题出现的频率,同时主题之间的位置远近表示各主题之间的接近性,气泡若有重叠则说明两个主题的特征词有重叠交叉部分。从图3中可以看出,主题气泡之间均存在一定距离,交叉部分较少,因此主题识别效果较为理想,选择6作为主题数是较为合理的。
Figure 3. Maximum theme LDA visualization
图3. 最大主题LDA可视化图
5. 结果分析
5.1. 模型的话题框架
主题框架重复的频率越高,强度越强,发挥的作用越大。因此,本文采用词云图形式,进一步展示LDA主题聚类结果,更加清晰地分析各个框架的频率和强度。图4为新浪微博上关于杭州亚运会相关博文中频率和强度最高的6个主体框架,分别为Topic1娱乐宣传、Topic2参与人员、Topic3起止仪式、Topic4市场合作、Topic5基础设施、Topic6竞技项目。各个主题框架的频率从Topic1到Topic6依次减小,框架中的每个关键词也有不同的权重,由词云图中单词的大小表示。
Topic1为娱乐宣传,频率为0.266,是新浪微博中讨论最多的框架,框架频率和强度均排在首位。从词云图中可以看出,此框架主要由代言、代言人、公益、大使、品牌、圆梦、视频、工作室、艺人等话题构成,说明前期宣传中,网民对于明星代言、公益大使等话题比较感兴趣。因此,邀请艺人做亚运会形象大使、公益大使,并让他们担任亚运会代言人,用明星的影响力进行亚运会宣传活动大致可以达到
理想中的效果。