基于DTM模型的政府公文公告主题研究
作者:闫盈盈
来源:《中国管理信息化》2020年第21期
        [摘 要] 创新性地提出了政府公文公告主题研究方法。基于动态主题模型(Dynamic Topic Models,DTM),学习不同时间段政府公文公告数据的文档-主题分布和主题-词语分
布的信息,通过统计分析与可视化分析,展示政府公文公告的主题及主题下词语演化情况。选取贵州省人民政府网站和贵阳市人民政府网站的公文公告数据,选择2017年7月至2018年7月的数据进行分析,实验结果表明,本文提出的方法能够有效帮助公众理解政府发文的主题情况及关键词语内容。
        [关键词] 政府; 公文公告;DTM;主题分析; 演化
        doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 21. 067
        [中图分类号] TP391 [文献标识码] A [文章编号] 1673 - 0194(2020)21- 0151- 05
        1 引 言
        目前,全球已进入大数据时代,每两年互联网上的数据会翻一番,未来,数据将会成为全球最有价值的资产,政府数据作为钻石富矿,占据中国数据总量80%以上的份额[1]。激活沉睡在档案袋、文件夹里的政府数据资源,实现政府数据资源价值变现,将驱动地方政府实现经济发展转型,提升社会治理能力、公共服务能力,增进民生福祉,推动数字经济发展。利用大数据方法和手段激活政府数据价值,提升政府治理能力越来越成为政府部门、政府大
数据研究者的使命和研究焦点。
        近年来,我国学者对政府数据进行了大量的探索[2-6],然而,这些探索大多采用CNKI为数据源,利用传统的数学统计方法进行数据分析和处理,通过可视化的方法揭示政府的政策、主题、范围、倾向等状况。显然,基于文献的研究属于间接政府数据研究,一定程度上,直接的政府数据研究更能够揭示政府的工作状况。此外,在文本、图像、视频等数据处理方面,机器学习、自然语言处理、概率图模型、深度学习等主流的大数据分析与挖掘方法被广泛应用在各行各业的数据分析实践中。但很少有研究聚集在政府公文公告方面。因此,本文利用动态主题模型(DTM)[7],揭示了不同层级政府在公文公告主题方面的区别与联系,有利于公众更加清晰地了解政府公文公告的主题演化趋势与主题词选择倾向。
        2 政府公文公告
        政府公文公告的主题分析包括两个过程,数据获取与预处理、动态主题提取。首先,从政府网站爬取公文公告数据形成语料库,利用文本预处理方法对抓取的数据进行数据清洗获得较为规整的文本语料;其次,通过动态主题模型从文本语料库中提取时序主题信息,完成统计分析。
        2.1 数据获取与预处理
        使用网络爬虫的方法从“贵州省人民政府”网站、“贵州省贵阳市人民政府”网站按照一定的规则,批量抓取已公布的公文公告数据,主要抓取标题和正文内容,形成规模较大的语料库。爬虫分为两个模块,页面抓取和数据清洗。页面抓取模块通过初始URL,向对面的服务器发送请求,获取页面的静态或动态代码。数据清洗模块通过解析DOM树或其他方面,将需要的数据从页面代码中清洗出来,并获取下一个爬取的URL,开始新的数据抓取与预处理。
        2.2 动态主题提取
        通过动态主题模型获取动态时序主题。主题模型是一类无监督的机器学习算法,能够挖掘大规模文档集中潜在的主题信息,本质为一种主题聚类方法,将一篇文章表示为若干主题的概率集合,一个主题表示为若干词语的概率集合,将相似度较高的文档聚集在一个主题之内[8]。动态时序主题模型是在传统主题模型[9]的基础上引入了时间特征。
        将省级、市级的政府公文公告数据分别按照一定的时间段划分。通过动态主题模型DTM,可以获得每一个层级,每个时间片的主题分布、主题-词语分布,通过统计分析,可
以得到各主题信息和各主题下词语的信息。基于主题以及词语信息,可以实现深度的政府公文公告数据挖掘与分析。
        3 DTM主题模型
贵阳市人民政府网        DTM模型是一種无监督的动态时序主题模型。其基本思想分为两个部分。首先,将整体时间按照一定的时间段大小进行划分,将文档集合中的文档根据其内在的时间戳信息划分到相应的时间片中。其次,对每一个时间片中的文档子集通过LDA进行主题挖掘得到主题随时间动态演化的情况。每一个时间片上的分布结果根据之前一个时间片的主题训练结果进行动态变化。概率图模型如图1所示。
        图中符号解释如表1所示。
        采用EM算法进行参数推断,需要推断的参数包括超参数αi、隐变量φk,i、ηd,i、以及每个词语的主题标识zd,n,i。具体推断过程见文献[6]。另外一种较为简洁的方法是基于Gibbs采样的方法[10]。
        4 实验
        4.1 数据集选取与分析
        爬取贵州省与贵阳市人民政府网站的所有公文公告数据,并以“半年”为一个时间片进行划分统计,如图2所示。
        从图2可以发现:
        (1)贵州省每半年发布公文公告的数据量在500篇上下浮动,需要特别说明的是2011以前的数据为2056篇,该节点是对2010年12月31日以前的所有数据进行计数统计。
        (2)贵阳市2017年上半年之前的数据数量多为个位数,甚至为0,可推测贵阳市人民政府网站公布的公文公告数据具有一定的时效,会不定期的清理和更换,仅保留最新一年左右的数据。因此,由于贵阳市2017下半年的数据量过小,不能够继续用于不同层级的公文公告关联分析研究。
        (3)对比2017年下半年至2018年上半年的贵州省与贵阳市人民政府网站的公文公告数据,贵阳市的发文数量远高于贵州省,尤其是贵阳市2018年的上半年的数据属于陡增趋势。
        本文选取2017年下半年与2018年上半年的数据作为主题提取与分析的数据集。将数据划分为T=4个时间片,每个时间片为一个季度。每个时间片的统计信息如图3所示。
        本文选取2017年下半年与2018年上半年的数据作为主题提取与分析的数据集。将数据划分为T=4个时间片,每个时间片为一个季度。每个时间片的统计信息如图3所示。
        从图3可以发现,贵阳市的发文数量远高于贵州省的发文数量,可猜测贵阳市会积极响应贵州省的发文号令,推动贵阳市经济社会水平不断向前发展。数据集文档词语信息如表3所示。