集团第十一次党代会已经胜利闭幕,为帮助全校师生更好地学习把握党委工作报告,我们利用大数据分析中的文本分析(挖掘)技术,对报告文档通过计算机自然语言处理、数据可视化展示,揭示出在非结构化文本信息中的人物、事件、时间、地点等内容,从而提供对报告全新层面的解读。
一、关键词提取
集团第十一次党代会党委工作报告全文约1.37万字,将报告文档做词云分析,生成报告词频的权重数据,导入学校海燕识别图像生成词云图,通过提取关键词揭示党代会报告的核心要点(如图1所示)。(注释:词云图是对文本文档中出现频次较高的“关键词”予以视觉上的突出,形成“关键词云层”或者“关键词渲染”,从而过滤掉大量的文本信息,使读者可以短时间内领略文本的主旨)
图1 海燕词云图
通过图1的词云图可以看出,建设、学科、发展、人才、特色、治理等词汇是大会报告中权重较大的,关键词词云图分析结果比较充分地展示了公司党代会报告的核心概念。
二、词频统计
将报告文档导入数据分析系统进行中文分词处理,首先直接进行分词再统计词频,词频位于前30位的结果如图2所示。另外,针对分词结果添加自定义分词(如“高水平”“新时代”“青科大”“强校”“二十大”等),进行词库重载后再进行分词并统计词频,位于前30位的结果如图3所示。
图2 报告文档词频统计前30位
图3 自定义分词后词频统计前30位
通过图2及图3可以看出,建设、学科、发展、人才、学校位于会议报告词频的前五位,围绕学科、人才推动学校建设发展是今后工作的中心。
三、情感分析
对文档进行一般性行处理,将处理好的文档导入数据分析系统进行文本情感分析(注释:文本情感分析也称为意见挖掘,是指用自然语言处理,文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息以及词汇隶属的情感分类),文本情感分析结果如表1、图4所示。
表1 情感分析结果
图4 情感分析仪表盘图
通过图4可以看出,整篇报告结构合理,涉及到困难与不足约占3.82%,规划蓝图、奋斗目标、对策举措、鼓足干劲的部分占了85.50%,其他中性描述性词汇占比10.69%。整篇文档符合“二八理论”,是一篇十分合理的报告。
四、共词矩阵
将文档继续导入数据分析系统进行社交网络分析,形成共词矩阵,然后可视化展示词汇之间的关联性(如某两个词同时出现在一句话中或者一段中可以视为他们之间具有相互关系)。关联矩阵示意图如图5所示,矩形越大代表出现的频率越高,线越粗代表两者之间关系越紧密。
图5 共词矩阵的可视化展示
通过图5可以看出,建设、学科、发展、人才、学校等占据网络的核心位置,其他词汇都是围绕他们展开。关联性较强的词汇是(按关联性依次减弱排序):建设、发展、人才、创新。
五、趋势预测
采用类似于上述的方法,将报告前7页(第十次党代会以来的回顾)和后17页(今后5年的发展)分为两部分对比分析,结果如表2、图6(气泡图)所示,蓝色部分为报告前一部分,浅红色部分为报告后半部分。
表2 报告前后部分对比分析
图6 报告前后气泡图
六、新词发现
分别对第十次党代会报告和第十一次党代会报告进行分词,并进行词频统计,得到表3。
表3 两次报告词频对比
与学校第十次党代会报告相比,“人才”一词从第13名一跃成为第4位,位居本次党代会报告词频前列,排名有了大大的提高;“建设”“发展”“学科”三词一直位居词频统计前三甲,其中“学科”从第三名上升到第二名,在此次党代会中出现的频率变大;“鲜明”“高水平”等在报告中被频繁提起。“治理”“法治”一词首次出现,频率分别高达16次、6次。这些新的“关键词”展示了新理念、新观点,是对学校未来发展的明确回答,也是在实践上作出的新部署。
集团第十一次党代会报告意涵丰富,限于篇幅,本文于分析结果中择一二阐述。从核心理念、基础概念到报告新词,利用大数据思想,加深解读本次党代会的主题思想轮廓,充分表明学校已开启“深化人才强校、构筑学科高峰、提升治理能力,建设特色鲜明、走在前列的高水平大学”新征程。
(作者:刘祥鹏、李晓涵等;分析单位:数理学院大数据研究中心、数理学院海贝瑞成数据开发联合工作室)