基于质量安全信息的舆情监测系统研究
2018年6月07日 08:59 作者:郑兢摘要:近年来我国产品质量安全问题频繁发生,不仅引起了社会恐慌而且造成了国家巨大的经济损失,甚至在一定程度上会影响我国在国际贸易中的信誉。产品质量危机是公共危机的一种形式,但是其安全问题是涉及范围最广、影响公众生命健康最直接的一种公共危机。由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情监控系统,及时应对网络舆情,由被动防堵,化为主动梳理、引导。
关键词:舆情、风险监测、质量安全
1、引言
近年来,随着新媒体的迅猛发展, 我国网络舆情的影响日益巨大。自2008年以来, “三聚氰胺”, “一滴香”、“瘦肉精”事件以及近期出现的“摇摇车”、“电梯事故”等一系列质量安全问题的出现,都在社会中产生了巨大的负面影响,产品质量安全的网络舆情的数量和影响持续上升,对政府舆论应对能力提出新的挑战,加强产品质量安全网络舆情监控管理研究的现实需求十分迫切。
当前国内在国内质检数据较为封闭的环境下,与互联网的联动和应用也预示着质检行业在大数据时代中的一种尝试。
2、舆情检索技术
网络舆情监测系统是一项复杂而庞大工程,它涵盖了几乎所有的互联网领域的基本技术,但从系统的功能实现上看,舆情监测系统的关键技术是由数据采集和关键信息提取技术构成的。
2.1 数据采集
网络爬虫是当前主流网络搜索引擎使用的技术,也是舆情监测工具中处理网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面的主要工具。
网络爬虫的实现方式是通过访问网页中的超文本链接,自动抓取互联网内部的程序或者脚本。
2.2 通用型爬虫与主题性爬虫介绍
当前主流的网络爬虫技术主要分为通用型网络爬虫技术和主题性网络爬虫技术。通用型网络爬虫的主要目标是大量采集信息页面[1],有较高的网络覆盖率,但其盲目的抓取会下载大量的垃圾页面,浪费网络资源。
主题型爬虫以自定义的主题信息为出发点抓取信息,基于此假设:如果网页U与主题相关,并且页面V到网页U通过一个超链接进行连接,那么抓取页面V的主题相关度比从网页中随机抓取的页面相关度要高。[2] 与通用型爬虫不同之处在于主题型爬虫可专门面向某一特定主题进行搜索,对于质检行业所关注的产品、标准、项目有更好的适应性。
2.3 主题型爬虫的工作方式
主题型爬虫的运行过程大致为:
1. 将搜索到的页面和各种信息项放到一个信息集合项中;
2. 分析每个信息项,将其中的基本信息单元作为索引,并形成索引库。同时建立一个存储Web页面的metadata数据库。
3. Web浏览器将用户通过浏览器的查询请求通过HTTP协议传到搜索引擎,搜索引擎利用索引库找到相关文档并返回Web页面,或者将URL列表以及相应的摘要反馈给Web浏览器的用户查询界面。
4. 用户获得Web页面摘要信息或者信息项的列表,若想查看其中具体的内容,则点击标题访问,浏览器在matadata数据库的支持下通过HTTP协议从信息的原始位置取回Web页面或其他信息。
2.4 主题型爬虫的爬行策略
实现主题型爬虫最常用的策略是PageRank和HITS算法,其共同点是根据页面与主题的相似程度来确定主题的相关度,并根据主题的相关度来评估子网页的重要性。[3]
RageRank算法可以得出网页的重要程度,进而对其权威性进行评价。
HITS算法也是一种通过网页链接来评估网页重要性的算法。相较于PageRank算法,HITS算法在网页链接与用户需求主体的关联性上有所改进。
3 质量舆情系统架构设计研究
质量舆情系统统是一个分布式互联网数据搜集与挖掘系统,系统的模块分为6层:数据抓取、数据预处理、数据提取、数据索引、数据检索、API/Web service与平台展示。
3.1 数据预处理
预处理包括网页噪音去除和语义分析。
噪音去除: