评价网络舆情系统的eCIA方法 – NLPIR自然语言处理与信息检索共享平台

自然语言处理与信息检索共享平台 自然语言处理与信息检索共享平台

评价网络舆情系统的eCIA方法

 




















             很多企业纷纷看到了网络舆情监测的巨大需求以及潜在利益,大肆炒作。笔者从2000年在科学院开始涉足网络舆情的研究与实际监测系统的研发,前前后后接触到了众多的研究者,用户、各类专家以及打着舆情旗号炒作造势的商业公司,评审过几乎所有的所谓“舆情系统”。感觉鱼龙混杂,炒作成分过多,忽悠的太离谱,误国误民误投资者累见不鲜,甚至花样都没有太多创新。某跨国公司号称为FBI等服务,舆情监测能力超强,演示起来超级漂亮,忽悠了很多国家级机构,但某机构4年前花巨资(至少300万)购买之后,至今一直荒废在机房,全部打水漂。某公司本身拿了一套开源的采集检索系统,也号称是舆情监测系统,最后也所赚颇丰。类似的案例太多太多,笔者帮不少单位处理了很多类似的烂尾工程,看到了太多专家忽悠人(所谓“流氓有文化”),非常痛心,痛心国家有限的投入被滥用,痛心客户一腔热血换来一夜凄凉。

人们在舆情监测方面往往被别有用心的商业机构宣传所误导,下面笔者结合多年潜心的舆情计算研究经历,避开各种技术名词,尝试从网络舆情系统的评估方法进行阐述,以正视听。

            网络舆情监测主要从下面四个方面(取简称为eCIA)进行评估:

1.              高效性(efficiency) :

舆情情报的高效性往往被人忽视,实际上,海量信息带来的信息爆炸与信息淹没,导致信息失去功效。现有舆情系统收集到的各种文章90%以上的信息是与用户无关的,大量是重复冗余的,据说美国911发生之前已经接到了预警情报,但是没有有效地过滤出来,淹没在各类情报资料当中,解读的代价太高,最终事发后才发现情报就在情报官的办公桌上。现有的舆情监测系统往往缺乏有效机制快速筛选并保存有价值信息,因此,要求舆情监测系统必须提供人工智能的方式学习各种情报样本,将有潜在价值的情报从海量信息库中挖掘过滤出来,从而提高解读的效率。

2.              全面性(Completeness) :

       主要包括信息来源的全面性与内容的全面性;信息来源的全面性:是否覆盖论坛、博客、跟帖、回帖等,每类通道是否覆盖主流的网站,能否覆盖绝大部分网站或者频道,能否采集主流的网站,比如天涯、新浪博客,现有系统的主要问题在于信息庞杂缺流于片面;

3.              及时性(Instantaneity) :

       网络舆情监测与传统搜索引擎最大的区别就在于其时效性强。高效性包括两个方面采集性的高效与信息情报解读的高效性。

       采集高效性要求信息从发布到舆情监测系统收录时间越短越好,传统搜索引擎的延迟往往是一周,最快的新闻资讯搜索也有几个小时的延迟,而这对舆情监测,尤其是证券以及涉及国家安全等重要领域的舆情监测往往要求延迟在分钟级,现有系统一般都在小时级别,甚至是天级别的。

4.              精准性(Accuracy) :

         舆情信息往往鱼龙混杂,是非难辨;因此要求能精准的抽取舆情各类要素,如:文章的正文、摘要、作者、发表时间、以及用户的点击浏览量、回帖数、评论数等。准确地进行倾向性的识别,发现发帖人的真正态度。

        根据笔者的了解,当前大多数舆情系统主要是基于严格规则的,扩展性差,只能解决部分重点网站,背后有大量的人工成本(往往在100人左右的运维队伍);已有的解决方案性能差,时效性不足,准确性差;在舆情的分析与监控方面,目前尚没有成熟的实用产品。话题的表征、提取、追踪都是重大挑战。详见笔者的拙著 “考察网络舆情系统的四大要素”

You May Also Like

About the Author: nlpir

发表评论