干货:详解《十九大的大数据语义分析报告》分析过程

热度219票  浏览1064次 【共0条评论】【我要评论 时间:2017年10月23日 17:45

非常荣幸地,我们上周的《十九大的大数据语义分析报告》得到业界的青睐与赏识。本着技术探索与交流的初衷,本着知识传播与分享的责任,小编决定为大家详解这份报告的分析过程。自然语言处理与信息检索共享平台Cc6xMS7iG(Ip"z

一、资料与工具自然语言处理与信息检索共享平台~g4s5C:OVl

1、资料来源:十九大报告全文自然语言处理与信息检索共享平台)[Q5c(P9Zd(iu*[;h |X

2、分析工具自然语言处理与信息检索共享平台0d:gx1CapRX+h9U

自然语言处理与信息检索共享平台}];Ag)}+y#h!G

  •  NLPIR-Parser
自然语言处理与信息检索共享平台OQ,IDYB/Z5Z

自然语言处理与信息检索共享平台HA9R)IMV#T+p;_

NLPIR-Parser是融合了自然语言理解、网络搜索和文本挖掘的技术,针对互联网内容处理需要的文本搜索与挖掘开发平台(NLPIR在线演示平台:http://ictclas.nlpir.org/nlpir/),平台提供了用于技术二次开发的基础工具集。NLPIR-Parser下载地址:https://github.com/NLPIR-team/NLPIR/tree/master/NLPIR-Parser)

C#O$q5d f;Dz F~0

lCo[4p L0
  • tagxedo词云图制作工具

U7aH n z0自然语言处理与信息检索共享平台l-H/YKdy tn*t

Tagxedo是一款可以自定义云的外形的文字云在线生成工具。自然语言处理与信息检索共享平台7E kl6K(V:u ^5a h

在线地址:http://www.tagxedo.com/

(D {(Rd%r'RL$n(?&C0

二、目标与内容自然语言处理与信息检索共享平台"HgDlv |df2k

目标:通过NLPIR大数据语义智能分析技术,全面解读十九大报告,领会十九大思想。自然语言处理与信息检索共享平台 CG8V"K8R#y$MD

分析内容:关键词提取、词频统计、新词发现。自然语言处理与信息检索共享平台Sc.V hY$i

三、分析过程

&CM7sz"a9~/ef0

1、十九大报告文本分析

.w F9kB2I"a0

首先,下载NLPIR-Parser文件(根据前文提供的下载地址),运行NLPIR-Parser.exe程序,界面如图:自然语言处理与信息检索共享平台2f3pZkAo

自然语言处理与信息检索共享平台@(O9D qd,[5j3W

1 NLPIR-Parser界面自然语言处理与信息检索共享平台r c0xP,cT

NLPIR平台的十二大功能:新词发现、批量分词、语言统计、文本聚类、热点分析、摘要提取、智能过滤、情感分析、文档去重、HTML正文提取、全文检索和编码识别转换,用户可根据需要选择使用。自然语言处理与信息检索共享平台+Q A:b^hw

然后,在第一个功能模块,使用十九大报告全文作为语料源,分别进行新词与关键词提取的分析操作。提取过程如下:

3C5q{:\(G|0

自然语言处理与信息检索共享平台 }U:P]T0ya

2 新词提取自然语言处理与信息检索共享平台%JCES6M0C9hSq3I

新词、关键词分析内容包括:词语、词性、权重和词频统计,NewTermlist(output文件夹)是新词提取结果文件,keylist是关键词提取结果文件(相同路径)。十九大报告3万余字,提取的关键词约3000个,新词约100个。后面词云图的制作将以此数据为基础。自然语言处理与信息检索共享平台YV;dyE&g%`

$L'|K,In4l5gE0

3 关键词提取文件自然语言处理与信息检索共享平台 kd.tl{v G2R e

其中,关键词数量较多,如何选择重点核心词汇表现十九大中心思想呢?我们可以根据词性、权重、词频、长度、词本身意义的完整性等各种筛选条件对关键词做整理,选取适量(top100)的词突出展示。

)~?0zK?!y0l Y*X0

2、tagxedo词云图制作自然语言处理与信息检索共享平台8o!d6u&o-V,][jc-v

工具说明自然语言处理与信息检索共享平台&TR#o-F~ p9T|*A l

首先,进入tagxedo在线地址:http://www.tagxedo.com/,首次访问的用户需要下载安装Silverlights,界面如下所示:自然语言处理与信息检索共享平台,T"R:{9T{)A$L m

自然语言处理与信息检索共享平台$Eq n.Y0sJ&]/q4B'R dwk

4 Tagxedo界面

7RZ:rH9g"{(R0

Tagxedo词云图制作方法简单,容易操作,小编在此就几项主要功能点做说明。自然语言处理与信息检索共享平台\"d4SDXk+G

Respins:主题、字体、方位的设置会较大程度上影响展示效果,也是凸显个性化设计的部分,用户可根据自己需要选择。其中,方位设置推荐“H/V (Orthogonal)”。

Ykgz;^N)dxp0

Options:“shape”,背景图选择,可自己添加背景图“add image”。自然语言处理与信息检索共享平台t'_5T wb[

“Word/Layout Options”:这部分对中文很重要。主要是两个选项:Word选择Apply Nonlatin Heuristic设定No,这样就不会把中文分词(否则都是单词和内容分词了);Skip选择不需要的词或标签。自然语言处理与信息检索共享平台V%Mb{ v2L2t

词云图制作自然语言处理与信息检索共享平台Lk.t\9f

熟悉工具之后,我们就可以利用NLPIR分析的关键词与新词数据文件进行个性化的词云图的制作了。

gwjYe9A6R0

第一步,将前文整理的关键词top100文件上传(或复制数据)。第二步,设置各项属性、参数,背景图添加自定义党徽图片,词云图便可生成,如下所示:自然语言处理与信息检索共享平台#?v&Yo-?/bY Kg^

,t+Hi1t$woe0

5 关键词top100自然语言处理与信息检索共享平台 F7Ltt h

词频统计和新词发现词云图制作方法与关键词类似,在此不做赘述。自然语言处理与信息检索共享平台]%K)Lwi2Pen

四、总结

t.m.\|/V!b0

在信息爆炸的时代,利用大数据思维解决问题一直是我们提倡的理念。此次分析报告是一次技术应用的新尝试,分析过程与结果当然有待完善补充,但我们要强调的是:让技术推动变革,拥抱生活,才能更好的服务人类!自然语言处理与信息检索共享平台 L&`~IW#@o F.c#q.R

顶:22 踩:8
对本文中的事件或人物打分:
当前平均分:-0.83 (63次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.84 (69次打分)
【已经有57人表态】
18票
感动
5票
路过
7票
高兴
3票
难过
6票
搞笑
6票
愤怒
7票
无聊
5票
同情
上一篇 下一篇
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有0位网友发表了看法】