我实验室成功上线知识图谱自动构建云平台-web protege汉语版 - 自然语言处理与信息检索共享平台 ICTCLAS 自然语言处理 信息检索 精准搜索 智能挖掘 NLPIR - Powered by SupeSite

我实验室成功上线知识图谱自动构建云平台-web protege汉语版

热度832票  浏览891次 【共0条评论】【我要评论 时间:2016年4月27日 16:13
近日,在北理工张华平博士的带领下,对protege汉化后又对webprotege进行了汉化,并成功上线,使大家可以在线进行知识图谱语义本体的自动构建。
T%RM [%W/~0
知识图谱语义本体已经成为当今在大数据应用领域共同关注的前沿课题,目前被广泛应用于自然科学与人文科学领域。相比较以往的可视化技术存在一系列缺点,新兴的知识图谱可将某个学科领域或者知识单元间错综复杂的交互关系用节点与链接等现代可视化大数据技术进行处理与展示,使人们可以清晰直观的了解某个学科或者领域发展进程中的知识结构、研究趋势等。运用知识图谱能够有效的从众多数据中获取知识,也是目前人们从浩如烟海的数据中获取知识的一种有效方法。 
                                        webprotege汉化版

W_m)Vx @.I3`R0
Protege软件是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件。这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具。相比与其他的本体构建工具而言,Protégé最大的好处在于支持中文,在插件上,用Graphviz可实现中文关系的显示。为了方便大家,在北理工张华平博士的带领下,对protege汉化后又对webprotege进行了汉化,并成功上线,使大家可以在线进行知识图谱语义本体的自动构建。
知识图谱语义本体的构建流程图

知识图谱包括实体与关系
   
节点代表实体   连边代表关系   事实可以用三元组表示(head, relation, tail)自然语言处理与信息检索共享平台!wZ/kP"Z x;F


自然语言处理与信息检索共享平台MiX9Pr-\M

概念发现自然语言处理与信息检索共享平台+K o*E;crR9c

1.格式解析

!I;G|FQ9d0

PDFWordXML等主流文档,抽取出结构化的文本信息。

_|hB8p)W0

2.分词标注

)@"{)^8md,vCw0

NLPIR-ICTCLAS分词系统可以融合已有本体库,实现专业领域的分词标注。3.概念发现

a["KG#^5k0

   (1).NLPIR-ICTCLAS新词发现可直接从原始语料中直接发现新词、新概念。

(HQ/]6r0{q0

   (2).采用基于规则与统计相结合的方法实现从新词中过滤筛选本体概念。自然语言处理与信息检索共享平台!mb!|)|-d(_

自然语言处理与信息检索共享平台i2T:u7c5T L

关联计算

XVR*W P*W5_ b.Id0

使用POS-CBOW模型对数据进行训练,然后对数据完成关联关系分析。自然语言处理与信息检索共享平台0dYC9|O|v\

POS-CBOW方法综合了词性、词的分布特点,采用word2vector改进模型,通过训练,自动提取出了语义关联关系。如果训练文本为专业领域的生语料,该模型可以产生专业领域的本体关联关系。

&_w2gPyja!F0

ck:H#sq1v)b;eW[0


Jc(v-N*IHD0自然语言处理与信息检索共享平台Uxd;H$^`,b

依存句法分析 自然语言处理与信息检索共享平台*_n'PVW9o^jIzq

自然语言处理与信息检索共享平台[%zIO/pt{x-M

自然语言处理与信息检索共享平台8A"ZV/Wm6`N

关系抽取自然语言处理与信息检索共享平台DM-E5e ?m/y6Tj

实际上是实体与关系的抽取,一般是通过上面提到的三元组方法不断迭代实现。自然语言处理与信息检索共享平台@Y x?.J&k_uN7S

例:

m*o,e]3C uKU0

1、通过“XY的首都”模板抽取出(中国,首都,北京)(美国,首都,华盛顿)等三元组实例;

2u7y%H&J;UcRg}0

2、根据这些三元组中的实体对“中国-北京”和“美国-华盛顿”可以发现更多的匹配模板,如“Y的首都是X”、“XY的政治中心”等等;

KiH N&f.^ ^+p0

新发现的模板抽取更多新的三元组实例,通过反复迭代不断抽取新的实例与模板。

mGFU U0

集成验证

q!zx |u$w'dCJ,px"i0

构建工具---- Protégé

)X7rn:V@9@P}8B0

1.OWL:W3C开发的一种网络本体语言,用于对本体进行语义描述。

]/j@V _FAy0

(Class)、个体(Individual)、属性(Property)

A$Y0\2cg0

 自然语言处理与信息检索共享平台/~ D4`;K!X6Q g-h

2. Protégé: 斯坦福大学基于Java语言开发的本体编辑和知识获取软件,是语义网中本体构建的核心开发工具。

"euI;i$R'L oi0 效果展示:

$D%q)d&Zb0Hsd.\g0自然语言处理与信息检索共享平台t.fAA)I L/] mI\

自然语言处理与信息检索共享平台I,D6a;PF H5n"U#Z

顶:65 踩:69
对本文中的事件或人物打分:
当前平均分:-0.12 (254次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.4 (223次打分)
【已经有221人表态】
40票
感动
28票
路过
24票
高兴
25票
难过
23票
搞笑
25票
愤怒
24票
无聊
32票
同情
上一篇 下一篇
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有0位网友发表了看法】