NLPIR智能语义对《红楼梦》前后作者同一性判别

热度110票  浏览314次 【共0条评论】【我要评论 时间:2018年1月12日 10:01

自然语言处理与信息检索共享平台UGc;`#MJ

一、背景介绍

jW!T3mP7lR ?0

《红楼梦》前八十回和后四十回到底是不是同一个作者?我们都在读书的时候学过《红楼梦》的作者有两个!曹雪芹写了前八十回,高鹗续写了后四十回。然而,红学上关于《红楼梦》的作者争议一直很大,存在着很多种版本。

-F4Q+Yd}| d"q0

“红学史”上“高鹗续作《红楼梦》后四十回”的说法,最早出于清代文学家张问陶。当时,张问陶有《赠高兰墅(鄂)同年》诗。诗题自注云:“传奇《红楼梦》八十回以后俱兰墅所补。”《绘境轩读画记》记载说,曹雪芹“《红楼梦》小说,称古今平话第一。嘉庆时,汉军高进士鄂酷嗜此书,续作四十卷附于后,自号为‘红楼外史’。”自然语言处理与信息检索共享平台0H+g y-B b7rl

清代著名《红楼梦》评论家张新之指出,《红楼梦》80回前后在思想、结构上、人物性格发展上都具有高度的一致性,他在《红楼梦读法》中写道:“一部《石头记》,计百二十回,沥沥洋洋,可谓繁矣,而实无一句闲文。有谓此书只八十回,其余四十回乃出另手,吾不能知。但观其中结构,如常山蛇,首尾相应,安根伏线,有牵一发浑身动摇之妙,且此句笔气,前后略无差别——重以父兄命,万金赠,使闲人增半回,不能也。何以耳为目,随声附和者之多?”

Y-I?;I7f` u5N0

二、输入数据自然语言处理与信息检索共享平台a2}fI j`+H

1、资料来源:《红楼梦》全集文本数据

%`&W)Pu]0

2、数据格式: UTF-8自然语言处理与信息检索共享平台Fx V oQI0h ep-r

三、分析工具

fR2~Mbev h0

 NLPIR-Parser

v_/RkM.s t4~0

NLPIR-Parser是融合了自然语言理解、网络搜索和文本挖掘的技术,针对互联网内容处理的需要的文本搜索与挖掘开发平台(NLPIR在线演示平台:http://ictclas.nlpir.org/nlpir/),平台提供了用于技术二次开发的基础工具集。NLPIR-Parser下载地址:https://github.com/NLPIR-team/NLPIR/tree/master/NLPIR-Parser。下载完成后运行NLPIR-Parser\bin-win64NLPIR-Parser.exe 即可。自然语言处理与信息检索共享平台-V9oVg_1dq

 虚字的选择自然语言处理与信息检索共享平台EM/vO~|`6jZ'H:U

每个人的写作都有些小习惯,虽然文章前后说的内容会有差别,但是这些用词的小习惯不容易改变。由于前80回和后40回情节上的不同,涉及情节的词也就有所不同。但是每个人使用虚词的顺序与数量可能存在着差异。

4t Pl\'Vb(S-Ea7X+v?0

本文根据1987李贤平发表的《〈红楼梦〉成书新说》一书中选择的四十七个虚字。简介如下:

L1`.K6W't |"[!t&L0

(1)十三个文言虚字:之、其、或、亦、方、于、即、皆、因、仍、故、尚、乃

.P/d'p,mIs!wG0

(2)九个句尾虚字:呀、吗、咧、罢咧、啊、罢、罢了、么、呢。

7mYUtTj`0

(3)十三个常用的白话虚字:了、的、着、一、不、把、让、向、往、是、在、别、好。自然语言处理与信息检索共享平台"VhU$@8x

(4)十个表示转折、程度、比较等意的虚字:可、便、就、但、越、再、更、比、很、偏。自然语言处理与信息检索共享平台| oIx9O

(5)后缀于名词的“儿”字和后缀于副词、形容词和动词的“儿”字。自然语言处理与信息检索共享平台0L.`_!F)c-LKO

  KL距离自然语言处理与信息检索共享平台S#N,X#Qv

KL距离(相对熵)可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度。其公式为 自然语言处理与信息检索共享平台Ll L7OUp2D

自然语言处理与信息检索共享平台N ~Q0?9oOwt

四、结果及分析自然语言处理与信息检索共享平台@2GT"t c7HuG(L2Q?g

本文将《红楼梦》一百二十回按顺序均分为三、六、十二等份,将其命名为“三组”、“六组”、“十二组”。将各组作为语料源,使用NLPIR各组数据分别进行批量分词的分析操作。然后统计出文言虚词的词频。最后对不同组数据之间进行KL距离计算。自然语言处理与信息检索共享平台I rl s g`R6biM

接下来以“三组”为例详细介绍,“六组”与“十二组”等同。将一百二十回按顺序均分为三等份即第1回-第40回、第41回-第80回、第81-第120回。统计出四十七个虚字在每组的词频及概率。“三组”数据中部分虚词以及该词的概率如表1所示,其中概率值得计算为本组数据中某个虚词的个数与本组数据虚词的总数的比值。

0WE)]I4cR0

根据KL计算公式将表2中的行所在回数的各个虚词的概率值记为P(x),将表2中列所在回数的各个虚词的概率值记为Q(x)。其它组实验等同。例如计算第1回-第40回与第41回-第80回的KL值时,公式中的x表示某个虚词,P(x)表示x在第1回-第40回中的概率。Q(x)表示x在第41回-第80回中的概率。需要注意的是D(P||Q)与D(Q||P)不同。自然语言处理与信息检索共享平台 tkj#r/_-q3D

1 各个虚词在各组的频率及概率

ND3Qf GP_0

7QRG(Q8~XLn2C0

3组数据的KL值结果如表2所示。从表中可以观察到第一行中1-40与81-120的KL值是1-40与41-80的KL值的十倍。由于当两个随机分布的差别增大时,它们的相对熵也会增大。所以1-40与81-120的相似性比1-40与41-80低。

cL-|u;L2_ c3e.Z0

2 “三组”数据结果自然语言处理与信息检索共享平台(e6]Z8d&VD w K

自然语言处理与信息检索共享平台e_C8{]/A c;Y

2对应的直观图如图1,可以观察到第1回-第40回与第41回-第80回的相似性较大,第1回-第40回和第41回-第80回与第81-第120回的相似性出现明显变化。

T1hy(Uw|Q"?0

自然语言处理与信息检索共享平台ncgED9F+@

1 “三组”数据结果

%`4oE2p@#s8r [o0

“六组”将120回按顺序均分为六等份即第1回-第20回、第21回-第40回、第41-第80回、第81回-第100回、第101-第1200回。自然语言处理与信息检索共享平台tcBFr

6组数据的结果如表3所示。对应直观图如图2所示。自然语言处理与信息检索共享平台 fT)A OR

3 “六组”数据结果自然语言处理与信息检索共享平台f.I/o1f}7Z

自然语言处理与信息检索共享平台4E!vP)m/`G;l

根据当两个随机分布的差别增大时,它们的KL值也会增大。发现前四等份在跟后两等份进行比较时KL值会明显增加。同时后两等份在跟前四等份进行比较时KL值会明显降低。

.{.o&PUDfr!b,E0

自然语言处理与信息检索共享平台cQiR|\0C_)l L

2 “六组”数据结果

;QV5zK0\0s1Vev%X0

“十二组”将120回按顺序均分为十二等份即第1回-第10回、第11回-第20回、第21-第30回... ...第111-第1200回。这12组数据的结果如表4所示。

"nT+?2Pt0

4 “十二组”数据结果

:d\J2UN0

自然语言处理与信息检索共享平台!r+]Le1Z p6g d&L m'T

从表4中可以观察到前八十回中的任意一组数据在与一百二十回的其他组比较时,与后四十回的各组数据的KL值比与前八十回其他组数据的KL值高。当两个随机分布的差别增大时,它们的KL值也会增大。自然语言处理与信息检索共享平台mn)ZY Z-L(|

自然语言处理与信息检索共享平台(__+wd.gj

3各组与后四十回均分的4组数据的对比自然语言处理与信息检索共享平台/A+{'U/Gysv;qA

3为一百二十回与后四十回均分的4组数据的对比图。可以看出前八十回的各组数据的KL值与后四十回的数据的KL值有不同程度的差距。后四十回之间的KL值比其他组得KL值要小,说明后四十回的相似度较高。

M2xB#Ec-x0

经过一系列的分析,前八十回与后四十回确实在用词习惯上有明显的区别。可以大胆猜测后四十回是出自于另外一个人。自然语言处理与信息检索共享平台 ]7i"pw(Xc)h*MM

顶:14 踩:3
对本文中的事件或人物打分:
当前平均分:-1.21 (34次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.57 (30次打分)
【已经有29人表态】
10票
感动
4票
路过
6票
高兴
1票
难过
2票
搞笑
1票
愤怒
1票
无聊
4票
同情
上一篇 下一篇
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有0位网友发表了看法】