The Web as a Parallel Corpus

热度2041票  浏览808次 【共0条评论】【我要评论 时间:2011年5月08日 22:23

|fv vCT'I;^0The Web as a Parallel Corpus
Z$D+W%Ih7m:ZkGe"k0Philip Resnik∗ Noah A. Smith†
#U"r@M8y4`0University of Maryland Johns Hopkins University自然语言处理与信息检索共享平台 J8@ G4N\F H g3L
Parallel corpora have become an essential resource for work in multilingual natural language自然语言处理与信息检索共享平台6_p-|;Y;j-@AN
processing. In this article, we report on our work using the STRAND system for mining parallel自然语言处理与信息检索共享平台} YF Y5y
text on theWorldWideWeb, first reviewing the original algorithm and results and then presenting
9LqaT%u.e4t0a set of significant enhancements. These enhancements include the use of supervised learning自然语言处理与信息检索共享平台4lTB4I2| f j0{ y
based on structural features of documents to improve classification performance, a new contentbased自然语言处理与信息检索共享平台~f0ait
measure of translational equivalence, and adaptation of the system to take advantage of the自然语言处理与信息检索共享平台6nE7`in:sSd
Internet Archive for mining parallel text from theWeb on a large scale. Finally, the value of these自然语言处理与信息检索共享平台R1qU,Y&]3?;~{
techniques is demonstrated in the construction of a significant parallel corpus for a low-density自然语言处理与信息检索共享平台!Sp%N1z_,C-^
language pair.

:c4@R-\K5s0

rZ6__CkQ&f0Philip Resnik,Noah A. Smith2007 Computational Linguistics

Xqw:A:qIk0 自然语言处理与信息检索共享平台D RU*f8j6Y#[

  The Web as a Parallel Corpus.pdf(430 KB)自然语言处理与信息检索共享平台;sO aq/e

TAG: Corpus Web
顶:120 踩:162
对本文中的事件或人物打分:
当前平均分:-0.15 (614次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.23 (554次打分)
【已经有591人表态】
124票
感动
57票
路过
57票
高兴
66票
难过
71票
搞笑
68票
愤怒
73票
无聊
75票
同情
上一篇 下一篇
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有0位网友发表了看法】