黄昌宁-清华大学教授 – NLPIR自然语言处理与信息检索共享平台

自然语言处理与信息检索共享平台 自然语言处理与信息检索共享平台

黄昌宁-清华大学教授


黄昌宁



  中国计算机自然语言处理领域的”趟路人”和集大成者黄昌宁1937年生于广东,1955年考入清华大学电机系,1961年毕业并留校任教至博士生导师, 1983-1984年赴美国耶鲁大学进修,1986-1987年曾在香港理工大学任教,1999年4月加入微软中国研究院任主任研究员。
  1955年,年仅十八岁,风华正茂的黄昌宁以优异的成绩考入清华大学电机系,在这里,一批卓有成就的教授让他受益菲浅,其中自动控制系的首任系主任、麻省理工大学的博士钟士模教授给他留下的印象尤为深刻。黄昌宁所学的专业是清华大学在国内率先建立的计算机和自动控制专业,当时是按照国防部门的要求来招生的,学生毕业后大多从事导弹、原子能反应堆和加速器控制系统的研究和设计。毕业后黄昌宁的大多数同学都去了军工行业,他则选择了留校担任助教。
  在70年代,黄昌宁曾因主编大学教材《晶体管电路》而成为扬名清华的教授,该书在国内的发行量逾百万册。随后,他的译著《人工智能原理》及《LISP语言》填补了当时国内的空白,引起了很大的反响。进入自然语言处理研究领域后,黄昌宁的事业又达到了一个新的高峰。他开始主持自然语言处理领域的多项国内、国际合作项目,并多次被邀担任国际学术会议的主席或程序委员会主席,或作大会特邀报告;目前黄昌宁还担任国内《中文信息学报》的主编,同时也是美国《ACM亚洲语言信息处理专刊》、新加坡《中文与东方语言信息处理学会通讯》、日本《自然语言处理》、香港《中国语言学评论》、台湾《计算语言学与中国语言处理》等众多国际学术刊物的特约撰稿人和编委。
  挑战权威
  ”我有一个信念,自己想做的事就要做得比人家都好。就像我当年打排球和棒球一样,一到赛场必然问自己:我干什么来了?就是要赢嘛!”黄昌宁一直这样说。
  1983年黄昌宁远赴美国耶鲁大学进修,主攻人工智能和自然语言理解方面的研究。黄昌宁后来回忆说,耶鲁大学的那一年对他一生所从事的研究是一个很重要的转折。他说,他并不是为学位而去读书的,而是出去看看国外的研究是怎样做的,又是如何进行评价的。
  当时的耶鲁大学计算机系系主任尚克教授是美国人工智能学会的主席,从事自然语言理解的研究已有十多年历史,是80年代初美国这一研究领域中的权威,他倡导的概念依存理论当时正处于鼎盛时期,曾经得到学术界许多人的推崇。尚克认为他已经把计算机、语言学、认知心理学等各个学科结合得非常好了。在对尚克的一片赞同声中,黄昌宁却表现得相当冷静,只想看看尚克的语言理解系统能否 “长大”。因为他清醒地认识到,大学实验室里的研究和现实生活有时会有很大的差别。他很快就发现了尚克理论的一些缺陷。尚克认为计算机对自然语言的分析几乎可以不要句法就直接进入语义解释。黄昌宁经过对尚克系统的仔细考察,发现他的学说虽然可以在某个特定领域里实现,但一旦扩展到其它应用领域时就困难重重了。”问题的关键是,我们的系统不能只是在实验室里表演,重要的是能够真正扩展开来!”黄昌宁坚持说。
  黄昌宁认为,计算机对自然语言的分析首先要在词汇和句法上得到认知,然后才能获得意义的表达,尤其对于大规模真实文本的处理更是如此。他举了一个例子,比如设计一个气象预报的机器翻译系统,肯定能做好,因为这个领域里的词汇大概只有500多条,而且大多是地名和少量常见动词,译准率会很高。但是要做一个一般用途的机器翻译系统就难了,因为这包括太多的词汇和语法现象。黄昌宁的观点后来得到证实:80年代末,尚克学派宣告解体,尚克本人也退出了自然语言研究领域。
  献身科研
  1984年3月,黄昌宁结束了在耶鲁大学的进修,按时返回国内,从此就再也没有闲下来。
  80年代初,自然语言处理研究在国内还几乎是个空白,比美国则落后了二十年。黄昌宁把这门学科的思想带回中国,其中心是如何通过计算把一句话的意思或一段话的内容用某种形式化的方式表示出来,这种表示就是所谓的语义网络。这时黄昌宁体会到自然语言处理实际上就是建立在计算机基础上的语言研究,他深感自己所缺乏的并不是计算机方面的知识,而是语言学知识。因此回国以后他开始和语言学家们进行广泛交流。除了尚克的概念依存理论,黄昌宁回国后还先后涉足了其它先进技术的研究,其中包括复杂特征集和合一语法及统计语言模型等。
  1985年,黄昌宁同时挑起了三副担子,一是”七五”国家攻关项目-自然语言理解和人机接口;二是国防预研项目—军事文本理解技术;三是清华大学和南京大学合作的”日汉机器翻译系统”,该项目后来获得国家教委科技进步二等奖。不久黄昌宁开始将目光投向海外,80年代末他相继主持了几个国际合作项目:第一个是日本富士通公司的阿特拉斯日汉翻译系统,当时富士通公司已经有了英日翻译,但是汉语的翻译是他们无法回避的问题,黄昌宁和他的研究队伍经过三年努力成功完成了这项研究。1990年,日本通产省投资5000万美金开发亚洲多国语言机器翻译系统,该系统涵盖了日、中、马来、印尼和泰等五种语言。这个翻译系统采用国际上先进的 “中间语言” 技术。中间语言是句子意思的一种形式化表示,通过它可以生成任何一种语言。上述五个亚洲国家参与了这个项目,中文部分由当时的电子部来承担,黄昌宁则担任中方专家组组长和中方技术负责人。1995年,黄昌宁又代表清华大学和DEC公司进行了英汉翻译的科研项目。他领导的清华小组还曾多次向微软和IBM等公司有偿转让一些科研成果。
  受聘微软
  1998年秋,当时微软中国研究院正处于建院之初,求贤若渴的院长李开复博士在香港约见了正在香港大学讲学的黄昌宁,动员他加盟微软中国研究院。两人第一次见面,就谈到自然语言处理研究的前景和微软的发展机会。两人谈得十分投机,都有相见恨晚的感觉。”士为知己者死”,黄昌宁引用了这句话。1999年4 月,他走进微软中国研究院时已年逾六旬,是研究院里年龄最大的研究人员,当时研究人员的平均年龄只有30岁。黄昌宁说科学研究要有一个开放的环境,微软研究院的环境正是如此,这正给他提供了一个实现自己宿愿的机会。黄昌宁特别欣赏比尔·盖茨对未来计算的一个想法,那就是有一天能够让计算机用自然语言与人类进行交流。他说:“这正是自然语言研究的最终目标,而且微软将最有可能使我们的研究成果转化成产品,造福世界上成千上万的用户。”目前,黄昌宁领导的研究小组专注于三个研究课题:一是帮助中国用户写英文;二是帮助中国用户阅读英文;三是帮助中国用户做跨语言的网页搜索。黄昌宁希望前两项技术能够尽快被微软产品部门接受,成为微软下一代OFFICE软件中的一个组件。
  黄昌宁的研究很快在理论上也得到认可。在自然语言研究领域,最权威的学术会议是国际计算语言学学会(ACL)年会,其论文录取率不足25%。但今年10 月,在香港召开的第38届ACL年会上,黄昌宁领导的研究小组却有6篇论文入围。在大会所接受的70篇论文中,其质量和规模都引起了广泛关注。
  踌躇满志
  信息抽取是近年来美国国防部关注的一个研究方向,目的是直接从报纸或网页的自然语言文本中抽取出指定信息以帮助人们在某些领域对事态的发展动向作出判断并制定相应策略。这样的研究在经济领域和国家安全保障方面都有重要的应用前景。黄昌宁认为网络时代处理最多的仍然是语言文字信息。人工智能的某些领域可能正在衰亡,但是自然语言的研究不会萎缩。
  他还认为:大规模真实文本的处理是自然语言研究领域的一个重要方向,主流技术不是传统的语言学方法,而是语料库方法。语言学和应用联系密切,其发展必须要靠社会需求的驱动,不是哪一个人所能决定的。现在的数字图书馆和搜索引擎都是同大规模文本打交道的实例。
  黄昌宁领导的研究小组正在有条不紊地推进他们的研究课题,黄昌宁希望自己的小组能够创造出更多世界一流的语言信息技术,使得人们能够在网络时代更轻松自然地使用计算机。

You May Also Like

About the Author: nlpir

发表评论