第22部分 (第1/4页)

���桓市模�锤刺崞鹄础!胺凑�闶窃撼ぃ�闼底鼍妥霭伞!贝蠹宜怠S械阆翊鲎宓钠盟�冢�玫亩际抢渌��

他跟我说你能做也得做,不能做也得做。我说我肯定做,而且肯定能做出来。不过,要允许下联有多个候选,还要允许人机交互。另外,我需要时间。我当时可说是穷困潦倒,自然语言组不足10人,有两名骨干即将转到微软别的部门去。还有几个项目同时在做技术转移,包括搜索引擎的拼写检查。大家还要赶写很多文章。我就从清华大学中文系招了一位同学,他的名字是马艳军,听上去像一个女孩的名字,人也是彬彬有礼的。

我设计了一个简单的模型,把对联的生成过程看作是一个翻译的过程。给定一个上联,根据字的对应和词的对应,生成很多选字和候选词,得到一个从左到右相互关联的词图,然后根据一个动态规划算法,求一个最好的下联出来。一个好的下联其评价标准也很简单,第一就是它跟上联的对应程度,一般用词和词的对应概率来代表,第二就是生成对联的语言模型,就是衡量它像不像一个对联。马艳军在我的指导下,在两个多月的时间里,根据这个思路,就做了一个简单的对联生成系统出来。我于是向沈向洋报告进展,这也是沈向洋第一次审核这个项目。

微软对联背后的故事 周明(2)

在他办公室里,我给他看了这个简单的系统输出的几个结果。他看过之后,很惊讶地说,看来我们有戏呀,继续努力吧!马艳军三个月之后,导师要求他回去,我只好去找语音组帮忙提供新的学生。我曾经在语音组干过半年的经理,有点人缘。周健来很慷慨地介绍了吴法洲同学,他是清华软件学院的研究生,曾经帮助健来做了手机上的输入法。吴法洲同学来了之后不久,我又请我的实习生蒋龙同学加入。后来沈向洋让他在北航的预定将来要读他的博士的两位实验学院的大四同学加入这个研究小组。女孩子叫陶李天,男孩子叫苏昊。我当时又请了北京大学中文系的两位同学整理从网络上挖掘的对联数据以及生成的对联词典。

后来是每隔三个月,沈向洋就会安排一次评审。每一次都鼓励说,大有进步。每一次都强调“要多挖数据呀,没有数据不行啊”。为了加强数据挖掘,他特别请王坚派人帮助加强数据挖掘。王坚就派了陈伟柱来,我就请伟柱帮助从网络上挖掘更多的对联数据。伟柱果真了不起,在两个月的时间里,很快挖掘了大批的对联数据。有了更多的数据,系统的性能得到了大幅度的提升。然后大家就讨论能不能把横批做出来。蒋龙同学很聪明,在一次开会的时候提出了一个方案——通过语义距离计算来和已有的上联、下联的句子最佳匹配的横批。苏昊根据这个方案实现了横批模块。我们于是就盼望着下一次给沈向洋做汇报的时候给他一个惊喜。当时的院长助理李世鹏安排了时间。在五楼的一个会议室里面,我给沈向洋和李世鹏演示了最新的对联系统。沈向洋出了一个上联:“李敖对联强”,电脑沉思了一毫秒,对出来“鲁迅绝句多”。沈向洋说:“不错,那么横批呢”。这时候我很忐忑,鬼才知道会对出来个爷爷还是奶奶。瞬间结果出来了,系统对出来的横批是“语妙天下”。沈向洋一拍桌子,说“绝了!”。

那个时候,沈向洋满脑子都是要找李敖比一比。我一直不敢。他说不要怕,输了就输了,反正是电脑,也没有什么丢脸的。如果要是赢了,我们就赚大了。我说要是限定时间,比如1秒钟之内,我们准赢。要是不限定时间,比如任意由李敖想,那我们准输。当时,沈向洋甚至设想了比赛过程:请几个评委出题,让计算机和李敖比一比;搞一个图灵测试,把电脑的结果和人的结果,让用户评价。如果用户评价电脑结果好的次数比较多,则电脑就算赢了。那一年,沈向洋和洪小文、金俊等人到台湾访问的时候,特意跟李敖一起吃饭,席间提起此事。李敖说,“我才不比,赢了没有什么了不起,要是输了我一世的英名就完了。”李敖的聪明可见一斑。这件事也就只好挂起。

西湖边上“秀”对联

我们的对联非常荣幸地在三次二十一世纪计算大会上由我进行了演示。第一次2005年在杭州,第二次2006年在清华大学,第三次2007年在南京。据我所知,在所有的二十一世纪计算大会上,微软对联系统是唯一一个三次演示的系统。确实令人骄傲。微软对联还被认为是基于数据和基于实施(deployment driven research)的研究战略的经典。我这里再给大家讲一讲在演示时发生的故事。

第一次是

本章未完,点击下一页继续阅读。