第9部分 (第3/4页)
了。但如果分词时把文章里的“清华大学”分成“清华/大学”,那么搜索“清华大学”又出不了结果了,谷歌对这个问题研究了很久。
做好搜索(3)
有一天,谷歌中国工程研究院副院长刘骏跑来兴奋地说:“开复,你的语音搜索论文可以用在分词上。如果我们把中文的字当做语音,然后用语音识别的方法和统计语言模式来识别出所有可能的分词方法,那么匹配正确时,‘清华’和‘清华大学’就可能同时出来。还有,我们有这么大的网络语料库,可以训练出一个非常巨大而精确的语言模型。”后来,他带领团队真的实现了这方面的突破。
在2006年下半年到2007年上半年,我们的工程师一一检查尝试各种领域的各种搜索词,并统计出所有不合理的搜索结果,然后再向美国的工程师学习如何在系统里进行修正。可以说,今天谷歌中文搜索的每一点进步都是在工程师付出的辛勤努力下得来的。
那时,每天都有很多有关提高搜索质量的会议在清华科技园大厦召开,谷歌内部的监测系统每天都在对各家搜索引擎作出比较,我们评估搜索相关度、网页索引大小、即时更新能力和对垃圾网站的识别性。为了衡量我们的进度,在我办公室外面就有一个大牌子,上面可以看到我们当天的四个指标表现如何,以及和竞争对手的差距又如何。
这是一项极其辛苦而回报率又相当低的工作。有时一个由五名工程师组成的团队努力半年,也只不过把某一个指标提升0�1%而已。但我总是苦口婆心地鼓励大家:这样的工作是积少成多的。五个人半年做出的成果有限,但一百个人做两年就会有巨大的变化。
为了增加中文搜索产品的亲和力,谷歌中国成立了一支用户体验团队,成员中不乏心理学博士和硕士。我们将一间办公室隔开,让一些普通网民像平时那样使用计算机。在隔壁的实验室里,我们通过安装在计算机上的特殊摄像头将用户使用互联网的习惯记录下来。这种记录非常精密,比如用户每一秒眼睛停留在哪里,鼠标停留在哪里等等。通过这样的实时监测,我们能够真切感受和精确了解中国互联网用户的使用习惯!
在研究用户体验的过程中,我们也发现了中美用户很多不一样的地方。比如,美国互联网用户搜索的目标都比较直接,他们以找到自己想要的信息为目标,一般只点击搜索结果的前三个,之后就离开页面。但中国用户的目光更多是四处浏览,他们愿意尝试更多的搜索结果,停留的时间也更长。中国用户把搜索当成一种探索,去点击网页上各种有趣的东西。
还有一个很有意思的现象,就是中国用户有时候在搜索框里并不完全键入所有的关键字,而是在键入之后直接拉到搜索页面的最下方去点击相关搜索。比如,一位用户想搜索“秦皇岛地图”,但他只输入了“秦皇岛”三个字,搜索结果页面出来后,他直接在最下方的相关搜索中点击秦皇岛地图。他说:“已经习惯使用相关搜索这个功能了。”
谷歌中国的工程师认为,造成这种差别的理由有以下几个:第一,中国用户使用搜索引擎进行探索的概率很高;第二,一些搜索引擎将前几个搜索结果出售为广告,用户因此习惯了不信任排名较前的结果;第三,中文的输入相对来说较慢,因此,中国的用户宁愿用鼠标多点击几次来完成搜索,而不是长时间敲打键盘。
用户的体验给了谷歌工程师们很多灵感,比如,为了满足中国用户的搜索习惯,谷歌在用户键入搜索内容的时候,就给予一系列的搜索提示,这样就省去了用户向下拉页面的麻烦。而我们也按照中国用户的习惯,改变了搜索摘要的长短、排版的版式、字体的大小,甚至字体的亮度。同时,我们还考虑了中国用户普遍使用的显示器规格,进而重新设置版面的安排。
做好搜索(4)
每天,我都和工程师们用巨大的投影屏幕,检测每一像素的排版、颜色、字体等等。我们对各种指标进行现场比较,然后研究决定如何改进我们的中文界面和用户体验。
但是,所有的改进都必须有数据的支持。比如,我们曾经针对互联网用户做过一项调查,问题如下:“如果使用搜索引擎,你是喜欢第一页搜索结果有10项,还是有20项?”结果90%的互联网用户都选择有20项结果,因为他们想象第一页结果多可以省时间。但事实却并非如此,在真实的网络环境测试中,我们却发现大部分用户喜欢第一页有10项搜索结果!这是因为,第一页呈现20个搜索结果要比呈现10个搜索结果慢0�15秒。在搜索
本章未完,点击下一页继续阅读。