第25部分 (第1/4页)
终飧鱿钅俊S谑俏颐蔷土⒓纯�剂朔止ず献鳎�创罱ㄒ桓龆说蕉耍╡nd…to…end)的系统原型。其中,我和一个实习生翁锐浩主要负责哼唱搜索算法的改进,其他几位同事,包括STC的欧佳凡和WLMC的王晓兵,负责搭建搜索平台。
重拾哼唱搜索
晓兵和佳凡的工作卓有成效,他们同###的高阳公司合作,很快就搭建了一个系统平台,并申请了一个临时声讯服务号码(当时是125905988)。通过这个平台,我们就可以有效地采集真实数据。用户可以通过手机直接拨打服务号码,系统会记录下每一条哼唱记录。我记得当时我们有一部手机专门用来做数据采集。我们邀请了很多同事和实习生,把手机交给他们,让他们留下自己“美妙”的哼哼声。对于哼唱环境、哼唱方式、哼唱歌曲,我们都没有加以限制,以期得到符合用户习惯的最真实的数据。通过这个系统,我们得到了大量的数据。
有了真实的数据,我们就着手算法的改进了。算法的改进主要在两方面:一是哼唱的旋律提取,我们考虑了不同的背景噪声和信号畸变,提出了更精确的方法来检测和分割每一个音符;二是匹配模型的改进,我们使用了隐马尔科夫模型 来作旋律匹配,明确考虑了哼唱和数据库音乐之间的音符对齐问题,将它更有效地集成到了改进的旋律模型、节奏模型和匹配时的容错模型中。我们还提出了一个更加系统化的匹配过程。
经过几个月的努力,我们终于开发出了一个更高性能的算法。测试显示,第一位歌曲的正确率 (top 1 accuracy) 达到了82%,在前五位中找到的比率更是接近90%。我们也搭建了一个在线服务原型:你可以使用你的手机,拨打一个服务号码,根据提示音哼唱一段旋律,你就能得到你要找的手机铃声。这也是业界第一个哼唱搜索手机铃声的系统。为了能在中国市场运作,我们还将此技术转让给了位于上海的美斯恩有限公司。
我们还把这个技术展示在微软一年一度的技术节上(TechFest)上; 得到了非常不错的反响。比尔·盖茨也过来看了我们的演示。我也第一次获得了与比尔·盖茨面对面的机会。后来有在微软总部雷德蒙工作的同事对我说:“你的演示很成功啊,很多同事回来后还在讨论呢。”
结束语
哼唱搜索,只是我所经历的众多项目中的一个。之所以讲讲它的故事,不仅是因为它是我第一个独立项目,而且它也让我懂得,做一个项目,不只是仅仅做一个实验室算法,而是要系统地综合地考虑其应用场景甚至商业模型,考虑真实使用环境并使用大数量多样化的真实数据。做到这一点,才有可能使你的技术应用于现实生活中,才有机会让用户感受到科技改变生活。
我想,无论工业界的研究员,还是高等院校里的学生,都可以从这个角度去重新审视一下手中的问题和解决方案。
作者介绍:
芦烈,2000年加入微软亚洲研究院,现为语音组研究员。主要研究方向是机器学习,音频、音乐的内容分析和检索。他在国际一流期刊和会议上发表过50多篇论文,拥有近20项专利;曾多次在国际会议上担任技术委员会成员。他于2000年获上海交通大学电路与系统专业硕士学位,现兼于荷兰代尔夫特理工大学攻读博士学位。他寥有所好,溺于技术而疏于艺术。好音乐而做音乐分析,却常因没有音乐细胞而心有戚戚。 希望有朝一日自己的研究成果可被广泛应用。
研究院“&”的故事 陈刚(1)
创新工程组(Innovation Engineering Group,简称IEG)是研究院中一个非常特殊的非研究性质的组,它负责很多研究组的研究原型和技术转移工作。许多研究院技术背后都有这个组的贡献。由于IEG支持的研究组很多,开玩笑说,就 “研究方向”的数量而言,她可以稳坐研究院第一。
出乎一般人意料的是,这个主要由软件开发工程师而非研究员组成的开发组竟然是研究院成立的第一个组,现在也是10岁了。令人骄傲的是,2003年,从它分化出一支并壮大成立了微软亚洲工程院(ATC)。2005年,搜索技术中心(STC) 的成立也是从这个组开始的。再后来,开发组合并用户体验 (User Experience) 后形成了现在的创新工程组(IEG)。我们组现有二十多人,有老有少,有中国人也有外国人,而且终于有了女性开发工程师,作为一个微软内部的软件开发
本章未完,点击下一页继续阅读。