北京拓尔思信息技术股份有限公司总裁施水才:我演讲的标题是:大数据和语音产业。
语音产业在语音技术之外还有很多东西值得我们探讨,我认为语音技术现在是语音产业的入口和抓手。完整的语音产业链涉及更广泛信息处理技术,特别是大数据管理和分析挖掘,下面几个方面实际上对语音产业应用有非常大密切关系,比如说搜索引擎技术、自然语音理解技术、以谷歌为代表知识图谱等,信息量非常大,后面这些数据怎么管理、怎么分析,还有一些关键性行业应用等等。我觉得除了语音识别,合成相关的技术以外,还有很多东西值得探讨。语音应用系统相关技术,像自然语音处理、机器学习、翻译、云计算、大数据等等。
这里面我想展开讲一下语音产业中的搜索技术,现在我们看到搜索引擎技术是泛在化的趋势,很多复杂或者难以理解的问题我们现在通过比较机械的搜索,虽然现在说搜索引擎比较智能,从理论上讲还比较初级,现在很多复杂和难以理解的问题我们发现通过机械查询和搜索去解决。这里面语料库大数据本身的作用是非常显著的。
第二个现在搜索技术不仅仅是网页和知识库,跟传统的关系数据度有非常大的关系,你要搞表的联接,推理的话,像传统互联网搜索引擎,现在看需要一种比较好的架构,有的说法就叫柔性搜索,在语音产业里面需要用到的搜索技术,不仅仅是传统搜索技术。第二个自然语音处理。开放信息的抽取、分类,自然语言情感分析,结构预测,这里面还有很多深层次的问题,颜永红教授说要支持基础研究这些,特别对自然语音理解来说还是很难的,还有很多路要走。
下一个利用知识图谱解决浅层语义的问题,你怎么样搜索看起来更加智能,对于复杂事件的描述还是比较少的。知识图谱建立,大规模的机器学习,有时候需要人工干预。我特别上网查了一下,百度查了一下刘德华,左边结果是百度,右边结果百度做的类似的东西,把刘德华各种各样信息结构化了,但是我们在查一下语音产业什么都没有,就说明这个还是很小,下一步还有很多工作要做。
如何把海量数据管起来,因为我们自己在做这方面的事情,我觉得他是一种基础设施,为什么要这么搞,我觉得现在我们国家互联网企业,像刚才讲的百度、腾讯、阿里等,做的非常好的,但是有一个问题是什么,他们基本上拿来主义,基本上也是秘不可宣的,产业链中如何为别人用,这个没有提到议事日程上。美国公司他的原创性,产业链的建设方面还需要我们值得很多学的东西,现在搞的很多东西自产自销。
在所有的这些里面语音视频、多媒体等,他的这种非结构化数据管理还是重中之重的,我想就是说以上四个方面我觉得在语音相关技术延伸上面,还需要很多技术在做,特别是关键性应用,像消费电子,像B2B都讲了,安全,第二个像智能客服,我觉得利用语音和微信公共平台,智能客服很多人在做。所以我觉得这些方面语音之外的东西我觉得还有很多东西做的,因为我们拓尔思主要做大数据相关的搜索、管理,我们也做了跟这个相关的案例。
我们推出了一个海贝大数据管理平台,把所有的结构化,非结构化,半结构化的管理起来,融为一体,可以管理TB级数据,更好支持易购整合的东西。我们研发新的挖掘引擎。
另外利用我们整个数据管理平台搭建一个與情云服务的平台,几百年商业客户,他直接来消费信息的,这里面大概500多台服务器,数据量大概进去一个亿,有数据清晰功能。
另外跟语音的结合,我们开发一个软件APP叫焦点快报,是一款免费社交网络新闻聚合APP,基于大数据聚类,每天几千万的新闻中聚焦网络热点,每小时看热点新闻,这里面也集成科大讯飞的API,一个星期以前早上10点的热点是什么,一查就知道,自然语音理解非常简单的。我们也把整个新闻客户端也做了全自动的,这个里面用到比较复杂的自然语言处理的技术。
另外我们利用这些技术,在网上用的很好,一个是搜索引擎里面,很多利用搜索引擎的平台搞很多假的东西,非法集资和金融风险预警服务,我们找出30个非法集资案例,有的是以前没发现的。我们跟科大讯飞、中科大等做一个基于自然语音人机交互的系统。
最后在会上提两点建议,2014年大数据的热点会是以大数据技术重构社会的信用基础,围绕信用体系建设的应用创新。建议国家在重大科技计划中把大型通用关系数据库管理系统和非结构化数据管理合并,支持大数据技术和系统的研发。(计算机世界报记者赵海军整理)
重点报道领域:产业政策、地方经信委、高新区、经济技术开发区,大公司分公司总经理的成功故事。欢迎提供采访线索至2673111783@qq.com
阅读和此文章类似的: 全球云计算