Date: 2024-06-26 Source: 本站
文章来源: 科大讯飞官方账号
热烈祝贺金链盟理事单位科大讯飞获国家科学技术进步奖一等奖!
6月24日,2023年度国家科学技术奖励大会在京召开,金链盟理事单位科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目获得国家科学技术进步奖一等奖。这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域首个国家科学技术进步奖一等奖。这也是科大讯飞继2002年和2011年分别获得国家科学技术进步奖二等奖之后,首次获得国家科学技术进步奖一等奖。
国家科学技术进步奖创办于1984年9月,是国务院设立的国家科学技术奖5大奖项(国家最高科学技术奖、国家自然科学奖、国家技术发明奖、国家科学技术进步奖、中华人民共和国国际科学技术合作奖)之一。因2021年、2022年国家科技奖暂停的缘故,2023年度国家科技奖积累了大量的优秀成果,竞争激烈。
关键技术取得四大突破,达到国际领先水平
语音是人类最自然便捷的沟通方式,是智能设备人机交互的关键入口,也是诸多敏感信息的重要载体,还是民族团结和国际合作的基础。多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义,具有十分广阔的产业前景,是当前国际科技竞争核心焦点之一。
持续攻关多年,科大讯飞攻克了多个技术难题,并打破技术封锁,提出了四个方面的技术创新。
在这些技术的支撑下,科大讯飞连续4届获得国际多通道语音分离和识别比赛CHiME冠军;连续8届获得国际语音合成大赛Blizzard Challenge冠军。2015年,相关技术首次在大会演讲场景实现语音转写超过人类速记员水平;2019年起连续六年服务全国两会;个性化语音合成首次应用于中央电视台节目配音(《创新中国》),并在新华社、人民日报、学习强国等广泛应用。
在奇瑞、一汽等的交互评测中,科大讯飞的技术效果全面领先国际车载语音技术竞品赛伦思(原Nuance车载公司),在华为的评测中也领先谷歌。
技术成果应用在多个方面:如英语口语评测首次达到人类专家水平,是满足高考应用要求的技术,累计服务超1.3亿考生;智能客服系统规模应用,累计服务超8亿人,多行业对话成功率超90%。
基于这些关键技术的持续攻关和突破,该项目获批牵头建设4个国家级创新平台:语音产业界唯一的国家级研究开放平台语音及语言信息处理国家工程研究中心,智能语音国家新一代人工智能开放创新平台,首批20家标杆全国重点实验室之一的认知智能全国重点实验室,智能语音领域唯一的国家技术标准创新基地;并主导编制11项国际和国家标准,获授权发明专利257项;近五年累计获得国际权威评测冠军20余项,持续保持技术引领。
实现规模化产业立地,有效支撑国家战略
科大讯飞一直坚持“技术顶天、应用立地”的战略,围绕多语种智能语音技术构建了自主可控的产业生态。
智能手机方面,项目支持各主流手机厂商累计激活设备超10亿台,有效解决华为等厂商出海的多语种“卡脖子”问题;智能汽车方面,车载智能化产品累计前装超5300万套,支持奇瑞、一汽、长安等车企超200万套订单出海;智能软硬件方面,开创智能翻译机、智能办公本、智能录音笔等智能硬件新品类,连续三年获得京东&天猫双平台销售冠军,其中,讯飞翻译机目前能支持85个语种的翻译,覆盖全球200多个国家和地区,连续8年获得京东618、连续7年获得天猫双11销售冠军;在会议、办公等场景,讯飞听见系列产品服务遍及全球50多个国家和地区,支持了超过40万场会议,触及超过4亿观众;面向更多用户,讯飞输入法月活跃用户超1.4亿人,日语音交互次数超10亿次。
发布“多语种语音云”平台,月服务超过5.46亿人次;每年提供翻译服务51.5亿次,语音同传服务全球50余个国家超4亿观众;多语种技术有效服务北京冬奥会和冬残奥会、中国国际进口博览会、博鳌论坛等国家重大活动。
2017年开始承建的智能语音国家新一代人工智能开放创新平台,已聚集平台开发者数700.7万,终端设备数40.5亿;构建全球多语种技术生态,目前平台聚集海外开发者数超过40万。
项目产业生态繁荣、成效显著。近三年,多语种智能语音技术产业化项目累计实现直接经济效益521.28亿元,并带动由工信部和安徽省政府共建、以科大讯飞为核心的“中国声谷”产业集聚发展,并上升为中部崛起的国家战略。
未来:智能语音+认知大模型,用人工智能建设美好世界
通用人工智能时代,科大讯飞多语种智能语音关键技术中的创新和大模型技术相互补充、相互促进。
语音属性解耦、语音信号时空分离等技术突破,可以将语音信号经过编码后输入到大语言模型,显著提升语音大模型的效果。2024年1月30日,科大讯飞就基于上述技术融合路线发布了星火语音大模型,显著超过了OpenAI的Whisper v3的语音大模型能力,Whisper v3的24个主要语种的平均识别率为82%,而星火语音大模型达到了90%。4月26日,科大讯飞又首发多情感超拟人合成和一句话声音复刻能力,使机器具备更加丰富的超拟人情绪感知和表达。
大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值,支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等未来智能产品创新,带来巨大产业机会,加速通用人工智能时代的到来。