新零售网 > 品牌 >

不止5秒复刻,大模型驱动火山引擎语音合成技术全面升级

来源:网络 发布时间:2024-04-12 11:06   阅读量:15353   会员投稿

自2022年起,生成式AI的爆发助推语音技术快速升级。语音作为高频的交互形式,在多个领域的需求颇为强烈,尤其是在追求高自然度语音合成上,业界与学术界均投入诸多研发资源。

火山引擎语音团队曾于2023年推出zero-shot(零样本学习)的极速版声音克隆。近期火山语音再一次升级,推出大模型版超自然语音合成和5s极速声音克隆升级版。致力于多个语音场景的深耕,为陪伴式AI交互、沉浸式听书、跨语种内容生产、企业客户服务等场景的企业级客户提供超自然的声音体验。

火山引擎语音合成大模型全面升级

1. 超自然的大模型精品声音

火山引擎正式推出了基于大模型的精品音色语音合成技术。相较于传统小模型的语音合成,大模型语音合成能够支持依照上下文,洞悉文本中隐含的情绪、说话人角色等信息,进而给出情绪更有表现力、韵律更为自然的精准表达。

2. 5秒极速声音克隆升级版

火山引擎语音团队曾在2023年发布了 MegaTTS 声音克隆技术,此次升级后的超自然克隆,在多个维度均有显著提升:

● 音色的相似度提升:尤其是在高表现力、口音的输入上做到高度还原。

● 声音的自然度提升:讲话的音调、韵律、节奏、情感等更接近真人表现。

● 多语种表现力提升:在英文等外语的发音上更标准,讲话韵律上更接近当地人的表达。

 

典型应用场景新探索

自2023年起,火山引擎与合作伙伴围绕语音合成技术的4个典型场景展开应用探索,通过小规模的部署测试与迭代,对新一代语音引擎在各行各业的广泛应用有了更多实践与经验积累:

1. 陪伴式 AI 交互场景

在陪伴式 AI 交互场景中,客户希望构建更为智能化的语音对话交互系统。用户可以使用自然语言作为输入,系统会以多种模态输出的方式予以应答。在这个链路中,上一代的语音合成效果在口语化、情感变化等方面的表现还不够出色。基于大模型版本的语音合成,可以提供超自然、媲美真人的语音播报效果,并允许用户自定义声音,实现更具个性化的呈现方式。火山引擎提供的语音能力已经在豆包等场景中落地应用。

2. 沉浸式听书场景

传统的 AI 听书一般是由单一音色进行播讲,其播报风格总体较为平淡,毫无变化,难以依据文本语义呈现出不同的情感演绎,长时间听书易使人感到枯燥乏味。

相较而言,火山引擎依托大模型构建的音色矩阵,AI 主播不光能“哭”而且会“笑”,犹如专业配音演员那样表达“深刻的人类情感”,满足用户“沉浸式阅读”的需求。此外,火山引擎也正在推进“大模型多角色演播方案”的构建,融合角色分明、声情并茂的音色矩阵,为用户提供如同真人有声剧一般的高品质听书体验。

3. 跨语种内容生产场景

升级后的大模型声音克隆,不但能够维持在本语言上的高度还原,还支持跨语种的配音。即使用户仅会说中文,也可借助跨语言克隆技术,完成地道的英语、日语、印尼语等语种表述。这种能力便于用户进行跨国交流,助力翻译视频、播客等内容,让创作者和企业能够用自己的声音触达到更多全球各地的受众。

4. 企业客户服务场景

在客户服务场景中,火山引擎可以实现高度拟人化的 AI 声音,复刻的 AI 音色与人工客服本人一致,毫无违和感。机器人外呼时,坐席可以听到客户对话,分析当前客户情绪以及经营潜力,并在适当时机无缝接入,达到智能化协呼效果。这不仅提高了客户体验,同时也降低了纯 AI 外呼的客诉率。

语音合成技术的部署与应用,须有严密的语音认证授权和安全防护机制,来保障技术的安全运用。火山引擎已施行了一系列安全举措,包括数据收集、使用及存储等方面,确保用户本人在完全知晓并完成授权的状况下达成声音克隆,其音色只应用于授权范围内的应用场景,最大限度地降低语音合成技术被滥用的风险。

目前,火山引擎语音大模型能力已经在豆包、剪映 、抖音、番茄小说等多款内部产品展开应用,并逐渐向企业开放用以拓展更多 AI 语音应用场景。

火山引擎作为字节跳动旗下的云服务平台,将在 AI 及数据方向深度探索,在语音方面,将更多地采用大模型等先进技术,达成更为优质的交互和互动,帮助企业做好用户体验的创新工作,推动行业的智能化发展。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

阿尔法·罗密欧限量版上市售33.18万元起 2024-04-12 09:42

国产车进步之快,肉眼看得见!2024款腾势D9正式上市 2024-04-12 08:36

中央发了第一个“专门文件”,我们问上海社区干部:你怎么看? 2024-04-12 08:31

探店第十一代索纳塔丨老车主看了眼馋,15万起还有机会吗? 2024-04-12 06:41

工信部新能源SUV丨腾势N7门槛降低,奇瑞系有两款狠货 2024-04-12 05:37

巴黎奥运会选拔赛暨2024亚洲山地自行车锦标赛U23及青年运动员 2024-04-12 05:21

记者独家试驾丨体验自动驾驶“出租车”畅行高速,前往大兴机场乘 2024-04-12 03:52

从无到有的创业传奇:“输液大王”刘革新与他的资本版图 2024-04-12 02:22

新款丰田汉兰达海外亮相,空间更大更舒适,极具竞争力 2024-04-12 02:00

国产豪华MPV,车长5250mm,双层隔音+可变悬挂,订单已破3 2024-04-12 00:43

100kWh拿货价3万元,特斯拉等车型或大降价 2024-04-11 23:09

21汽车视频智界S7二度上市,中高配售价直降2万元 2024-04-11 22:12

比亚迪再出手!海豹DM-i/宋PLUS荣耀版上市 2024-04-11 21:31

聚焦25-30万元市场理想L6将于4月18日上市 2024-04-11 19:49

悦安新材688786.SH:据相关研究报告了解,金属锂有望未来用 2024-04-11 18:54

极氪009光辉官图正式发布将于4月19日上市 2024-04-11 18:15

突破交付难关?智界S7将开启交付 2024-04-11 16:29

美国第一季度新车销量:混动市场势头强劲 2024-04-11 15:15

斥资6亿筹建智能算力中心,长三角区域数字经济发展再添新质生产力 2024-04-11 14:02

试驾启源A07真香版:710km续航15万多,的确很香! 2024-04-11 13:41