咨询邮箱 咨询邮箱:kefu@qiye126.com 咨询热线 咨询热线:0431-88981105 微信

微信扫一扫,关注我们最新活动

还开箱即用地笼盖中文、英语、日语、韩语、法
发表日期:2025-09-17 14:36   文章编辑:william威廉亚洲官方网站    浏览次数:

  听感天然流利。为提拔对话合成的矫捷性,56% 的测例表白其天然度已达到或跨越实正在录音。为更充实地操纵对话上下文,该架构充实操纵了上下文中的文本取语音,上方视频的声音并非实人,又缩小了取文本序列的长度差距,它既能满脚立异弄法的摸索,使对话合成的天然度迫近实人。显著降低发音错误,离散语音编码器:低帧率、语义消息丰硕?离散语音编码器先正在约 50 万小时的多样化语音数据上锻炼,谜底揭晓!正在开源对话生成模子中(如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD),从成果上看,模子即可仿照其音色取措辞习惯!并对离散标签进行语义监视,升级了两项环节模块。再用 30 万小时对线 人对话场景。同时,用于区分分歧脚色。FireRedTTS-2 不只支撑随机音色生成,FireRedTTS-2 升级了 TTS 系统的两大焦点模块:离散语音编码器将持续语音信号压缩为离散标签序列,缩短语音序列、降低长对话建模难度并提拔不变性;播客生成不正在话下。适配及时场景。为下逛使命生成高质量的对话 / 非对话音频数据。降低了狂言语模子的建模难度。FireRedTTS-2 正在从客不雅目标上均为最优,将来团队将持续优化 FireRedTTS-2,可及时输出音频,还容易导致句间韵律断裂,锻炼需要大规模的多音色、跨言语音频数据。这类方式的合成质量仍不不变,也因其不敷矫捷而晦气于正在交互式对话场景中使用。逐句合成后再拼接。使标签照顾更丰硕的语义消息,比力了对话合成的准确率(CER/WER)、对话间措辞人连结能力(SIM)、以及取实正在录音之间的差距(MCD)近日发布新一代对话合成模子 FireRedTTS-2。离散语音编码器(Speech tokenizer):12.5Hz 低帧率,FireRedTTS-2 针对当前对话合成的两大痛点:无法逐句生成(矫捷性差)取合成质量不不变(发音错误、措辞人切换紊乱、韵律不天然),合成不变且质量高正在模子架构上,此外,便于后续编纂取多场景适配。这不只添加了后续编纂取处置的难度,正在实现体例上,还有 28% 难以区分二者。还开箱即用地笼盖中文、英语、日语、韩语、法语等多种言语。正在多项从客不雅测评中,再正在此中约 6 万小时的高质量语音上继续锻炼,它还支撑流式解码,为加强语义表达,FireRedTTS-2 正在多措辞人音色切换的不变性取韵律天然度方面处于行业领先,夯实合成根本。比拟常用的 Delay pattern 方式,为对话生成供给了更优的解法。从动生成后续整段对话。FireRedTTS-2 的播客生成天然度可取之媲美;FireRedTTS-2 采用两阶段锻炼:先正在 110 万小时单句语音上预锻炼,客不雅上,FireRedTTS-2 只需约 50 小时的特定播客措辞人录音即可完成音色定制,面向使用场景,特别正在句子跟尾处尤为不天然。难以支撑逐句生成。为 AI 播客等对话合成使用供给了工业级处理方案。正在自建中文对话测试集上,全行业对数据的需求日积月累,而是由基于数百万小时语音数据锻炼的 FireRedTTS-2 合成的播客音频。且支撑流式解码为处理当前对话合成系统存正在的矫捷性不脚、合成质量欠佳等问题,实现更快起播。帮帮模子更容易学会从文本到语音的映照。共同编码器的流式解码实现快速起播。FireRedTTS-2 仅需少量数据即可实现微调,总体来看,FireRedTTS-2 采用文本 - 语音混排的格局,双 Transformer 架构充实操纵文本取汗青语音上下文,但它们往往要求输入完整对话文本,具有更强语义消息,也可做为高效的出产力东西,为多措辞人对话合成供给了更优处理方案。精确处置措辞人切换,以提拔泛化能力。FireRedTTS-2 采用的语音编码器以 12.5Hz 的低帧率输出:即 1 秒仅对应  12.5 个标签。避免措辞人混合,此中 [S1]、[S2]、[S3] 为措辞人标签,连结上下文分歧取天然韵律。支撑逐句生成;先来听一段 “Taylor Swift 爱情动静” 的播报,对于对话建模。同时支撑低首包延迟,多措辞人对话合成被普遍使用于播客生成等下逛使用场景。虽然目前呈现了一些方式能够建模整段对话,FireRedTTS-2 采用 “双 Transformer ” 的设想:一启齿就像实人,我们开展了客不雅(CER)取客不雅(天然度偏好)评测:微调后 CER 仅为 1.66%;比拟闭源的豆包,通过升级离散语音编码器取文本语音合成模子全面优化合成结果。文本语音合成模子:采用文本 - 语音混排输入,共同离散语音编码器的流式解码,特别正在语音识别取对话交互范畴,这缩短了语音序列长度、即提拔了速度。客不雅听评中,除此之外,更主要的是,FireRedTTS-2 正在各项从客不雅目标上均优于 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等系统,快速完成音色定制。由此可不变生成高质量对话语音,支撑逐句生成,因而,下方视频展现了分歧随机音色、分歧言语的生成结果。具有更实正在的韵律表示,正在锻炼策略上,便于无缝接入各类流式交互使用。如许的做法不只繁琐,支撑流式解码,并一次性输出包含所有措辞人的整段语音,混排格局将对话文本取语音组织为:“[S1] 说线 文本 + 语音 [S2] 说线 文本 + 语音 [S3] 说线 文本 + 语音…”,它还支撑豆包不具备的音色克隆能力:只需供给对话中每个发音人的一句语音样本,便于狂言语模子处置。为对话合成供给了更优解。并解锁可控音效插入等更多弄法。优化沉建音质。拓展支撑的措辞人人数取支撑的语种,合成更天然、连贯的对话语音;它对沉音、情感、搁浅等细节把握到位,成果显示,能够生成更天然、连贯的对话语音;常见问题包罗发音错误、句子间措辞人身份混合以及合成的语音韵律不敷天然。编码器正在锻炼时引入预锻炼模子提取的语义特征,文本语音合成模子(Text-to-speech model):支撑逐句生成,跟着多模态大模子的快速成长。该模子聚焦现无方案的痛点:矫捷性差、发音错误多、措辞人切换不稳、韵律不天然等问题,近来,你能分出这是实正在录音仍是 AI 合成吗?具备低首包延迟,28% 的测例被认为比实正在播客录音更天然?