客服橙子
微信二维码
13360330306
cz@payue.com
一、引言
在数字化时代,声音作为信息传递与情感表达的重要载体,其多样性和个性化需求日益增长。格子互动大饼语音合成类算法,作为一项融合了深度学习与神经网络技术的创新成果,旨在打破传统声音合成的局限,为用户提供更加丰富、自然且个性化的语音体验。本报告将从算法的基本原理、运行机制、应用场景及目的意图等多个维度,对格子互动大饼语音合成类算法进行全面剖析。
二、算法基本原理
格子互动大饼语音合成类算法的核心在于其独特的Encoder-Decoder架构,该架构将复杂的语音合成过程分解为精细的编码与解码阶段。Encoder部分负责将输入的语音信号拆解为多维度的特征向量,包括但不限于音色、内容、音素、韵律、节奏及情感等,这些特征向量为后续的声音合成提供了丰富的素材。Decoder部分则分为声学模型和声码器两部分,声学模型负责根据内容编码器和音色编码器提取的特征,生成具有特定内容和音色的频谱;声码器则负责将频谱信息转换为可直接播放的音频采样点,完成最终的语音合成。
三、算法运行机制
内容编码器:基于公司自有及开源的语音数据,采用先进的conformer/emformer/zipformer等模型框架,结合数据增广和mask技术,构建出高识别准确率且轻量化的语音识别模型。为弥补内容向量提取的不足,算法还引入了发音内容扩充向量,以提升变音的准确性和稳定性。
声纹编码器:利用端到端的方式训练说话人识别模型,通过引入speaker adapter技术,实现了同一套模型支持多个音色的突破,极大地丰富了声音合成的多样性,同时保持了模型的轻量级特性。
韵律情感模型:针对传统信号处理方法在韵律特征提取上的不足,算法采用深度学习模型,大幅提升了韵律特征提取的准确率和鲁棒性,使得合成的语音更加自然流畅,富有情感色彩。
声码器:结合深度学习与DSP方法的优势,对声码器进行融合创新,有效解决了断音、颤音、电音等常见问题,显著提升了声码器的音质。同时,通过优化声码器结构,降低了计算复杂度,提升了实时性能。
延时与实时约束:通过引入因果机制的Attention计算,实现了延时可控,找到了延时与发音效果的平衡点(约300ms)。同时,算法在模型设计上进行了轻量化改进,结合高性能计算优化,确保了PC端基于CPU的实时转换率。
四、算法应用场景
格子互动大饼语音合成类算法凭借其强大的功能和广泛的应用潜力,可广泛应用于配音、直播、虚拟人、声音美化等多个领域。在配音领域,算法能够为角色提供更加个性化、逼真的声音表现;在直播领域,主播可以利用算法实现声音变声,增加直播的趣味性和互动性;在虚拟人领域,算法则为虚拟角色赋予了生动的声音形象,提升了用户体验;在声音美化方面,算法则能帮助用户实现声音的个性化定制和美化。
五、算法目的意图
格子互动大饼语音合成类算法的目的在于利用深度学习和神经网络算法的力量,推动声音合成的技术革新和应用拓展。通过不断优化算法性能和功能,大饼AI变声致力于让每个人都能实现声音的自由,让声音成为连接人与人、人与世界的桥梁。无论是有声音的地方,还是无声的世界,大饼都将以其卓越的技术和无限的创意,为人们带来更加丰富多彩的声音体验。
拟公示算法机制机理内容
算法名称 | 格子互动大饼语音合成类算法 |
算法基本原理 | 大饼声音引擎模型由 Encoder 和 Decoder 两部分组成。 Encoder 部分使用类似 ASR 的方法,实时将语音输入拆 分成不同维度的 encoding,例如音色特征、内容特征、音 素特征、韵律特征、节奏和情感特征等若干向量表示。 Decoder 部分由声学模型和声码器组成 声学模型通过内容编码器从输入音频中提取出发音内容 序列,并通过音色编码器从参考音频中提取出音色特征, 最后通过声音转换模型生成带有输入音频内容和参考音 频音色的频谱; 声码器负责将声学模型生成的频谱还原为能够被设备直 接播放的音频采样点。 |
算法运行机制 | 内容编码器模型基于公司自有语音数据,标注语音数据, 覆盖了多个方言地域、年龄、性别分布。融合当前先进 conformer/emformer/zipformer 等模型框架, 以及多种数据 增广和 mask 方式,公司自研的语音识别模型相较其他开 源模型以及公开的语音识别 api,能够有更高的识别准确 率, 同时兼具模型规模轻量化的优点。但仅依靠内容编 码器提取内容向量, 偶尔会出现变音不准确, 或是变错 |
音的现象, 对此, 我们还会提取发音内容扩充向量, 用 以弥补内容向量提取不足、不准确导致的上述问题。
声纹编码器模型基于开源社区和公司自有语音数据, 使 用端到端的方式训练说话人识别模型。目前主流的方法 为同一套模型仅支持一个音色, 即使少数有支持多音色 模型的, 其效果较单个音色模型都存在较大的下降。为 了达到同一套模型支持多个音色, 我们提出了 speaker adapter 技术, 使得同一套模型支持成百上千个音色, 同 时又不会显著增加模型的大小。
韵律情感模型语音信号中基频、能量、非周期信号等特 征通常包含了主要的韵律信息, 传统的信号处理方式提 取的韵律特征往往噪声鲁棒性不够, 我们运用深度学习 模型来提取这些特征, 可以大幅提升提取的准确率和鲁 棒性。
声码器模型选择上,虽然深度学习模型较传统 dsp 方法有 了绝对的优势, 但依然存在以下不足, 断音, 颤音, 电 音、金属音等。为了克服以上问题, 我们结合了深度学 习和 dsp 方法各自的优缺点, 融合两种方法, 明显改善了 声码器质量。并且改进了目前常见声码器的结构, 使得 |
模型效果没有显著下降的同时, 计算复杂度得到大幅降 低。
延时和实时约束模型: 延时方面,我们在 transfomer 的 attention 计算中引入因果机制, 使得延时可控, 最终搜寻 到延时和发音效果的一个平衡点(300ms 左右延时)。实 时方面, 模型设计之初, 就进行了诸多轻量化的改进, 模型内存占用仅 300m,结合高性能计算优化, pc 端基于 cpu 的实时转换率在 5%-20%左右 | |
算法应用场景 |
配音、直播、虚拟人、声音美化 |
算法目的意图 |
使用深度学习和神经网络算法,大饼 AI 变声致力于让人人实现 声音的自由,有声音的地方就有大饼,人人开口好声音 |