客服橙子
微信二维码
13360330306
cz@payue.com
万兴喵影 AIGC 生成算法是一种集成了深度学习技术的综合性内容生成系统,旨在通过文本、图像、语音及音乐等多模态内容的自动生成,满足用户在视频创作中的多样化需求。本报告将从算法的基本原理、运行机制、应用场景等方面进行详细分析。
万兴喵影 AIGC 生成算法基于深度学习技术,主要分为四个核心部分:AI 文案生成、AI 语音合成、AI 音乐生成、AI 图片生成。这些部分协同工作,能够根据用户输入的文本、图像等内容,自动生成符合语法、语义规则及用户需求的文本、语音、音乐和图像。
AI 文案生成:利用大语言模型(如百度的文心大模型)处理用户输入的文本内容,生成符合要求的文案。
AI 语音合成:通过语音合成算法(如阿里云的达摩院语音合成算法)将文本转换为语音,支持多语种和个性化定制。
AI 音乐生成:根据用户选择的音乐主题和情绪,使用生成对抗网络(GAN)等算法生成符合特征的音乐。
AI 图片生成:结合文本和图像输入,利用图像生成算法(如万兴天幕大模型中的Diffusion降噪模型)生成符合文本内容的图像。
输入:用户输入的文本内容。
合规性检测:对输入内容进行合规性检查,确保内容不违规。
大语言模型处理:将合规的文本输入到文心大模型中进行处理,生成符合要求的文本。
随机性保证:结合随机种子确保生成结果的随机性和多样性。
输出:合规且符合要求的文本内容。
输入:文本内容和图像内容。
合规性检测:分别对文本和图像进行合规性检查。
特征提取:使用文本编码器和图像编码器提取文本和图像特征。
Diffusion降噪模型:结合随机种子和文本特征,通过降噪和解构生成图像。
输出:合规且符合文本内容的图像。
输入:用户输入的文本内容。
合规性检测:对输入文本进行合规性检查。
语言识别:识别用户输入的语言种类(如中文、英文)。
语言学特征分析:提取文本发音、韵律、读音等信息。
声学特征生成:将文本转换为声学特征信息。
声码器合成:利用频谱等声学特征生成语音样本点,并重建声音波形。
输出:合规且符合要求的音频文件。
输入:用户选择的音乐主题和情绪。
特征分析:根据音乐主题和情绪分析音乐风格、乐器、节奏等特征。
生成对抗网络:使用GAN等算法生成符合特征的音乐。
音频编码:对生成的音乐进行编码处理。
合规性检测:对生成的音乐进行合规性检查。
输出:合规且符合要求的音频文件。
万兴喵影 AIGC 生成算法具有广泛的应用场景,主要包括但不限于:
视频配音:根据用户提供的字幕内容自动生成对应的音频,为视频制作提供便捷的配音解决方案。
内容创作:为自媒体、广告、教育等领域的内容创作者提供快速生成文案、图片、音乐和语音的工具,提高创作效率。
个性化定制:支持多语种、个性化语音定制,满足用户在不同场景下的特定需求。
创意激发:通过自动生成多样化的内容,激发用户的创作灵感,推动创意产业的发展。
万兴喵影 AIGC 生成算法是一种功能强大、应用广泛的内容生成系统。通过深度学习技术的运用,该算法能够在文案、语音、音乐和图像等多个领域实现自动化生成,为用户提供便捷、高效的内容创作工具。随着技术的不断进步和应用场景的不断拓展,万兴喵影 AIGC 生成算法有望在更多领域发挥重要作用,推动数字内容创作的智能化发展。
拟公示算法机制机理内容
算法名称 | 万兴喵影 AIGC 生成算法 |
算法基本原理 | 万兴喵影 AIGC 生成算法是一种基于深度学习的生成类技 术。1)该算法可以将用户的文本内容转化为语音, 同时能够根 据用户需求进行多语种、个性化语音定制。2)该算法能够在给 定输入条件下, 自动生成符合语法和语义规则的文本内容。3) 该算法可以根据用户输入的文本内容, 自动生成符合文本内容的 图像文件。 4)该算法可以根据用户所选的情绪和主题,自动生 成相符合的背景音乐。 |
算法运行机制 | 万兴喵影 AIGC 生成算法按照模态分为 AI 文案生成、 AI 语音合成、AI 音乐生成、 AI 图片生成四个部分。算法流程描述 如下: AI 文案生成算法以文本内容作为输入,即用户可以将个人的 创作需求通过自然语言的方式表达出来,首先进行合规性检测, 当输入涉嫌违规的内容时会返回提示,告知用户重新输入文本内 容。检测合规后, 文本内容会进入到第三方的大语言模型—— 百 度的文心大模型算法中进行处理。文心大模型算法主要应用于文 本生成场景, 根据用户输入的文本指令,结合上下文信息,生成 符合用户要求的文本。文心大模型算法会利用文本编码器进行特 征提取,得到隐空间下的文本特征表示——特征向量。文本特征 |
会与随机种子(即随机数)做结合构成隐空间向量,以保证结果 的随机性和多样性。文本特征会结合领域信息在特定任务/场景下 进入大语言模型对向量进行生成, 生成的特征至文本解码器进行 文本生成。在得到生成的结果后再次进入合规性检测,若涉嫌违 规则重置随机种子,重新生成结果。 AI 图片生成以文本内容、图像内容作为输入,文本输入和图 像输入分别会经过合规性检测模块, 当输入涉嫌违规时会返回提 示,告知用户重新输入。检测合规后,文本和图形进入第三方算 法——万兴天幕大模型算法中进行处理。文本和图像分别进入文 本编码器和图像编码器进行特征提取,得到文本特征和图像特 征。图像特征会与随机种子(即随机数)做结合构成隐空间向量, 以保证结果的随机性和多样性。文本特征则与隐空间向量一同进 入 Diffusion 降噪模型, 对向量进行降噪和解构, 降噪后的特征输 入至图像解码器进行图像生成。在得到生成的结果后再次进入合 规性检测,若涉嫌违规则重置随机种子,重新生成结果。 AI 语音合成以文本内容作为输入,即用户可以将个人的创作 需求通过文字的方式表达出来, 首先会经过合规性检测模块, 当 输入涉嫌违规的内容时会返回提示, 告知用户重新输入文本内 容。合规性检测通过后, 进入到阿里云的达摩院语音合成算法中 进行处理。阿里云的达摩院语音合成算法会首先对于用户的输入 内容进行语言识别检测, 判定用户输入的语言为哪种,当前支持 识别中文和英文两个语种。识别完毕后,会对于文本进行语言学 |
特征分析,在该阶段主要是提取文本发音, 提取文本的语言学特 征,为文本增加韵律、读音信息,将文本转换为注音序列。再根 据文本前端输出的信息生成声学特征信息, 主要是将注音序列映 射到梅尔频谱或线性谱, 以此来生成声学特征信息。最后,再通 过声码器,利用频谱等声学特征,生成语音样本点并重建声音波 形,输出音频结果, 过程中为了提高语音合成的准确性和稳定性, 在声码器模型部分会添加更多的辅助处理模型,如纯信号处理、 基于自回归神经网络模型等。最后, 再次进入合规性检测,若涉 嫌违规则重新生成结果, 重复此过程。若通过合规性检测,则输 出最终的音频生成结果。 AI 音乐生成算法运作流程大体为:用户选择预置的音乐主题 和音乐情绪,再选择要生成音乐的时长, AI 即可自动生成音乐。 因此该算法的输入内容为用户选择的预置音乐主题和预置音乐 情绪。用户可选择的预置的音乐主题包括 vlog、电影风、舞蹈、 旅行、运动等五种主题,用户可选择的预置音乐情绪包括开心、 悲伤、兴奋、冷静、史诗、平和、希望、情绪等八种音乐情绪。 用户选择后,进入第三方算法——万兴天幕大模型算法中进行数 据处理和特征提取,算法根据用户选择的音乐主题,会分析该主 题的音乐风格、常用的乐器、节奏模式等形成音乐主题特征分析。 算法根据用户选择的音乐情绪, 会分析该情绪的情绪,使用的和 弦,旋律走向等形成音乐情绪特征分析。形成了两个分析后, 再 使用生成对抗网络来生成与特征相符合的音乐, 最后将生成的音 |
乐进行音频编码, 并进行合规性检测, 检测通过后即可输出音频, 不通过则重新进入生成对抗网络中重新生成。 | |
算法应用场景 | 1 、 视频配音:根据用户的字幕内容自动帮助用户生成对应内 容的音频,帮助用户进行视频配音。 2 、 视频脚本创作: 用户可以使用算法来生成视频脚本的初稿。 他们只需提供一些基本的信息,如主题、目标受众、所需 长度等, 算法将会生成相关的文案。 3 、 图片素材生成: 对于一些需要特定素材的视频,如广告、 宣传片等,AI 算法可以根据视频的主题或内容生成一些相 关的图片素材, 供用户使用。 4 、 背景音乐生成: 用户可以使用 AI 算法来生成与视频主题、 风格相符的背景音乐, 以帮助用户高效找到背景音乐资源。 |
算法目的意图 |
主要作用是通过 AIGC 生成算法,帮助用户在视频剪辑的全流程 提高效率,包括:生成高质量的配音、生成有趣的背景音乐、生 成具有创意性的图片、生成有意思的精彩文案。 |