快速导航

算法备案

公安网备案

地址挂靠

商标业务

宗教信息证

联系客服

客服橙子

微信二维码
13360330306
cz@payue.com

算法备案

代办互联网信息服务算法备案、深度合成备案填报，电话13360330306，微信同号

首页>行业资讯>算法备案

万兴喵影 AIGC 生成算法原理分析报告

更新时间：2024/08/01
点击量：109
分享

一、引言

万兴喵影 AIGC 生成算法是一种集成了深度学习技术的综合性内容生成系统，旨在通过文本、图像、语音及音乐等多模态内容的自动生成，满足用户在视频创作中的多样化需求。本报告将从算法的基本原理、运行机制、应用场景等方面进行详细分析。

二、算法基本原理

万兴喵影 AIGC 生成算法基于深度学习技术，主要分为四个核心部分：AI 文案生成、AI 语音合成、AI 音乐生成、AI 图片生成。这些部分协同工作，能够根据用户输入的文本、图像等内容，自动生成符合语法、语义规则及用户需求的文本、语音、音乐和图像。

AI 文案生成：利用大语言模型（如百度的文心大模型）处理用户输入的文本内容，生成符合要求的文案。
AI 语音合成：通过语音合成算法（如阿里云的达摩院语音合成算法）将文本转换为语音，支持多语种和个性化定制。
AI 音乐生成：根据用户选择的音乐主题和情绪，使用生成对抗网络（GAN）等算法生成符合特征的音乐。
AI 图片生成：结合文本和图像输入，利用图像生成算法（如万兴天幕大模型中的Diffusion降噪模型）生成符合文本内容的图像。

三、算法运行机制

1. AI 文案生成

输入：用户输入的文本内容。
合规性检测：对输入内容进行合规性检查，确保内容不违规。
大语言模型处理：将合规的文本输入到文心大模型中进行处理，生成符合要求的文本。
随机性保证：结合随机种子确保生成结果的随机性和多样性。
输出：合规且符合要求的文本内容。

2. AI 图片生成

输入：文本内容和图像内容。
合规性检测：分别对文本和图像进行合规性检查。
特征提取：使用文本编码器和图像编码器提取文本和图像特征。
Diffusion降噪模型：结合随机种子和文本特征，通过降噪和解构生成图像。
输出：合规且符合文本内容的图像。

3. AI 语音合成

输入：用户输入的文本内容。
合规性检测：对输入文本进行合规性检查。
语言识别：识别用户输入的语言种类（如中文、英文）。
语言学特征分析：提取文本发音、韵律、读音等信息。
声学特征生成：将文本转换为声学特征信息。
声码器合成：利用频谱等声学特征生成语音样本点，并重建声音波形。
输出：合规且符合要求的音频文件。

4. AI 音乐生成

输入：用户选择的音乐主题和情绪。
特征分析：根据音乐主题和情绪分析音乐风格、乐器、节奏等特征。
生成对抗网络：使用GAN等算法生成符合特征的音乐。
音频编码：对生成的音乐进行编码处理。
合规性检测：对生成的音乐进行合规性检查。
输出：合规且符合要求的音频文件。

四、算法应用场景

万兴喵影 AIGC 生成算法具有广泛的应用场景，主要包括但不限于：

视频配音：根据用户提供的字幕内容自动生成对应的音频，为视频制作提供便捷的配音解决方案。
内容创作：为自媒体、广告、教育等领域的内容创作者提供快速生成文案、图片、音乐和语音的工具，提高创作效率。
个性化定制：支持多语种、个性化语音定制，满足用户在不同场景下的特定需求。
创意激发：通过自动生成多样化的内容，激发用户的创作灵感，推动创意产业的发展。

五、结论

万兴喵影 AIGC 生成算法是一种功能强大、应用广泛的内容生成系统。通过深度学习技术的运用，该算法能够在文案、语音、音乐和图像等多个领域实现自动化生成，为用户提供便捷、高效的内容创作工具。随着技术的不断进步和应用场景的不断拓展，万兴喵影 AIGC 生成算法有望在更多领域发挥重要作用，推动数字内容创作的智能化发展。

拟公示算法机制机理内容

算法名称

万兴喵影 AIGC 生成算法

算法基本原理

万兴喵影 AIGC 生成算法是一种基于深度学习的生成类技术。1）该算法可以将用户的文本内容转化为语音，同时能够根据用户需求进行多语种、个性化语音定制。2）该算法能够在给定输入条件下，自动生成符合语法和语义规则的文本内容。3）该算法可以根据用户输入的文本内容，自动生成符合文本内容的图像文件。 4）该算法可以根据用户所选的情绪和主题，自动生

成相符合的背景音乐。

算法运行机制

万兴喵影 AIGC 生成算法按照模态分为 AI 文案生成、 AI 语音合成、AI 音乐生成、 AI 图片生成四个部分。算法流程描述

如下：

AI 文案生成算法以文本内容作为输入，即用户可以将个人的创作需求通过自然语言的方式表达出来，首先进行合规性检测，当输入涉嫌违规的内容时会返回提示，告知用户重新输入文本内容。检测合规后，文本内容会进入到第三方的大语言模型—— 百度的文心大模型算法中进行处理。文心大模型算法主要应用于文本生成场景，根据用户输入的文本指令，结合上下文信息，生成符合用户要求的文本。文心大模型算法会利用文本编码器进行特

征提取，得到隐空间下的文本特征表示——特征向量。文本特征

会与随机种子（即随机数）做结合构成隐空间向量，以保证结果的随机性和多样性。文本特征会结合领域信息在特定任务/场景下进入大语言模型对向量进行生成，生成的特征至文本解码器进行文本生成。在得到生成的结果后再次进入合规性检测，若涉嫌违

规则重置随机种子，重新生成结果。

AI 图片生成以文本内容、图像内容作为输入，文本输入和图像输入分别会经过合规性检测模块，当输入涉嫌违规时会返回提示，告知用户重新输入。检测合规后，文本和图形进入第三方算法——万兴天幕大模型算法中进行处理。文本和图像分别进入文

本编码器和图像编码器进行特征提取，得到文本特征和图像特

征。图像特征会与随机种子（即随机数）做结合构成隐空间向量，以保证结果的随机性和多样性。文本特征则与隐空间向量一同进入 Diffusion 降噪模型，对向量进行降噪和解构，降噪后的特征输入至图像解码器进行图像生成。在得到生成的结果后再次进入合

规性检测，若涉嫌违规则重置随机种子，重新生成结果。

AI 语音合成以文本内容作为输入，即用户可以将个人的创作需求通过文字的方式表达出来，首先会经过合规性检测模块，当输入涉嫌违规的内容时会返回提示，告知用户重新输入文本内容。合规性检测通过后，进入到阿里云的达摩院语音合成算法中进行处理。阿里云的达摩院语音合成算法会首先对于用户的输入内容进行语言识别检测，判定用户输入的语言为哪种，当前支持

识别中文和英文两个语种。识别完毕后，会对于文本进行语言学

特征分析，在该阶段主要是提取文本发音，提取文本的语言学特征，为文本增加韵律、读音信息，将文本转换为注音序列。再根据文本前端输出的信息生成声学特征信息，主要是将注音序列映射到梅尔频谱或线性谱，以此来生成声学特征信息。最后，再通过声码器，利用频谱等声学特征，生成语音样本点并重建声音波形，输出音频结果，过程中为了提高语音合成的准确性和稳定性，在声码器模型部分会添加更多的辅助处理模型，如纯信号处理、基于自回归神经网络模型等。最后，再次进入合规性检测，若涉嫌违规则重新生成结果，重复此过程。若通过合规性检测，则输

出最终的音频生成结果。

AI 音乐生成算法运作流程大体为：用户选择预置的音乐主题和音乐情绪，再选择要生成音乐的时长， AI 即可自动生成音乐。

因此该算法的输入内容为用户选择的预置音乐主题和预置音乐

情绪。用户可选择的预置的音乐主题包括 vlog、电影风、舞蹈、旅行、运动等五种主题，用户可选择的预置音乐情绪包括开心、悲伤、兴奋、冷静、史诗、平和、希望、情绪等八种音乐情绪。用户选择后,进入第三方算法——万兴天幕大模型算法中进行数据处理和特征提取，算法根据用户选择的音乐主题，会分析该主题的音乐风格、常用的乐器、节奏模式等形成音乐主题特征分析。算法根据用户选择的音乐情绪，会分析该情绪的情绪，使用的和弦，旋律走向等形成音乐情绪特征分析。形成了两个分析后，再

使用生成对抗网络来生成与特征相符合的音乐，最后将生成的音

乐进行音频编码，并进行合规性检测，检测通过后即可输出音频，

不通过则重新进入生成对抗网络中重新生成。

算法应用场景

1 、视频配音：根据用户的字幕内容自动帮助用户生成对应内

容的音频，帮助用户进行视频配音。

2 、视频脚本创作：用户可以使用算法来生成视频脚本的初稿。他们只需提供一些基本的信息，如主题、目标受众、所需

长度等，算法将会生成相关的文案。

3 、图片素材生成：对于一些需要特定素材的视频，如广告、

宣传片等，AI 算法可以根据视频的主题或内容生成一些相

关的图片素材，供用户使用。

4 、背景音乐生成：用户可以使用 AI 算法来生成与视频主题、

风格相符的背景音乐，以帮助用户高效找到背景音乐资源。

算法目的意图

主要作用是通过 AIGC 生成算法，帮助用户在视频剪辑的全流程提高效率，包括：生成高质量的配音、生成有趣的背景音乐、生

成具有创意性的图片、生成有意思的精彩文案。

快速导航

联系客服

算法备案

代办互联网信息服务算法备案、深度合成备案填报，电话13360330306，微信同号

万兴喵影 AIGC 生成算法原理分析报告

一、引言

二、算法基本原理

三、算法运行机制

1. AI 文案生成

2. AI 图片生成

3. AI 语音合成

4. AI 音乐生成

四、算法应用场景

五、结论

推荐链接：

联系客服：

电话：13360330306

邮箱：cz@payue.com