语音生成与克隆功能使用帮助 #
语音生成与克隆功能用于把输入文本合成为语音,也可以在提供参考音频的情况下尽量克隆参考说话人的音色与风格。这个功能适合做课程配音、短视频旁白、产品讲解、人声演示、内容创作、语音素材制作、角色音色测试以及个人化语音输出。
相比单纯的文字转语音,这个功能同时覆盖了两种使用方式:
- 没有参考音频时,使用内置音色做常规语音生成
- 提供参考音频时,优先走语音克隆链路,尽量模仿参考声音
对于需要兼顾“快速生成”和“音色定制”的用户来说,这个功能非常有价值。

功能描述 #
语音生成与克隆功能需要用户先选择模型总目录,再输入文本内容,并根据需要选择是否提供参考音频。输出时可以设置保存位置、输出文件名、导出格式、采样模式、最大生成帧、语速和导出润色等级,最后生成语音文件。
面板中还提供了内置音色选择,适合没有参考音频、但希望快速得到自然语音结果的场景。若你上传了参考音频,系统会优先尝试以参考音频为基础进行语音克隆。
主要功能 #
- 支持文本转语音
- 支持通过参考音频进行语音克隆
- 支持选择模型总目录
- 支持选择内置音色
- 支持自动按句切分长文本
- 支持导出 WAV、MP3、M4A
- 支持设置采样模式
- 支持设置最大生成帧
- 支持调节语速
- 支持导出润色
- 支持打开输出文件夹
功能特点 #
1. 一套面板同时支持生成和克隆 #
没有参考音频时可以直接做常规文字转语音;有参考音频时又能走克隆链路,不需要切换到其他单独功能。
2. 适合多种创作场景 #
无论是短视频旁白、课程讲解、产品配音,还是角色音色测试、语音素材制作,都能通过这个功能快速完成。
3. 模型和音色选择更灵活 #
用户既可以选择模型目录,也可以直接从内置音色里挑选适合的声音风格。对于不同项目需求来说更实用。
4. 低配和高配设备都考虑到了 #
当前功能说明中已经明确提到,软件会根据设备内存自动调整生成策略,低配置更稳,高配置更流畅。这一点对不同电脑环境下的用户很重要。
模型准备说明 #
在使用前,需要先到视频小能手官方网站下载并且先选择模型总目录。当前说明中要求总目录内应包含以下两个子文件夹:
MOSS-TTS-Nano-100M-ONNXMOSS-Audio-Tokenizer-Nano-ONNX
也就是说,用户不需要手动逐个选模型文件,而是选择包含相关模型子文件夹的总目录即可。
主要参数说明 #
内置音色 #
如果你不提供参考音频,可以直接选择内置音色,用来快速生成常规语音。不同音色适合不同内容风格,例如讲解、旁白、介绍和演示等。
文本内容 #
输入要生成的文本,长文本会自动按句切分。这样可以提高长段文本的处理稳定性,也更符合语音生成流程。
参考音频 #
这是语音克隆的关键输入。面板提示建议使用:
- 干净单人语音
- 约 3 到 10 秒
- 一般 2 到 15 秒也可尝试
音频过长并不一定更好,反而可能更慢,克隆效果也未必更稳定。
输出格式 #
支持:
- WAV
- MP3
- M4A
WAV 更适合保留原始音频细节,MP3 和 M4A 更适合日常分发和分享。
采样模式 #
支持:
- 固定采样(推荐)
- 贪心模式
- 完整采样
对于大多数用户,固定采样通常更稳妥,适合先验证整个生成链路是否正常。
最大生成帧 #
这个参数决定本次最多生成多少音频帧。数值越大,能够生成的语音通常越长,但耗时也会更久。它不是语速控制参数,而是长度上限相关参数。
语速 #
支持 0.5x - 2.0x 调整。1.0x 为原速,数值越大速度越快,数值越小越慢。适合根据视频节奏、解说风格和听感习惯做微调。
导出润色 #
支持关闭、轻度、标准等模式,用于对导出音频做轻微修饰,让声音不那么干、更适合正式输出场景。
使用流程 #
第一步:选择模型目录 #
先选择包含两个模型子文件夹的总目录,确保模型路径正确。
第二步:选择音色或准备参考音频 #
根据需求二选一或结合使用:
- 只做常规生成:选择一个内置音色
- 做语音克隆:选择参考音频
第三步:输入文本内容 #
把需要合成的文字输入到文本框中。长文本会自动切分处理。
第四步:设置输出信息 #
设置:
- 保存位置
- 输出文件名
- 输出格式
- 采样模式
- 最大生成帧
- 语速
- 导出润色
第五步:开始生成 #
点击“开始生成”,等待处理完成。不同文本长度、模型状态和参考音频情况会影响耗时。
第六步:检查输出结果 #
生成后建议检查:
- 发音是否完整
- 音色是否符合预期
- 语速是否合适
- 润色效果是否自然
使用建议 #
- 初次使用建议先用短文本测试模型链路和音色效果
- 做语音克隆时,参考音频尽量保持干净、单人、少噪声
- 输出用于剪辑时,优先保留 WAV;用于日常分发可考虑 MP3 或 M4A
- 如果长文本出现提前结束,可以适当提高最大生成帧
- 想提升自然度时,可以尝试开启轻度或标准润色
适用场景 #
- 短视频旁白生成
- 课程讲解配音
- 产品介绍语音
- 个性化语音克隆
- 角色音色试音
- 网站演示和营销配音
常见问题 #
什么时候算语音生成,什么时候算语音克隆? #
没有参考音频时,更偏向普通文字转语音;有参考音频并优先使用它时,更偏向语音克隆。
最大生成帧是不是语速? #
不是。最大生成帧更偏向本次最多能生成多长的语音,而真正控制快慢的是语速参数。
为什么还要设置采样模式? #
不同采样模式影响生成策略和结果表现。对多数用户来说,固定采样通常最适合先验证功能是否稳定。
软件工作方式对应补充 #
当前版本的“语音生成与克隆”并不只是一个简单的文本转语音按钮。面板上除了模型总目录、文本、参考音频、输出格式、采样模式、最大生成帧、语速和润色等级这些可见参数外,工作线程内部还会根据设备内存自动选择更稳妥的生成策略。
也就是说,当前功能已经内置了低内存保护逻辑。当检测到机器总内存较低时,会自动降低单次切分预算、批次预算和批处理块数量,让低配环境优先保证可完成、不崩溃;当设备内存更充足时,则会允许更流畅的批处理策略。因此它不是只有“高配电脑能正常跑”的功能,而是已经兼顾了低配可用性。
真实处理流程补充 #
长文本不会整段一次性硬生成,而是会结合句子切分和内部预算做分段处理。这一点对课程配音、长旁白、长讲解稿尤其重要,可以显著降低中途失败的概率。
另外,输出结束后并不一定直接结束任务。只要你选择的不是 WAV,或者语速不是 1.0x,或者启用了导出润色,线程都会进入后处理阶段,对导出音频继续做格式转换、速度调整或润色。这也是为什么 MP3、M4A、变速和润色场景会比最基础的 WAV 导出更耗时一些。
总结 #
语音生成与克隆功能是一项兼顾创作效率和个性化输出的高级功能。它既能满足普通文字转语音需求,也能支持参考音频驱动的语音克隆流程,还提供了输出格式、语速、润色和长度控制等实用参数。对于视频创作、课程配音、内容营销和语音素材制作来说,这是一项非常值得重点介绍的功能。