下载中心
获取 voxly
1
选择程序
2
下载 AI 模型
3
开始使用
💡
下载说明
支持 Windows 10 / 11(64 位) · 软件自带自动更新功能 · 可随时回退到上一版本
🧠
Whisper 模型说明
模型文件为离线推理核心,下载后放置于 voxly 数据目录即可使用。首次启动时软件也会提示自动下载推荐模型。
Tiny
75 MB
极速转录
适合低性能旧设备
Base
142 MB
速度优先
适合普通办公电脑
⭐ 推荐
Small
466 MB
平衡之选
大多数场景首选
Medium
1.5 GB
高精度转录
适合高性能设备
Large-v3
2.9 GB
最高精度
适合生产力工作站
🎉
准备完毕!
安装程序运行后,跟随向导完成初始化设置,
或参阅下方系统要求确认运行环境。
✅ 系统要求
Windows 10 / 11(64 位)
.NET 8 运行时(安装包内含,无需手动下载)
推荐 8 GB 内存以上(Small 模型最佳体验)
500 MB 以上空余存储(不含模型文件)
屏幕阅读器:JAWS 2022+ / NVDA 2023+ 已验证
📝 更新日志
voxly 主程序 (v2.8.5-p2)
【voxly - v2.8.5-p2更新日志】
修复个别电脑转录异常问题。
修复任务数据绑定问题。
增加ctrl+f7生成双语字幕功能。
新增主界面快捷键:使用 Ctrl + 主键盘 1-6 可快速跳转至对应设置项,无需进入设置对话框逐项浏览。
新增设置备份功能:可在设置中指定备份目录,默认保存在输出目录的备份文件夹内。
其他一些小改进和修复。
【Voxly v2.8.5】
一、 菜单栏与界面布局调整
主菜单栏新增"文件"菜单(Alt+F),将任务相关操作集中管理:
文件菜单包含以下项目:
- 新建任务(Ctrl+N)
- 保存任务(Ctrl+Shift+S)
- 关闭任务(Ctrl+W)
───────
- 导出任务数据
- 导入任务数据
───────
- 打开输出文件夹
字幕编辑页面的右键菜单进行了全面重组。原先所有功能项平铺在一级菜单中,操作繁琐且不易查找。本次更新将菜单项按功能归类为分组,结构如下:
① 阅读方式(子菜单)
- 先显示字幕再显示时间轴
- 先显示时间轴再显示字幕
- 显示时间轴(开关)
──── 分隔线 ────
② 字幕编辑(子菜单)
- 增加字幕:在当前位置插入一条新字幕
- 删除字幕:删除选中的字幕条目
- 拆分字幕:将一条字幕拆分为两条
- 合并字幕(F10):将多条选中的字幕合并为一条
───────
- 恢复原始字幕:恢复为转录时的原始文本
③ AI 智能助理...:打开 AI 智能助理对话框(详见下文)
④ 翻译(子菜单)
- 翻译字幕:翻译当前选中的字幕
- 全文翻译:翻译所有字幕
───────
- 翻译接口配置:设置翻译 API 参数
- 测试翻译功能:验证接口是否连通
⑤ 说话人(子菜单)
- 离线识别(本地 AI):基于声纹的本地说话人检测
· 自动检测说话人数量
· 指定 2 位说话人
· 指定 3 位说话人
· 自定义说话人数量
───────
- 重命名说话人:批量为识别出的说话人设定实际名称
- 清除说话人标记:移除所有说话人标签
──── 分隔线 ────
⑥ 连续播放(F5):从选中字幕开始逐条连续播放
──── 分隔线 ────
⑦ 设置选中字幕颜色:为字幕指定自定义颜色
⑧ 清除格式 (恢复默认):移除自定义颜色恢复默认样式
二、 AI 智能助理
新增独立的 AI 智能助理对话框(Ctrl+Shift+A),将此前分散的 AI 功能统一整合至一处。用户可选择操作类型、处理范围(仅选中或全文),编辑提示词后一键处理,处理完成后可在对话框内预览结果,满意后再应用。
目前支持以下操作类型:
• 自定义提示词:完全自由地编写指令,让大模型按你的需求处理字幕文本。适用于没有现成模板的特殊场景。
• 仅纠错:修正同音错别字、语法错误和标点问题,保持原有语言不变。适合快速清理转录结果。
• 纠错并转简体:在纠错基础上,将所有文本统一转化为简体中文。
• 纠错并转繁体:在纠错基础上,将所有文本统一转化为繁体中文。
• 情感语气标注:为每条字幕添加语气标签(如"兴奋"、"伤感"、"急迫"等),不修改原文内容。适用于配音参考或情绪分析。
• 去除填充词:自动去除"嗯"、"啊"、"就是说"、"那个"、"uh"、"um"等口头禅和填充词,使文本更简洁。
• 字幕风格转换:将字幕文本转换为更口语化、自然流畅的表达,去除书面化的冗余措辞,更适合观看体验。
• 添加/修正标点:为缺少标点的转录文本补全句号、问号、逗号等标点,不改动文字内容。
• AI 说话人识别:调用大模型分析对话语境推断说话人身份(在线模式,区别于右键菜单中的离线声纹识别)。
• AI 摘要与关键词提取:对全文进行深度分析,生成内容摘要、章节标记、关键词标签和精彩片段标注。
快捷键支持:
Ctrl+Shift+A — 打开 AI 智能助理
Ctrl+F8 — 校对选中字幕(自动预选纠错模式 + 仅选中范围)
Ctrl+Shift+F8 — 校对全部字幕(自动预选纠错模式 + 全文范围)
Ctrl+Shift+F9 — AI 说话人识别(自动预选说话人识别 + 全文范围)
三、 任务管理增强
在原有自动保存和基本任务管理的基础上,本版新增了完善的任务生命周期管理:
• 新建任务(Ctrl+N):可自定义任务名称,创建空白任务直接开始工作。
• 手动保存(Ctrl+Shift+S,可自定义):编辑字幕后可随时手动保存。系统会自动追踪编辑状态,关闭前若有未保存的修改将弹出确认对话框。
• 关闭任务(Ctrl+W,可自定义):安全关闭当前任务,保护数据不丢失。
• 任务切换(Ctrl+Tab):在多个任务间按序循环切换,自动保存当前任务并加载下一个。
• 导入/导出任务数据:可在文件菜单中一键导出任务数据库(.db文件)作为备份;导入时自动备份原数据后替换。
• 启动默认行为:在偏好设置 → 通用中新增"启动默认行为"选项:
- 打开上次的任务(默认):启动后自动恢复上次编辑状态。
- 新建空白任务:启动后进入空白字幕编辑页面。
- 不执行任何操作:启动后停留在基本设置页。
四、 说话人检测
新增说话人检测功能,支持"本地离线"与"AI在线"两种模式,适用于访谈、会议等多角色场景。
- 离线识别(本地 AI):基于声纹特征分析区分不同说话人,无需联网,适合对隐私有要求的场景。可在右键菜单 → 说话人中直接使用,支持自动检测或手动指定说话人数量。
- AI 在线识别:在 AI 智能助理中选择"AI 说话人识别",通过大模型分析对话语境推断身份,适合对话内容区分度较高的场景。
识别完成后,可通过右键菜单批量重命名说话人(如改为"主持人"、"嘉宾")或清除标记。在"设置 / 导出设置"中可开启"保存时导出说话人标记",导出字幕时将自动在文本前追加说话人名称。详细操作说明请按 F1 参阅帮助文档第四章字幕编辑器。
五、 性能与体验优化
• 修复了字幕编辑列表在字幕数量较多时的严重卡顿问题。
• 优化多选模式下的操作性能,消除批量选择时的界面延迟。
• 播放、暂停、快进快退等操作均加入平滑淡入淡出过渡,消除爆音和突兀切换感。
• 连续播放模式下可正常使用暂停快捷键终止播放。
• 升级核心转录引擎与 VAD 静音检测模型。
• 大量字幕编辑与播放方面的细节优化。
六、 无障碍
• 任务切换时屏幕阅读器自动播报当前任务名称及位置。
• 所有新增对话框和控件均提供完善的无障碍属性支持。
历史版本更新日志:
【Voxly v2.8.3-p2】
• 核心AI功能优化:解决了AI自动换行处理、自动校对等核心问题。
• 交互简化:去掉了首次启动的弹窗帮助提示,日常使用中可直接按 F1 随时查看帮助文档。
• 模型管理精简:去掉了复杂的模型管理面板,目前仅可下载官方推荐的模型(经过多次优化和迭代,中等模型是最佳之选)。如需使用其他模型,请前往 Voxly 官网自行下载。
【Voxly v2.8.3-p1】
• 交互与快捷键优化:修复了开启多选模式后使用空格键无法正常多选的问题。为避免冲突,全局及字幕编辑窗口内的默认“播放/暂停”快捷键已统一调整为 Alt+Shift+空格。
• 快捷键自定义全面放开:进一步解除限制,所有播放相关的快捷键,以及字幕编辑窗口中此前固定的快捷键,现已全部支持用户自定义配置。
• 数据存储与权限优化:将任务数据的默认存储路径迁移至 AppData 目录,有效防止因系统目录权限不足导致的任务保存异常或失败;新增启动权限检测逻辑,若未以管理员权限运行,系统将自动弹窗询问并请求提权。
• 其他优化:修复了其他可能影响程序稳定性的已知 Bug。
【Voxly v2.8.3】
一、 AI引擎集成
本次更新将所有大模型处理功能进行了深度整合,全面支持 DeepSeek 与 OpenRouter 接口。与此同时,大模型现已全面接管翻译、纠错与换行排版等核心流程。
支持单条或全文多语互译。系统内置智能排版与动态提示词引擎,根据目标语种自动下发不同规则。中文跨语种译为外文时,系统自动强制限制字符数并执行双行换行,防止字幕超出视频边框;常规互译则采用纯净模式,确保译文精准且不破坏原 SRT 时间轴。
• 自定义翻译规则: 用户可在接口配置中填入自定义系统提示词以完全接管翻译规则,支持使用 sourceLang 和 targetLang 变量。自定义提示词具有绝对优先权。为避免模型认知混乱,建议在自定义指令中剔除具有强导向性的“精通中英互译”等限制性词汇。
• 智能纠错: 新增单条或全文 AI 文本纠错,提供纯纠错、纠错并转简体中文、纠错并转繁体中文三种处理模式。字幕编辑窗口内新增 F2 快捷键,支持对选中文本进行一键静默纠错。
• 语义识别换行: 废弃传统的机械截断,转由 AI 基于上下文的语义停顿和呼吸节奏,进行更符合人类阅读习惯的真实换行。(此项设置支持修改为传统模式)
• 大模型使用建议: 受限于当前大语言模型的固有技术瓶颈,单次输入过长或过于复杂的文本可能会导致返回内容不全或严重偏离预期。为确保产出质量,除必须进行全文处理的场景外,强烈推荐使用逐条校对与纠错功能。此现象为 AI 模型的普遍物理限制,非本程序的框架设计问题。
二、 REAPER 工作流联动
新增一键发送至 REAPER 的深度联动功能,支持将调整完毕的字幕及关联音视频媒体文件一并精准导入轨道。
• 双模式导入机制: 导入流程分为自动与手动两种模式。自动模式基于常用偏好智能执行;手动模式则弹出设置面板,提供二十余种字体颜色等个性化参数配置。
• 独立颜色管理: 新增独立字幕颜色定义能力。用户可自由指定单条或多条特定字幕的颜色。在导入 REAPER 的渲染流程中,系统会读取颜色的十六进制代码并转换为数值,直接注入视频处理器脚本。单条字幕的自定义颜色配置具有独立权重,不受全局字体颜色设置的干扰。
三、 任务管理重构
对任务模块进行了彻底重构,底层数据管理已全面向 SQLite 架构迁移,从根本上解决了以往使用 JSON 存储时可能引发的数据损坏风险,大幅提升了多任务处理的稳定性。
任务列表新增快速搜索与重命名功能。快捷键:F2重命名任务、Delete删除任务、回车打开任务、F3搜索任务、Ctrl+E导出字幕。
四、 系统优化
进行了全面的底层代码梳理,修复了历史版本遗留的大量 Bug,整体运行流畅度与稳定性得到显著提升。
【Voxly v2.8.2】
• bug修复与稳定性增强。
v2.8.1
修复了因上一版本界面调整导致的任务清空不彻底的问题。
• 修复了若干已知的 bug 与不足(剩下的啥时候发现了啥时候再说hh)。
• 优化转录过程:收紧了部分核心参数,改善乱转录问题。
• 修复了删除字幕后光标意外跳转回第一条的问题。
• 优化 Voice Over 状态:开关状态现支持持久化,并默认保存在当前使用的配置中。
• 新增手动输入时间轴快捷键:在编辑窗口内按 Ctrl+Alt+T 即可唤出输入对话框。
• 优化状态信息播报:修复播报与状态不匹配的问题,去掉了“幅度”等冗余词汇,调整 1000 毫秒现将直接清晰播报“1秒”或具体毫秒数。
• 优化多选逻辑:默认关闭多选功能(仅删除光标指向的字幕条目)以解决播报复选框状态的问题;按 Ctrl+M 可快速切换开启多选模式。
• 新增全局自定义快捷键:软件内涉及的所有快捷键均可自定义,配置随当前使用方案独立保存(切换配置会恢复对应默认状态)。
• 【A卡智能兼容模式】:针对部分 A 系 (AMD) 显卡在底层加速时偶发的显存分配异常,本次更新引入了专属自适应保护。当检测到使用 A 卡时,将智能屏蔽易引发波动的激进并发调度(如 VAD 并发等),自动切换为"高稳定并发参数包"。
• 【语种设置最佳实践】:若您处理的音视频主要为中文,强烈建议在语言偏好中手动指定为"中文(zh)"而非"自动检测"。明确语种不仅能显著加快推理效率,还能大幅降低模型因无声音频背景引发的“幻觉”与胡言乱语问题。
【Voxly v2.8.0】
• 修复了一些小 bug,提升整体稳定性。
• 主界面微调:精简界面布局,现仅保留基本设置和字幕编辑,操作更专注。
• 新增独立偏好设置:可在主界面使用快捷键 Ctrl+F5 快速唤出完整的偏好设置窗口。
• 字幕编辑窗口增加一组新快捷键:
Ctrl+S 调整开始时间
Ctrl+E 调整结束时间
Alt+V 开关 voice over 状态播报。
【新增高级引擎与长文本设置详细说明】
1. Flash Attention (仅 GPU):针对 GPU 的显存和计算优化技术,开启后能大幅降低显存占用并显著提升转录速度。
2. VAD 静音检测:自动跳过无声片段或纯背景音,大幅提速,并有效切断模型在静音段产生幻觉的可能。
3. 幻觉/重复过滤:重构多层过滤管道(拦截极短文本、内置幻觉词库、高压缩比文本、精确重复与滑动窗口死循环),配合 VAD 可杜绝绝大多数模型幻觉。
4. 束搜索大小 (Beam Size) & Best Of:控制模型生成文本时的候选路径和挑选数量,默认为5,设为0则根据模型大小智能自适应。
5. 最大分段长度限制:强制限制单条字幕的最大字符长度,防止模型失控生成超长文本(Runaway 幻觉),结合词边界切分使断句更自然。
6. 自定义提示词 (Prompt):输入前置上下文以引导模型输出风格或纠正专业术语,留空则自动按语言生成默认引导。
7. 长文本处理策略更新:自动拆分功能现在可选择“自动拆分(基于标点优先级将超长句拆分为多个时间轴)”或“自动换行(不拆分时间轴,仅在单条字幕内部换行)”。
【Voxly v2.7.0-p102】
进一步提升转录过程的稳定性,增加对a系显卡支持。
更新后,可以手动到安装目录删除以下文件
cublas64_12.dll
cublasLt64_12.dll
cudart64_12.dll
ggml.dll
ggml-base.dll
ggml-cpu.dll
ggml-cuda.dll
nvblas64_12.dll
nvrtc64_120_0.dll
nvrtc-builtins64_124.dll
SDL2.dll
whisper.dll
whisper-cli.exe
只要确保安装目录中包含以下组件文件及文件夹即可
CPU
GPU-a
GPU-n
用于ffmpeg的
avcodec-62.dll
avdevice-62.dll
avfilter-11.dll
avformat-62.dll
avutil-60.dll
ffmpeg.exe
ffplay.exe
ffprobe.exe
swresample-6.dll
swscale-9.dll
v2.7.0.101
字幕编辑窗口增加一组新快捷键:
Ctrl+S 调整开始时间
Ctrl+E 调整结束时间
Alt+V 开关 voice over 状态播报。
v2.7.0-p100
问题修复和稳定性增强。
2.7.0-p99
解决偶现更新失败问题。
其他问题修复和稳定性增强
2.7.0-p9
为确保版本一致性,本次更新同步升级视频合成器组件(VideoSubtitleSynth),实现字幕编写→预览→合成的完整工作流联通。
【同步更新:VideoSubtitleSynth 2.6.0-p3】
• 支持单行字幕属性设置(加粗、自定义颜色)。
• 新增时间轴时标快捷复制:Ctrl+Shift+S(开始) / Ctrl+Shift+E(结束)。
• 新增横/竖屏字幕字号推荐:
推荐字号:
抖音 横屏 28
抖音 竖屏 32
视频号 横屏 26
视频号 竖屏 30
B站 横屏 24
B站 竖屏 28
YouTube 横屏 22
YouTube 竖屏 26
默认 22
2.6.0-p2
• 修复无字幕及音频压缩问题。
• 提升合成稳定性。
【整合近期 VideoSubtitleSynth 更新】
2.6.0
• 修复字幕位置偏移问题。
• 字幕位置改为滑块控制(0=底部 / 100=顶部)。
• 新增导出前效果预览。
2.5.0|效率优化
1. 原画输出模式避免二次压缩。
2. 字号实时预览,提升编辑体验。
3. UI 与交互重构,减少无效操作。
【以下为主程序历史更新】
2.7.0-p8
• 修复 GPU 勾选状态读取异常。
• 修复字幕拆分状态读取异常。
2.7.0-p7|字幕编辑增强
• 字幕合并(F10)。
• 连续播放模式(F5)。
• 阅读模式支持隐藏时间轴。
2.7.0-p6|转录优化
• 修复多文件转录死循环与乱码问题。
• 强化实时清洗逻辑,性能提升约 15%。
2.7.0-p5
• 修复翻译设置读写异常。
• 修复无模型情况下的重复弹窗问题。
2.7.0-p4
• 修复目录权限异常。
2.7.0-p3|字幕编辑能力升级
1. 查找与替换支持:Ctrl+F / Ctrl+H。
2. 支持手动保存与导出。
3. 默认启用同步文件机制。
2.7.0-p2|架构升级
1. GPU 与 CPU 转录独立引擎。
2. 转录效率提升。
3. CPU 大模型性能预警机制。
4. 字幕编辑增强(含无障碍支持)。
5. 模型管理优化。
2.7.0-p1
• 发布 2.7.0 Beta,支持基础字幕编辑、视频导出与模型调用。
视频字幕合成器 (v2.7.0-p3)
2.7.0-p3
修复音频加图片加字幕无法和成问题。
2.7.0-p2
本版以正式支持打码功能。
导入视频后点击添加马赛克按钮,输入开始时间和结束时间,点击确定即可添加成功。在数据列表中也可以切换到马赛克管理来在表格中编辑添加的马赛克的时间。
2.7.0-p1
• 修复偶现的异常退出问题
• 支持多媒体字幕合成,可导入多个音视频与字幕文件,按顺序自动合成。
• 引入工程机制,可新建工程并导入素材进行编辑,支持保存/另存工程,保存时可选是否包含源文件,亦可打包后在其他设备继续编辑。程序自动与工程文件关联。
• 新增快捷键列表:
Alt+1/2/3 在视频、字幕、图片列表间切换
Alt+Ctrl+左/右光标 切换媒体文件
Alt+Ctrl+上/下光标 切换字幕文件
Delete删除所选媒体/字幕
Alt+V 导入媒体
Alt+S 导入字幕
Alt+P 导入图片
Alt+E 合成视频
Ctrl+E 进入单行字幕属性编辑窗口
Ctrl+N/O/S 新建/打开/保存工程
F5 预览视频
(其余快捷键保持不变)
2.6.0-p3
• 修复上版遗留问题及小型 Bug。
• 支持单行字幕属性(加粗、文字颜色)。
• 新增时间轴标记快捷复制:Ctrl+Shift+S(开始) / Ctrl+Shift+E(结束)。
• 字幕字号场景建议如下:
抖音 横屏 28
抖音 竖屏 32
视频号 横屏 26
视频号 竖屏 30
B站 横屏 24
B站 竖屏 28
YouTube 横屏 22
YouTube 竖屏 26
默认 22
2.6.0-p2
• 修复无字幕问题与音频压缩问题,增强合成稳定性。
2.6.0
• 修复字幕位置偏移,并改为滑块控制与预览模式。
2.5.0|体验升级
1. 原画输出模式。
2. 字号实时预览。
3. UI 交互优化。
2.4|专业增强
1. 一键平台风格(抖音/快手/视频号/YouTube/电影感)。
2. 字体、描边与背景框。
3. 字幕排版与外观增强。
4. 导出加速与兼容性优化。
2.3|基础优化
1. 支持 SRT/ASS 导入导出。
2. 增加基础转录功能。
3. UI 精简与性能优化。
2.2|初版发布
• 提供基础字幕编辑、预览与导出。
• 支持颜色与简单位置调整。