第一部分:音视频转录与字幕编辑

1. 核心转录能力

基于 Whisper + FFmpeg + LibVLC 构建,兼顾准确性与稳定性。

  • 🔹 支持音频直接导入 / 视频自动转码导入
  • 🔹 自由选择推理模型 (Tiny ~ Large-v3)
  • 🔹 参数全掌控:语言、线程数、Temperature、自动拆分策略等

2. 配置记忆与任务管理

不再需要每次打开软件都重新设置。voxly 支持保存配置,并具备自动的任务记忆功能。

即开即用 · 即时恢复 · 无缝继续编辑

3. 字幕编辑与「随调随听」

这是 voxly 的核心特色。在编辑界面,高效完成新增、翻译、拆分合并。

时间轴精细控制

  • 快捷键实时调整,精度覆盖 10ms 到 1s
  • 自动检测边界,防止重叠冲突
🎧 随调随听设计:

调整时间轴的同时,实时播放对应的音频片段。让你在“听见”的状态下精确调整,类似 DAW 音频工作站的体验。

第二部分:音视频合成器

随主程序附带,支持独立更新,专注于成片输出。

视频 + 字幕合成

适用于已有视频仅需加字幕的场景。

  • ✔️ 支持 mp4 / mkv / mov 等格式
  • ✔️ 音频流直拷,无损音质
  • ✔️ 硬字幕渲染,画面保持原样

音频 + 字幕合成

将播客、访谈或歌曲转化为视频。

  • ✔️ 纯黑背景或自定义图片
  • ✔️ 自动生成 1080P 画布
  • ✔️ 字幕按时间轴精确叠加

样式控制系统

通过 ASS 参数控制,严格遵循用户设定。

横屏 (1920×1080) 竖屏 (1080×1920) 抖音/快手风格 YouTube CC风格 电影感