Vid2Doc 用户使用指南

欢迎使用 Vid2Doc！这是一款专为视频内容创作者、学生和职场人士设计的生产力工具。它能将视频（如会议录屏、网课、技术教程）自动转换为结构清晰、图文并茂的 Word 文档。

📚 目录

快速入门
详细功能说明
常见问题解答

1. 快速入门

只需简单三步，即可将视频变为文档。

第一步：配置 AI 服务 (首次运行必须)

由于 Vid2Doc 依赖先进的 AI 模型来听懂视频内容，您需要先配置 API 信息。

1. 获取 API Key (推荐)

如果您没有现成的 API Key，推荐使用稳定的大模型中转平台 智拓AI (ai.ztough.cn)。

访问平台: 打开 https://ai.ztough.cn 并注册/登录。
获取 Key: 进入控制台，在令牌（Token）管理页面创建一个新令牌。
- 渠道选择: 建议选择 Auto 以获得最佳稳定性。
- 复制 Key: 创建成功后，复制以 sk- 开头的密钥字符串。
充值: 如果余额不足，请在平台“钱包”页面进行充值。

2. 软件设置

打开软件，点击界面顶部的 "设置" 标签页。
大模型地址:
默认为推荐地址 https://ai.ztough.cn/v1。
如果您有其他支持 OpenAI 格式的 API 地址，也可以在此修改。
大模型密钥 (API Key):
在此粘贴您刚才获取的 API Key。
重要提示: 请确保您的 API 服务商支持 gpt-audio-2025-08-28 模型，这是本软件指定使用的语音分析模型。智拓AI平台已支持该模型。
系统提示词 (可选):
您可以在这里告诉 AI 您喜欢的文档风格。例如：“你是一个技术文档专家，请用简洁的语言总结内容”。
如果留空，软件将使用默认的专业转写提示词。

设置会自动保存，无需手动点击保存按钮。

第二步：导入视频

切换回 "视频转文档" 标签页。
拖拽方式: 直接将视频文件拖入中间的虚线框区域。
点击方式: 点击蓝色的 "选择文件" 按钮，从电脑中浏览选择。
支持格式: mp4, avi, mkv, mov, wmv, flv, webm

第三步：开始转换

文件加载后，点击底部的 "开始转换" 按钮。
在弹出的保存窗口中，选择您希望保存 Word 文档 (.docx) 的位置。
等待处理: 软件将自动执行以下流程：
🎧 提取音频: 从视频中分离声音。
🤖 AI 分析: 识别语音内容，生成结构化笔记，并标记出需要插图的关键时刻。
📸 智能截图: 自动在视频中寻找对应时间点的画面。
📄 生成文档: 合成最终的 Word 文件。

转换完成后，状态栏会显示绿色提示，您就可以去打开生成的文档啦！

2. 详细功能说明

🧠 智能截图技术

Vid2Doc 不仅仅是简单地按时间截图。为了避免截取到模糊的运动画面或转场特效，内置的 Smart Capture 引擎会： - 在目标时间点前后 1 秒范围内扫描。 - 自动分析画面的 稳定性 (避免动态模糊) 和 清晰度 (Brightness/Sharpness)。 - 优先选择最清晰、最稳定的静止画面插入文档。

📝 结构化排版

生成的 Word 文档会自动包含： - 标题分级: 根据视频内容的逻辑自动生成一级、二级标题。 - 列表与要点: 自动将流水账式的语音转换为清晰的列表。 - 代码块与引用: 智能识别技术内容和重点语录。

3. 常见问题解答

Q: 点击“开始转换”后报错“API 错误”？

A: 这通常是因为 API Key 配置有问题。请检查： 1. 设置中的 API Key 是否正确粘贴（不要有多余空格）。 2. 您的 API 账户余额是否充足。 3. 确认您的 API 服务商支持 gpt-audio-2025-08-28 模型。

Q: 生成的文档没有图片？

A: 请检查视频文件是否正常。如果视频在某些时间段是全黑的，或者无法读取，软件可能无法提取到有效画面。此外，如果 AI 认为某段内容不需要插图，也可能不会生成图片占位符。

Q: 转换速度慢吗？

A: 速度主要取决于两个因素： 1. 视频长度: 视频越长，处理时间越久。 2. 网络环境: 因为需要将音频数据发送给 AI 模型进行分析，上传速度会影响整体耗时。

Q: 如何修改生成的文档样式？

A: 生成的是标准 .docx 文件，您可以直接用 Microsoft Word 或 WPS 打开并进行任意编辑和美化。