录课视频怎么自动生成中文字幕？（本地离线，不上传）

给录课视频自动生成中文字幕，最省心的办法是用本地离线语音识别：在自己电脑上把音轨转成文字，不联网、视频不上传云端，识别完还能逐句改错。下面说说几种加字幕方式的取舍，以及"本地识别"为什么更适合老师。

核心要点

给录课视频加字幕的几种方式

大致就三类，各有各的麻烦：

手动逐句打字：最准，但一节 40 分钟的课敲下来往往要一两个小时，不太现实。
在线自动字幕工具：上传视频、网站帮你识别，可你得把整段录课视频传到别人的服务器上。课堂里多半夹着学生的声音、姓名、还没公开的讲义，传上云端总归不放心，免费额度也常卡时长。
本地离线语音识别：识别在自己电脑上跑，不联网、不上传，隐私自己说了算。

要是你录的课涉及学生或校内资料，那就别犹豫，走本地这条路。

讲笔（Lecta）内置了 whisper.cpp 语音识别引擎——这是一套可以直接跑在普通电脑上的开源语音转文字模型。录完课后，讲笔会读取视频里的音轨，在本机把语音逐句转成文字，全程不联网、不上传，中文、英文以及中英混讲都能识别。

识别既然在自己电脑上跑，断网也照样出字幕，视频文件从头到尾留在本地，不经过任何第三方服务器。对要处理敏感课程内容的老师，这点其实挺要紧。讲笔免费版也能走完整的字幕流程（单次限 10 分钟、带水印、1080p），先录一小段试试效果再说。

为什么强调"本地不上传"？ 录课视频里常常夹着学生提问、点名、未公开的课件画面。在线字幕工具需要你先把整段视频上传，这些内容就离开了你的掌控。讲笔把识别放在本机完成，录像不出本地，从源头避免了这个风险。

只要录音清晰、底噪不大，普通话的中文识别准确率通常能到九成以上。当然，自动识别难免有错别字，尤其是人名、地名、学科专有名词这类。

所以识别之后，讲笔会把字幕逐句排好，你可以对照画面手动改错字：点到哪句、播到哪句，错了直接改，专有名词统一替换，几分钟就能过一遍。比从零手打省太多时间，又能保证最终字幕的准确度。

这是讲笔比较特别的一个玩法：文字剪辑。识别出来的字幕不只是字幕，它和视频画面是一一对应的——你删掉一句说错的话，对应的那段画面会自动被剪掉。

也就是说，剪视频这件事变成了"编辑一段文字"：

改完字幕，导出时还能把字幕烧录进视频（硬字幕），并支持多种分辨率导出，发到任何平台都不会丢字幕。更多能力可以看功能介绍。

普通话清晰、底噪小的录课视频，中文识别准确率通常能到九成以上。讲笔识别完会把文字逐句排好，你可以对照画面快速校对错别字和专有名词，几分钟就能改完。

不需要。讲笔内置 whisper.cpp 语音识别模型，整个转写过程都在你自己的电脑上完成，断网也能用，不依赖任何在线服务。

不会。录像和音频全程在本机处理，视频不会被上传到任何服务器，适合处理涉及学生信息或未公开课程内容的录课文件。

可以。讲笔支持把字幕直接烧录（硬字幕）进导出的视频里，也支持多种分辨率导出，发到任何平台都能正常显示。

想试试本地离线自动字幕？免费下载讲笔，录完一节课就能体验自动出字幕和"改字幕即剪视频"。

用讲笔录下一节课

免费下载，macOS 与 Windows 均可用。边讲边标注，录完自动出字幕。