CapsWriter-Offline：电脑端离线语音输入工具开源免费

Author：胖鸟
发布时间：April 19, 2024
163 views
No comments
6695 words
Categories：好软

CapsWriter-Offline是一个PC端的语音输入、字幕转录工具，开源免费，离线使用，不用担心隐私泄露和网络问题，速度很快，支持Windows、Linux、Mac OS。

按下键盘上的 大写锁定键，录音开始，当松开 大写锁定键 时，就会识别你的录音，并将识别结果立刻输入
将音视频文件拖动到客户端打开，即可转录生成 srt 字幕

Github：https://github.com/HaujetZhao/CapsWriter-Offline

视频教程：https://www.bilibili.com/video/BV1tt4y1d75s/

CapsWriter-Offline特性：

完全离线、无限时长、低延迟、高准确率、中英混输、自动阿拉伯数字、自动调整中英间隔
热词功能：可以在 hot-en.txt hot-zh.txt hot-rule.txt 中添加三种热词，客户端动态载入
日记功能：默认每次录音识别后，识别结果记录在 年份/月份/日期.md ，录音文件保存在 年份/月份/assets
关键词日记：识别结果若以关键词开头，会被记录在 年份/月份/关键词-日期.md，关键词在 keywords.txt 中定义
转录功能：将音视频文件拖动到客户端打开，即可转录生成 srt 字幕
服务端、客户端分离，可以服务多台客户端
编辑 config.py ，可以配置服务端地址、快捷键、录音开关……

CapsWriter-Offline懒人包：

对 Windows 端：

请确保电脑上安装了 Microsoft Visual C++ Redistributable 运行库
服务端载入模型所用的 onnxruntime 只能在 Windows 10 及以上版本的系统使用
服务端载入模型需要系统内存 4G，只能在 64 位系统上使用
额外打包了 32 位系统可用的客户端，在 Windows 7 及以上版本的系统可用
模型文件较大，单独打包，解压模型后请放入软件目录的 models 文件夹中

其它系统：

其它系统，可以下载模型、安装依赖后从 Python 源码运行。
由于我没有 Mac 电脑，无法打包 Mac 版本，只能从源码运行，可能会有诸多问题要解决。（由于系统限制，客户端需要 sudo 启动，且默认快捷键为 right shift）

模型说明：

由于模型文件太大，为了方便更新，单独打包
解压模型后请放入软件目录的 models 文件夹中

下载地址：

百度盘: https://pan.baidu.com/s/1zNHstoWZDJVynCBz2yS9vg 提取码: eu4c
GitHub Release: Releases · HaujetZhao/CapsWriter-Offline

（百度网盘容易掉链接，补链接太麻烦了，我不一定会补链接。GitHub Releases 界面下载是最可靠的。）

功能：热词

如果你有专用名词需要替换，可以加入热词文件。规则文件中以 # 开头的行以及空行会被忽略，可以用作注释。

中文热词请写到 hot-zh.txt 文件，每行一个，替换依据为拼音，实测每 1 万条热词约引入 3ms 延迟
英文热词请写到 hot-en.txt 文件，每行一个，替换依据为字母拼写
自定义规则热词请写到 hot-rule.txt 文件，每行一个，将搜索和替换词以等号隔开，如 毫安时 = mAh

你可以在 core_client.py 文件中配置是否匹配中文多音字，是否严格匹配拼音声调。

检测到修改后，客户端会动态载入热词，效果示例：

例如 hot-zh.txt 有热词「我家鸽鸽」，则所有识别结果中的「我家哥哥」都会被替换成「我家鸽鸽」
例如 hot-en.txt 有热词「ChatGPT」，则所有识别结果中的「chat gpt」都会被替换成「ChatGPT」
例如 hot-rule.txt 有热词「毫安时 = mAh」，则所有识别结果中的「毫安时」都会被替换成「mAh」

功能：日记、关键词

默认每次语音识别结束后，会以年、月为分类，保存录音文件和识别结果：

录音文件存放在「年/月/assets」文件夹下
识别结果存放在「年/月/日.md」Markdown 文件中

例如今天是2023年6月5号，示例：

语音输入任一句话后，录音就会被保存到 2023/06/assets 路径下，以时间和识别结果命名，并将识别结果保存到 2023/06/05.md 文件中，方便我日后查阅
例如我在 keywords.txt 中定义了关键词「健康」，用于随时记录自己的身体状况，吃完饭后我可以按住 CapsLock 说「健康今天中午吃了大米炒饭」，由于识别结果以「健康」关键词开头，这条识别记录就会被保存到 2023/06/05-健康.md 中
例如我在 keywords.txt 中定义了关键词「重要」，用于随时记录突然的灵感，有想法时我就可以按住 CapsLock 说「重要，xx问题可以用xxxx方法解决」，由于识别结果以「重要」关键词开头，这条识别记录就会被保存到 2023/06/05-重要.md 中

功能：转录文件

在服务端运行后，将音视频文件拖动到客户端打开，即可转录生成四个同名文件：

json 文件，包含了字级时间戳
txt 文件，包含了分行结果
merge.txt 文件，包含了带标点的整段结果
srt 文件，字幕文件

如果生成的字幕有微小错误，可以在分行的 txt 文件中修改，然后将 txt 文件拖动到客户端打开，客户端检测到输入的是 txt 文件，就会查到同名的 json 文件，结合 json 文件中的字级时间戳和 txt 文件中修正结果，更新 srt 字幕文件。

注意事项

当用户安装了 FFmpeg 时，会以 mp3 格式保存录音；当用户没有装 FFmpeg 时，会以 wav 格式保存录音
音视频文件转录功能依赖于 FFmpeg，打包版本已内置 FFmpeg
默认的快捷键是 caps lock，你可以打开 core_client.py 进行修改
MacOS 无法监测到 caps lock 按键，可改为 right shift 按键

修改配置

你可以编辑 config.py ，在开头部分有注释，指导你修改服务端、客户端的：

连接的地址和端口，默认是 127.0.0.1 和 6006
键盘快捷键
是否要保存录音文件
要移除识别结果末尾的哪些标点，（如果你想把句尾的问号也删除掉，可以在这边加上）

下载模型

服务端使用了 sherpa-onnx ，载入阿里巴巴开源的 Paraformer 模型（转为量化的onnx格式），来作语音识别，整个模型约 230MB 大小。下载有已转换好的模型文件：

csukuangfj/sherpa-onnx-paraformer-zh-2023-09-14

另外，还使用了阿里巴巴的标点符号模型，大小约 1GB：

CT-Transformer标点-中英文-通用-large-onnx

模型文件太大，并没有包含在 GitHub 库里面，你可以从百度网盘或者 GitHub Releases 界面下载已经转换好的模型文件，解压后，将 models 文件夹放到软件根目录

自启动、隐藏窗口、拖盘图标、Docker

Windows 隐藏黑窗口启动，见 #49，将下述内容保存为 vbs 运行：

CreateObject("Wscript.Shell").Run "start_server.exe",0,True
CreateObject("Wscript.Shell").Run "start_client.exe",0,True

Windows 自启动，新建快捷方式，放到 shell:startup 目录下即可。

带拖盘图标的 GUI 版，见 H1DDENADM1N/CapsWriter-Offline-and-Portable-(PyStand))

Docker 版，见 Garonix/CapsWriter-Offline at docker-support

源码安装依赖

[New] Linux 端

# for core_server.py
pip install -r requirements-server.txt  -i https://mirror.sjtu.edu.cn/pypi/web/simple
# [NOTE]: kaldi-native-fbank==1.17(使用1.18及以上会报错`lib/python3.10/site-packages/_kaldi_native_fbank.cpython-310-x86_64-linux-gnu.so: undefined symbol: _ZN3knf24OnlineGenericBaseFeatureINS_22WhisperFeatureComputerEE13InputFinishedEv`)

# for core_client.py
pip install -r requirements-client.txt  -i https://mirror.sjtu.edu.cn/pypi/web/simple
sudo apt-get install xclip   # 让core_client.py正常运行

运行方式 core_server.py # 无需以 root 权限运行 core_client.py # 注意: 必须以 root 权限运行!!

Windows 端

pip install -r requirements-server.txt
pip install -r requirements-client.txt

有些依赖在 Python 3.11 还暂时不无法安装，建议使用 Python 3.8 - Python3.10

Mac 端

在 Arm 芯片的 MacOS 电脑上（如 MacBook M1）无法使用 pip 安装 sherpa_onnx ，需要手动从源代码安装：

git clone https://github.com/k2-fsa/sherpa-onnx
cd sherpa-onnx
python3 setup.py install

在 MacOS 上，安装 funasr_onnx 依赖的时候可能会报错，缺失 protobuf compiler，可以通过 brew install protobuf 解决。

源码运行

运行 core_server.py 脚本，会载入 Paraformer 模型识别模型和标点模型（这会占用2GB的内存，载入时长约 50 秒）
运行 core_client.py 脚本，它会打开系统默认麦克风，开始监听按键（MacOS 端需要 sudo）
按住 CapsLock 键，录音开始，松开 CapsLock 键，录音结束，识别结果立马被输入（录音时长短于0.3秒不算）

MacOS 端注意事项：

MacOS 上监听 CapsLock 键可能会出错，需要快捷键修改为其他按键，如 right shift

打包方法

Windows/MacOS/Linux均使用如下命令完成打包: pyinstaller build.spec

运行方式

Linux

双击 run.sh 自动输入sudo密码且实现左右分屏展示

如果觉得我的文章对你有用，请随意赞赏

CapsWriter-Offline：电脑端离线语音输入工具开源免费

胖鸟 • 2024 年 04 月 19 日

<p><a href="https://pangniao.net/tag/CapsWriter/"target="_blank" title="CapsWriter">CapsWriter</a>-Offline是一个PC端的语音输入、字幕转录工具，<a href="https://pangniao.net/tag/%E5%BC%80%E6%BA%90/"target="_blank" title="开源">开源</a><a href="https://pangniao.net/tag/%E5%85%8D%E8%B4%B9/"target="_blank" title="免费">免费</a>，离线使用，不用担心隐私泄露和网络问题，速度很快，支持<a href="https://pangniao.net/tag/Windows/"target="_blank" title="Windows">Windows</a>、<a href="https://pangniao.net/tag/Linux/"target="_blank" title="Linux">Linux</a>、<a href="https://pangniao.net/tag/Mac-OS/"target="_blank" title="Mac OS">Mac OS</a>。</p><blockquote><ol><li>按下键盘上的 <code>大写锁定键</code>，录音开始，当松开 <code>大写锁定键</code> 时，就会识别你的录音，并将识别结果立刻输入</li><li>将音<a href="https://pangniao.net/tag/%E8%A7%86%E9%A2%91/"target="_blank" title="视频">视频</a>文件拖动到客户端打开，即可转录生成 srt 字幕</li></ol></blockquote><p><div class="tip inlineBlock info"><a href="https://pangniao.net/tag/Github/"target="_blank" title="Github">Github</a>：<a href="https://pangniao.net/go/aHR0cHM6Ly9naXRodWIuY29tL0hhdWpldFpoYW8vQ2Fwc1dyaXRlci1PZmZsaW5l" target="_blank" >https://github.com/HaujetZhao/CapsWriter-Offline</a></div><p><div class="tip inlineBlock info"><a href="https://pangniao.net/tag/%E8%A7%86%E9%A2%91/"target="_blank" title="视频">视频</a><a href="https://pangniao.net/tag/%E6%95%99%E7%A8%8B/"target="_blank" title="教程">教程</a>：<a href="https://pangniao.net/go/aHR0cHM6Ly93d3cuYmlsaWJpbGkuY29tL3ZpZGVvL0JWMXR0NHkxZDc1cy8" target="_blank" >https://www.bilibili.com/video/BV1tt4y1d75s/</a></div><p><img src="https://pangniao.cdn.bcebos.com/usr/themes/handsome/assets/img/loading.svg" alt="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" title="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" style=""data-original="https://pangniao.cdn.bcebos.com/usr/uploads/2024/04/4172299877.png?x-bce-process=image/watermark,text_UGFuZ05pYW8ubmV0,size_18,g_9,x_10,y_10,a_0,type_RlpIZWk=,style_normal,color_ffffff"></p><h2><a href="https://pangniao.net/tag/CapsWriter/"target="_blank" title="CapsWriter">CapsWriter</a>-Offline特性：</h2><ol><li>完全离线、无限时长、低延迟、高准确率、中英混输、自动阿拉伯数字、自动调整中英间隔</li><li>热词功能：可以在 <code>hot-en.txt hot-zh.txt hot-rule.txt</code> 中添加三种热词，客户端动态载入</li><li>日记功能：默认每次录音识别后，识别结果记录在 <code>年份/月份/日期.md</code> ，录音文件保存在 <code>年份/月份/assets</code></li><li>关键词日记：识别结果若以关键词开头，会被记录在 <code>年份/月份/关键词-日期.md</code>，关键词在 <code>keywords.txt</code> 中定义</li><li>转录功能：将音<a href="https://pangniao.net/tag/%E8%A7%86%E9%A2%91/"target="_blank" title="视频">视频</a>文件拖动到客户端打开，即可转录生成 srt 字幕</li><li>服务端、客户端分离，可以服务多台客户端</li><li>编辑 <code>config.py</code> ，可以配置服务端地址、快捷键、录音开关……</li></ol><h2><a href="https://pangniao.net/tag/CapsWriter/"target="_blank" title="CapsWriter">CapsWriter</a>-Offline懒人包：</h2><p>对 <a href="https://pangniao.net/tag/Windows/"target="_blank" title="Windows">Windows</a> 端：</p><ol><li>请确保电脑上安装了 <a href="https://pangniao.net/go/aHR0cHM6Ly9sZWFybi5taWNyb3NvZnQuY29tL3poLWNuL2NwcC93aW5kb3dzL2xhdGVzdC1zdXBwb3J0ZWQtdmMtcmVkaXN0" target="_blank" >Microsoft Visual C++ Redistributable 运行库</a></li><li>服务端载入模型所用的 onnxruntime 只能在 <a href="https://pangniao.net/tag/Windows/"target="_blank" title="Windows">Windows</a> 10 及以上版本的系统使用</li><li>服务端载入模型需要系统内存 4G，只能在 64 位系统上使用</li><li>额外打包了 32 位系统可用的客户端，在 Windows 7 及以上版本的系统可用</li><li>模型文件较大，单独打包，解压模型后请放入软件目录的 <code>models</code> 文件夹中</li></ol><p>其它系统：</p><ol><li>其它系统，可以<a href="https://pangniao.net/tag/%E4%B8%8B%E8%BD%BD/"target="_blank" title="下载">下载</a>模型、安装依赖后从 Python 源码运行。</li><li>由于我没有 Mac 电脑，无法打包 Mac 版本，只能从源码运行，可能会有诸多问题要解决。（由于系统限制，客户端需要 sudo 启动，且默认快捷键为 <code>right shift</code>）</li></ol><p>模型说明：</p><ol><li>由于模型文件太大，为了方便更新，单独打包</li><li>解压模型后请放入软件目录的 <code>models</code> 文件夹中</li></ol><p><a href="https://pangniao.net/tag/%E4%B8%8B%E8%BD%BD/"target="_blank" title="下载">下载</a>地址：</p><ul><li><a href="https://pangniao.net/tag/%E7%99%BE%E5%BA%A6/"target="_blank" title="百度">百度</a>盘: <a href="https://pangniao.net/go/aHR0cHM6Ly9wYW4uYmFpZHUuY29tL3MvMXpOSHN0b1daREpWeW5DQnoyeVM5dmc" target="_blank" >https://pan.baidu.com/s/1zNHstoWZDJVynCBz2yS9vg</a> 提取码: eu4c</li><li>GitHub Release: <a href="https://pangniao.net/go/aHR0cHM6Ly9naXRodWIuY29tL0hhdWpldFpoYW8vQ2Fwc1dyaXRlci1PZmZsaW5lL3JlbGVhc2Vz" target="_blank" >Releases · HaujetZhao/CapsWriter-Offline</a></li></ul><p>（<a href="https://pangniao.net/tag/%E7%99%BE%E5%BA%A6%E7%BD%91%E7%9B%98/"target="_blank" title="百度网盘">百度网盘</a>容易掉链接，补链接太麻烦了，我不一定会补链接。GitHub Releases 界面<a href="https://pangniao.net/tag/%E4%B8%8B%E8%BD%BD/"target="_blank" title="下载">下载</a>是最可靠的。）</p><p><img src="https://pangniao.cdn.bcebos.com/usr/themes/handsome/assets/img/loading.svg" alt="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" title="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" style=""data-original="https://pangniao.cdn.bcebos.com/usr/uploads/2024/04/1412163968.png?x-bce-process=image/watermark,text_UGFuZ05pYW8ubmV0,size_18,g_9,x_10,y_10,a_0,type_RlpIZWk=,style_normal,color_ffffff"></p><h2>功能：热词</h2><p>如果你有专用名词需要替换，可以加入热词文件。规则文件中以 <code>#</code> 开头的行以及空行会被忽略，可以用作注释。</p><ul><li>中文热词请写到 <code>hot-zh.txt</code> 文件，每行一个，替换依据为拼音，实测每 1 万条热词约引入 3ms 延迟</li><li>英文热词请写到 <code>hot-en.txt</code> 文件，每行一个，替换依据为字母拼写</li><li>自定义规则热词请写到 <code>hot-rule.txt</code> 文件，每行一个，将搜索和替换词以等号隔开，如 <code>毫安时  =  mAh</code></li></ul><p>你可以在 <code>core_client.py</code> 文件中配置是否匹配中文多音字，是否严格匹配拼音声调。</p><p>检测到修改后，客户端会动态载入热词，效果示例：</p><ol><li>例如 <code>hot-zh.txt</code> 有热词「我家鸽鸽」，则所有识别结果中的「我家哥哥」都会被替换成「我家鸽鸽」</li><li>例如 <code>hot-en.txt</code> 有热词「<a href="https://pangniao.net/tag/ChatGPT/"target="_blank" title="ChatGPT">ChatGPT</a>」，则所有识别结果中的「chat gpt」都会被替换成「<a href="https://pangniao.net/tag/ChatGPT/"target="_blank" title="ChatGPT">ChatGPT</a>」</li><li>例如 <code>hot-rule.txt</code> 有热词「毫安时 = mAh」，则所有识别结果中的「毫安时」都会被替换成「mAh」</li></ol><p><img src="https://pangniao.cdn.bcebos.com/usr/themes/handsome/assets/img/loading.svg" alt="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" title="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" style=""data-original="https://pangniao.cdn.bcebos.com/usr/uploads/2024/04/2773790198.png?x-bce-process=image/watermark,text_UGFuZ05pYW8ubmV0,size_18,g_9,x_10,y_10,a_0,type_RlpIZWk=,style_normal,color_ffffff"></p><h2>功能：日记、关键词</h2><p>默认每次语音识别结束后，会以年、月为分类，保存录音文件和识别结果：</p><ul><li>录音文件存放在「年/月/assets」文件夹下</li><li>识别结果存放在「年/月/日.md」Markdown 文件中</li></ul><p>例如今天是2023年6月5号，示例：</p><ol><li>语音输入任一句话后，录音就会被保存到 <code>2023/06/assets</code> 路径下，以时间和识别结果命名，并将识别结果保存到 <code>2023/06/05.md</code> 文件中，方便我日后查阅</li><li>例如我在 <code>keywords.txt</code> 中定义了关键词「健康」，用于随时记录自己的身体状况，吃完饭后我可以按住 <code>CapsLock</code> 说「健康今天中午吃了大米炒饭」，由于识别结果以「健康」关键词开头，这条识别记录就会被保存到 <code>2023/06/05-健康.md</code> 中</li><li>例如我在 <code>keywords.txt</code> 中定义了关键词「重要」，用于随时记录突然的灵感，有想法时我就可以按住 <code>CapsLock</code> 说「重要，xx问题可以用xxxx方法解决」，由于识别结果以「重要」关键词开头，这条识别记录就会被保存到 <code>2023/06/05-重要.md</code> 中</li></ol><p><img src="https://pangniao.cdn.bcebos.com/usr/themes/handsome/assets/img/loading.svg" alt="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" title="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" style=""data-original="https://pangniao.cdn.bcebos.com/usr/uploads/2024/04/4032328197.png?x-bce-process=image/watermark,text_UGFuZ05pYW8ubmV0,size_18,g_9,x_10,y_10,a_0,type_RlpIZWk=,style_normal,color_ffffff"></p><h2>功能：转录文件</h2><p>在服务端运行后，将音视频文件拖动到客户端打开，即可转录生成四个同名文件：</p><ul><li><code>json</code> 文件，包含了字级时间戳</li><li><code>txt</code> 文件，包含了分行结果</li><li><code>merge.txt</code> 文件，包含了带标点的整段结果</li><li><code>srt</code> 文件，字幕文件</li></ul><p>如果生成的字幕有微小错误，可以在分行的 <code>txt</code> 文件中修改，然后将 <code>txt</code> 文件拖动到客户端打开，客户端检测到输入的是 <code>txt</code> 文件，就会查到同名的 <code>json</code> 文件，结合 <code>json</code> 文件中的字级时间戳和 <code>txt</code> 文件中修正结果，更新 <code>srt</code> 字幕文件。</p><h2>注意事项</h2><ol><li>当用户安装了 <code>FFmpeg</code> 时，会以 <code>mp3</code> 格式保存录音；当用户没有装 <code>FFmpeg</code> 时，会以 <code>wav</code> 格式保存录音</li><li>音视频文件转录功能依赖于 <code>FFmpeg</code>，打包版本已内置 <code>FFmpeg</code></li><li>默认的快捷键是 <code>caps lock</code>，你可以打开 <code>core_client.py</code> 进行修改</li><li>MacOS 无法监测到 <code>caps lock</code> 按键，可改为 <code>right shift</code> 按键</li></ol><h2>修改配置</h2><p>你可以编辑 <code>config.py</code> ，在开头部分有注释，指导你修改服务端、客户端的：</p><ul><li>连接的地址和端口，默认是 <code>127.0.0.1</code> 和 <code>6006</code></li><li>键盘快捷键</li><li>是否要保存录音文件</li><li>要移除识别结果末尾的哪些标点，（如果你想把句尾的问号也删除掉，可以在这边加上）</li></ul><p><img src="https://pangniao.cdn.bcebos.com/usr/themes/handsome/assets/img/loading.svg" alt="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" title="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" style=""data-original="https://pangniao.cdn.bcebos.com/usr/uploads/2024/04/4261995237.png?x-bce-process=image/watermark,text_UGFuZ05pYW8ubmV0,size_18,g_9,x_10,y_10,a_0,type_RlpIZWk=,style_normal,color_ffffff"></p><h2>下载模型</h2><p>服务端使用了 <a href="https://pangniao.net/go/aHR0cHM6Ly9rMi1mc2EuZ2l0aHViLmlvL3NoZXJwYS9vbm54L2luZGV4Lmh0bWw" target="_blank" >sherpa-onnx</a> ，载入阿里巴巴<a href="https://pangniao.net/tag/%E5%BC%80%E6%BA%90/"target="_blank" title="开源">开源</a>的 <a href="https://pangniao.net/go/aHR0cHM6Ly93d3cubW9kZWxzY29wZS5jbi9tb2RlbHMvZGFtby9zcGVlY2hfcGFyYWZvcm1lci1sYXJnZS12YWQtcHVuY19hc3JfbmF0LXpoLWNuLTE2ay1jb21tb24tdm9jYWI4NDA0LXB5dG9yY2g" target="_blank" >Paraformer</a> 模型（<a href="https://pangniao.net/go/aHR0cHM6Ly9rMi1mc2EuZ2l0aHViLmlvL3NoZXJwYS9vbm54L3ByZXRyYWluZWRfbW9kZWxzL29mZmxpbmUtcGFyYWZvcm1lci9wYXJhZm9ybWVyLW1vZGVscy5odG1s" target="_blank" >转为量化的onnx格式</a>），来作语音识别，整个模型约 230MB 大小。下载有已转换好的模型文件：</p><ul><li><a href="https://pangniao.net/go/aHR0cHM6Ly9odWdnaW5nZmFjZS5jby9jc3VrdWFuZ2ZqL3NoZXJwYS1vbm54LXBhcmFmb3JtZXItemgtMjAyMy0wOS0xNA" target="_blank" >csukuangfj/sherpa-onnx-paraformer-zh-2023-09-14</a></li></ul><p>另外，还使用了阿里巴巴的标点符号模型，大小约 1GB：</p><ul><li><a href="https://pangniao.net/go/aHR0cHM6Ly93d3cubW9kZWxzY29wZS5jbi9tb2RlbHMvZGFtby9wdW5jX2N0LXRyYW5zZm9ybWVyX2NuLWVuLWNvbW1vbi12b2NhYjQ3MTA2Ny1sYXJnZS1vbm54L3N1bW1hcnk" target="_blank" >CT-Transformer标点-中英文-通用-large-onnx</a></li></ul><p><strong>模型文件太大，并没有包含在 GitHub 库里面，你可以从<a href="https://pangniao.net/tag/%E7%99%BE%E5%BA%A6%E7%BD%91%E7%9B%98/"target="_blank" title="百度网盘">百度网盘</a>或者 GitHub Releases 界面下载已经转换好的模型文件，解压后，将 <code>models</code> 文件夹放到软件根目录</strong></p><h2>自启动、隐藏窗口、拖盘图标、Docker</h2><p>Windows 隐藏黑窗口启动，见 <a href="https://pangniao.net/go/aHR0cHM6Ly9naXRodWIuY29tL0hhdWpldFpoYW8vQ2Fwc1dyaXRlci1PZmZsaW5lL2lzc3Vlcy80OQ" target="_blank" >#49</a>，将下述内容保存为 vbs 运行：</p><pre><code>CreateObject(&quot;Wscript.Shell&quot;).Run &quot;start_server.exe&quot;,0,True
CreateObject(&quot;Wscript.Shell&quot;).Run &quot;start_client.exe&quot;,0,True</code></pre><p>Windows 自启动，新建快捷方式，放到 <code>shell:startup</code> 目录下即可。</p><p>带拖盘图标的 GUI 版，见 <a href="https://pangniao.net/go/aHR0cHM6Ly9naXRodWIuY29tL0gxRERFTkFETTFOL0NhcHNXcml0ZXItT2ZmbGluZS90cmVlL0dVSS0oUHlTaWRlNg" target="_blank" >H1DDENADM1N/CapsWriter-Offline</a>-and-Portable-(PyStand))</p><p>Docker 版，见 <a href="https://pangniao.net/go/aHR0cHM6Ly9naXRodWIuY29tL0dhcm9uaXgvQ2Fwc1dyaXRlci1PZmZsaW5lL3RyZWUvZG9ja2VyLXN1cHBvcnQ" target="_blank" >Garonix/CapsWriter-Offline at docker-support</a></p><h2>源码安装依赖</h2><h3>[New] <a href="https://pangniao.net/tag/Linux/"target="_blank" title="Linux">Linux</a> 端</h3><pre><code># for core_server.py
pip install -r requirements-server.txt  -i https://mirror.sjtu.edu.cn/pypi/web/simple
# [NOTE]: kaldi-native-fbank==1.17(使用1.18及以上会报错`lib/python3.10/site-packages/_kaldi_native_fbank.cpython-310-x86_64-linux-gnu.so: undefined symbol: _ZN3knf24OnlineGenericBaseFeatureINS_22WhisperFeatureComputerEE13InputFinishedEv`)

# for core_client.py
pip install -r requirements-client.txt  -i https://mirror.sjtu.edu.cn/pypi/web/simple
sudo apt-get install xclip   # 让core_client.py正常运行</code></pre><p><strong>运行方式</strong> <code>core_server.py</code> # 无需以 root 权限运行 <code>core_client.py</code> # 注意: 必须以 root 权限运行!!</p><h3>Windows 端</h3><pre><code>pip install -r requirements-server.txt
pip install -r requirements-client.txt</code></pre><p>有些依赖在 <code>Python 3.11</code> 还暂时不无法安装，建议使用 <code>Python 3.8 - Python3.10</code></p><h3>Mac 端</h3><p>在 Arm 芯片的 MacOS 电脑上（如 MacBook M1）无法使用 pip 安装 <code>sherpa_onnx</code> ，需要手动从源代码安装：</p><pre><code>git clone https://github.com/k2-fsa/sherpa-onnx
cd sherpa-onnx
python3 setup.py install</code></pre><p>在 MacOS 上，安装 <code>funasr_onnx</code> 依赖的时候可能会报错，缺失 <code>protobuf compiler</code>，可以通过 <code>brew install protobuf</code> 解决。</p><h2>源码运行</h2><ol><li>运行 <code>core_server.py</code> 脚本，会载入 Paraformer 模型识别模型和标点模型（这会占用2GB的内存，载入时长约 50 秒）</li><li>运行 <code>core_client.py</code> 脚本，它会打开系统默认麦克风，开始监听按键（<code>MacOS</code> 端需要 <code>sudo</code>）</li><li>按住 <code>CapsLock</code> 键，录音开始，松开 <code>CapsLock</code> 键，录音结束，识别结果立马被输入（录音时长短于0.3秒不算）</li></ol><p>MacOS 端注意事项：</p><ul><li>MacOS 上监听 <code>CapsLock</code> 键可能会出错，需要快捷键修改为其他按键，如 <code>right shift</code></li></ul><h2>打包方法</h2><p>Windows/MacOS/<a href="https://pangniao.net/tag/Linux/"target="_blank" title="Linux">Linux</a>均使用如下命令完成打包: <code>pyinstaller build.spec</code></p><h2>运行方式</h2><h3>Linux</h3><p>双击 <code>run.sh</code> 自动输入sudo密码且实现左右分屏展示</p><p><img src="https://pangniao.cdn.bcebos.com/usr/themes/handsome/assets/img/loading.svg" alt="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" title="CapsWriter-Offline：电脑端离线语音输入工具 开源免费" style=""data-original="https://pangniao.cdn.bcebos.com/usr/uploads/2024/04/2364084705.png?x-bce-process=image/watermark,text_UGFuZ05pYW8ubmV0,size_18,g_9,x_10,y_10,a_0,type_RlpIZWk=,style_normal,color_ffffff"></p>

CapsWriter-Offline：电脑端离线语音输入工具开源免费

CapsWriter-Offline特性：

CapsWriter-Offline懒人包：

功能：热词

功能：日记、关键词

功能：转录文件

注意事项

修改配置

下载模型

自启动、隐藏窗口、拖盘图标、Docker

源码安装依赖

[New] Linux 端

Windows 端

Mac 端

源码运行

打包方法

运行方式

Linux

Leave a Comment Cancel reply
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

Z-Library最新地址 Z-Library国内可访问地址

Z-Library：全球最大的数字图书馆

知乎盐选免费阅读网站

Z-Library：解决 “没有找到可用的域名”临时方法

免代理 Z-Library使用Telegram bot更方便下载书籍一劳永逸

微信公众号：Zlibrary Official 测试版客户端送一个月Premium

Simple Live：简简单单的看直播开源免费无广告全平台支持

小爱同学 Windows10 UWP版下载和安装

B23Downloader：开源bilibili视频、漫画、直播下载器

《JavaScript百炼成仙》程序员内卷江湖

CapsWriter-Offline：电脑端离线语音输入工具开源免费

CapsWriter-Offline特性：

CapsWriter-Offline懒人包：

功能：热词

功能：日记、关键词

功能：转录文件

注意事项

修改配置

下载模型

自启动、隐藏窗口、拖盘图标、Docker

源码安装依赖

[New] Linux 端

Windows 端

Mac 端

源码运行

打包方法

运行方式

Linux

Leave a Comment Cancel reply 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

CapsWriter-Offline：电脑端离线语音输入工具 开源免费

Leave a Comment Cancel reply
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

CapsWriter-Offline：电脑端离线语音输入工具开源免费