前段时间看到这个项目https://github.com/LeonardNJU/VocoType-linux,我试了一下,虽然可以用,但是在deepin上有不少问题,而且识别方面也有一些问题需要解决。正好过节有时间,我搓了一个完全离线的中文语音输入法,基于 Fcitx5 框架。目前核心功能已经没问题了,但细节和体验都还有很多不足。现在先拿出来请大家尝个鲜,后面继续改进和开源。
市面上的语音输入法大多需要联网,语音数据会上传到云端处理。而且在linux下基本上就没有一个真正可用的免费中文语音输入法。随着大模型技术的成熟,做一个完全离线的方案,保护用户隐私,同时也能在没有网络的环境下使用,已经可行了。虽然离线识别的准确率可能不如云端,但对于日常使用我现在测试感觉应该够用了。
# 下载地址 wget http://107.173.178.157/droplet-voice-input_0.1.0_amd64.deb 还没打算做网站,现在软件还不成熟。 # 安装 sudo dpkg -i droplet-voice-input_0.1.0_amd64.deb sudo apt-get install -f (如果需要的话)
fcitx5 -r
或者注销重新登录。
在 Fcitx5 配置中添加"水滴语音输入法"。
fcitx切换到语音输入法后(任务栏图标是个麦克风)
逗号的插入还不够准确,有时候明显停顿了也不会插入逗号,有时候又会插入多余的逗号。我已经调整了几次参数,但还是不够理想。
测试建议:
说话比较轻或者末尾发音较短时,最后一个字可能会丢失。我调整了 VAD 参数,应该有所改善,但可能还不够完美。
环境中有其他人说话时,可能会被误识别。目前提高了 VAD 启动阈值来减少干扰,但可能会导致轻声说话时无法触发识别。尽量在一个人安静的地方使用,后面应该有办法改善。
在虚拟机中运行设置界面时,可能会出现黑屏。这是 egui 与虚拟机 GPU 加速的兼容性问题。
临时解决方案:
LIBGL_ALWAYS_SOFTWARE=1 vinput-settings
离线模型的准确率肯定不如云端,特别是:
配置文件位于:~/.config/vinput/config.toml
~/.config/vinput/config.toml
可以手动调整参数,例如:
# 标点配置 [punctuation] pause_ratio = 1.8 # 停顿检测阈值(1.5-2.5) min_tokens = 5 # 开始检测的最小词数 # VAD 配置 [vad] start_threshold = 0.7 # 启动阈值(0.5-0.9) min_silence_duration = 700 # 最小静音时长(毫秒) # 端点检测 [endpoint] trailing_silence_ms = 1000 # 结束后等待时长(毫秒)
这个项目还不成熟,肯定存在各种问题。非常欢迎大家测试并反馈:
可以在本帖回复,或者提交到项目仓库(待补充)。
如果大家反馈还不错,我会继续完善:
感谢以下开源项目:
本软件为个人学习项目,仅供测试使用。使用过程中如遇到任何问题,作者不承担任何责任。建议在非重要场合测试,重要文档请及时保存。
再次感谢大家的支持和测试! 如果你觉得这个项目有意思,欢迎点赞、收藏、转发!
附件:
版本:v0.1.0 (测试版) 发布日期:2026-02-18 适用系统:Deepin V25
大佬厉害
老罗,你吵到我用TNT了!
Featured Collection
Popular Ranking
Popular Events
【首发】水滴语音输入法 - 完全离线的中文语音输入法(测试版)
前段时间看到这个项目https://github.com/LeonardNJU/VocoType-linux,我试了一下,虽然可以用,但是在deepin上有不少问题,而且识别方面也有一些问题需要解决。正好过节有时间,我搓了一个完全离线的中文语音输入法,基于 Fcitx5 框架。目前核心功能已经没问题了,但细节和体验都还有很多不足。现在先拿出来请大家尝个鲜,后面继续改进和开源。
项目初衷
市面上的语音输入法大多需要联网,语音数据会上传到云端处理。而且在linux下基本上就没有一个真正可用的免费中文语音输入法。随着大模型技术的成熟,做一个完全离线的方案,保护用户隐私,同时也能在没有网络的环境下使用,已经可行了。虽然离线识别的准确率可能不如云端,但对于日常使用我现在测试感觉应该够用了。
主要特性
技术栈
系统要求
目前只测试了deepin 25,由于基本都是静态链接和编译,依赖很少,理论上都能运行。
安装方法
1. 下载安装包
2. 重启 Fcitx5
或者注销重新登录。
3. 添加输入法
在 Fcitx5 配置中添加"水滴语音输入法"。
4. 开始使用
fcitx切换到语音输入法后(任务栏图标是个麦克风)
按了space后,光标所在位置会浮窗提示“开始录音”
注意:设置中的键盘设置和切换模式现在还没有做,目前就这一种方式
已知问题
1. 标点符号识别
逗号的插入还不够准确,有时候明显停顿了也不会插入逗号,有时候又会插入多余的逗号。我已经调整了几次参数,但还是不够理想。
测试建议:
2. 末尾字丢失
说话比较轻或者末尾发音较短时,最后一个字可能会丢失。我调整了 VAD 参数,应该有所改善,但可能还不够完美。
3. 背景噪音干扰
环境中有其他人说话时,可能会被误识别。目前提高了 VAD 启动阈值来减少干扰,但可能会导致轻声说话时无法触发识别。尽量在一个人安静的地方使用,后面应该有办法改善。
4. GUI 设置界面黑屏(虚拟机环境)
在虚拟机中运行设置界面时,可能会出现黑屏。这是 egui 与虚拟机 GPU 加速的兼容性问题。
临时解决方案:
5. 识别准确率
离线模型的准确率肯定不如云端,特别是:
6. 性能问题
配置文件
配置文件位于:
~/.config/vinput/config.toml可以手动调整参数,例如:
使用技巧
反馈渠道
这个项目还不成熟,肯定存在各种问题。非常欢迎大家测试并反馈:
可以在本帖回复,或者提交到项目仓库(待补充)。
后续计划
如果大家反馈还不错,我会继续完善:
致谢
感谢以下开源项目:
免责声明
本软件为个人学习项目,仅供测试使用。使用过程中如遇到任何问题,作者不承担任何责任。建议在非重要场合测试,重要文档请及时保存。
再次感谢大家的支持和测试!
如果你觉得这个项目有意思,欢迎点赞、收藏、转发!
附件:
下载地址 http://107.173.178.157/droplet-voice-input_0.1.0_amd64.deb
版本:v0.1.0 (测试版)
发布日期:2026-02-18
适用系统:Deepin V25