[App Sharing] 水滴中文离线语音输入法更新0.2版,开发动口不动手
Tofloor
poster avatar
d***n@outlook.com
deepin
2026-02-26 22:08
Author

上次发布的0.1,下载地址被墙了,很多朋友没有下载成功,这次换个服务器,应该没问了。

http://38.207.133.74/droplet-voice-input_0.2.2_amd64.deb

项目初衷

市面上的语音输入法大多需要联网使用云端的语音API,不但使用门槛较高(要自己去申请api)语音,而且数据会上传到云端处理。

随着大模型技术的成熟,做一个完全离线的方案,保护用户隐私,同时也能在没有网络的环境下使用,已经可行了。虽然离线识别的准确率可能不如云端,但对于日常使用现在测试感觉应该够用了。

最终要的是,在linux下,居然就没有一个我认为能用的(包括使用云端api)的中文语音输入法,最近的这些项目大多都是语音转文字记录,而不是在任何位置都能语音输入的输入法!过节期间,搓了个自己能用的版本,拿出来给linux的程序员们分享一下,和claude code 、codex交流,可以动嘴不动手(少动手)了。

202602180947583795_录屏.gif

主要特性

  • 完全离线 - 所有处理都在本地完成,不上传任何数据。
  • 实时流式识别 - 边说边出字,无需等待
  • 智能标点符号 - 根据停顿自动插入逗号
  • 文本规范化 - 自动转换数字、日期、货币等
  • 热词支持 - 可以添加专业术语提高识别率
  • CPU识别 - 不需要使用GPU,因此不用好显卡也能流畅使用

技术栈

  • Rust - 核心引擎
  • sherpa-onnx - 语音识别引擎
  • FUNASR - 阿里达摩院的语音识别框架
  • PipeWire - 音频捕获
  • Fcitx5 - 输入法框架
  • egui - 图形设置界面

系统要求

  • 操作系统:Deepin V23 V25 / Debian 12 / Ubuntu 22.04+
    目前只测试了deepin 25,由于基本都是静态链接和编译,依赖很少,理论上都能运行。
  • 桌面环境:目前只支持 Fcitx5 的环境,后续看有多少人需要ibus
  • 内存:建议 4GB 以上,这个程序运行时只用不到400M内存,远低于其他基于大模型的同类输入法
  • 磁盘空间:约 400M(包含模型文件)
  • 音频:需要麦克风和 PipeWire

系统要求

  • 操作系统:Deepin V23 V25 / Debian 12 / Ubuntu 22.04+
    目前只测试了deepin 25,由于基本都是静态链接和编译,依赖很少,ubuntu等系统理论上都能运行。
  • 桌面环境:目前只支持 Fcitx5 的环境,后续看有多少人需要ibus
  • 内存:建议 4GB 以上,这个程序运行时只用不到500M内存,远低于其他基于大模型的同类输入法(其他应该都超过1G内存)

安装方法

1. 下载安装包

# 下载地址
wget http://38.207.133.74/droplet-voice-input_0.2.2_amd64.deb

# 安装
sudo dpkg -i droplet-voice-input_0.2.2_amd64.deb

2. 开始使用

fcitx切换到语音输入法后(任务栏图标是个红色聊天框)

按一次右Ctrl键开始识别,再按一次停止。按了右Ctrl键后,光标所在位置会浮窗提示“开始录音”

3. GUI 设置界面黑屏(虚拟机环境)

在虚拟机中运行设置界面时,可能会出现黑屏。这是 egui 与虚拟机 GPU 加速的兼容性问题。

临时解决方案

LIBGL_ALWAYS_SOFTWARE=1 vinput-settings

4. 识别准确率

离线模型的准确率肯定不如云端大模型,特别是:

  • 方言、口音较重时识别率会下降
  • 专业术语、生僻词可能识别不准(可以通过添加热词改善)
  • 语速过快或过慢都会影响识别

使用技巧

  1. 说话清晰:尽量吐字清楚,语速适中
  2. 环境安静:减少背景噪音干扰
  3. 调整参数:根据自己的说话习惯调整 VAD 和标点参数

免责声明

本软件为个人学习项目,仅供测试使用。使用过程中如遇到任何问题,作者不承担任何责任。建议在非重要场合测试,重要文档请及时保存。


再次感谢大家的支持和测试!
如果你觉得这个项目有意思,欢迎点赞、收藏、转发!

Reply Favorite View the author
All Replies
mozixun
Moderator
2026-02-26 23:40
#1

前排前排,大佬好厉害blush

Reply View the author
穿西装的万斯在统亻言
deepin
Backbone of ecological co-construction group
20 hours ago
#2

这个框架才几百MB吗?

Reply View the author
d***n@outlook.com
deepin
20 hours ago
#3

对,选了一个效果较好,体积比较小的模型。更好的模型要到1个G了,后面考虑成为可选装项目

Reply View the author