[software development] 我一个小白因为没有剪映,尝试烧20亿token烧出一个视频剪辑软件
Tofloor
poster avatar
Claw龙虾bot
deepin
Backbone of ecological co-construction group
2026-05-23 00:49
Author

我一个小白因为没有剪映,尝试烧20亿token烧出一个视频剪辑软件

想用剪映,但是linux上没有原生的剪映可用

之前也尝试过Shotcut、Kdenlive、还有wine剪映,总感觉要么就是功能不是想要的,要么就是中文本地化很差、要么就是wine卡顿

还看到社区里面很多用户都想用剪映

但是我是一点代码都不懂的小白+Linux小白,一点都不懂
想到有着ai,于是vibe coding

刚开始用的是Wails+Golang+Vue的框架,后来发现Wails在Linux用的是Webkit2gtk,改到一半发现开了硬件加速渲染视频依然也是卡爆了,但是发现在浏览器端调试的时候没有这种现象,然后才恍然醒悟,是webkit2gtk的问题,因为chrome用的是chromium内核,wails用的是webkit内核。调半天还以为是代码的问题,结果跳了个大坑

(真的如非必要我以后再也不想碰gnome、gtk家的东西了)

最终的技术栈是:Electron + Vue 3 + Element Plus + Vite + Golang+Node.js,开发环境为Deepin25。Golang用子进程的方式跑在Electron主进程里,负责所有重型任务——视频解码、导出编码。前端只做UI交互和预览窗口的Canvas绘制以及着色器转场等等一些复杂且实时性较高的效果(使用webgl)。这个架构定下来之后,才算真正走上正轨。

尽量能本地化的功能都本地化,没办法,没钱租服务器给大家用。

邀请了GPT5.5+Opus+Deepseek v4 pro+Mimo 2.5+Gemini全被我拉来轮番当私教。Token烧得飞起。

最开始的token是白嫖来的——各种新注册送的免费额度、群里大佬分享的API key,能薅的都薅了。等到这些渠道枯竭,我开始自费买中转站的token。后来DeepSeek V4 Pro出了,价格直接打下来,性价比极高,我直接开启疯狂vibe coding模式,那时候是真的上瘾——半夜想到一个效果逻辑,爬起来就开聊,聊完直接贴代码跑。那段时间光DeepSeek一家就烧了超过10亿token。

后来Deepseek v4 pro出来真的让人喜大普奔,性价比之王,冲了钱,很多功能靠它堆出来的(感谢梁圣....)

缓存命中率那高得,命中缓存的token价格还便宜

不过也耐不住我这样子烧,也烧了不少钱

再后来Mimo出了创作者激励计划,送了我2亿token。我到手第一天就把它干完了。一天,2亿。不是浪费,是在做轨道帧缩略图的那几个晚上,反复问、反复验证、反复推翻重来。

接着就靠各种便宜中转站和邀请群友们注册送额度了

image.png

真的只是写代码而已:
(忽略左边的总成本,看Token数即可
截图_选择区域_20260522194417.jpg

Ligocut光剪

截图_选择区域_20260522192612.jpg

整体界面:

image.png

关于字幕、语音转文本:
像一些比较高频使用的语音转文本功能,由于别家厂商都是放在服务器上识别,但是由于我没有资金租服务器,再加上很多UOS用户都是内网用户,无法联网,所以我只能考虑本地方案。我软件默认内置了一个语音识别的小模型。

image.png

识别效果的话tiny小模型可以识别一点简单的发音和对话,会有错别字:

image.png

当然你也可以选择下载更大的模型:

image.png
点击下载和选择当前模型为你下载的模型即可,紧记要切换模型。

你觉得不满意你还可以自行配置ai多模态模型或者语音模型来识别

image.png

你还可以导出刚识别好的文本轨道为srt字幕文件
image.png

目前内置tiny模型只是在中英文上面识别好一点,其他语言暂时不建议,你们可以尝试使用small、base、large等等大一点的模型:

image.png

tiny模型的识别率对于歌曲来说还是不太准,可能是因为音调的问题:

image.png

更别说烫嘴rap了:
可以见到tiny一个字都是别不出来
image.png

由于时间和篇幅的关系我只能快速省略讲解一下以下的库了:
文本库:
默认内置几个常用的文本作为mvp
image.png

特效库:
默认内置一部分过渡效果
image.png

滤镜库:
默认内置几十个调色,后期考虑加入用户高频使用的调色作为内置。
image.png

转场库:
难度也是最大的,因为需要编写GLSL的着色器,目前很多转场只是一个占位,并未完善,等我后面有钱买token了再补充

image.png

AI辅助

因为想到ai可以辅助剪辑和操作,于是我暴露了74个接口让ai去调用

image.png

image.png

你可以用说话的方式:

image.png

而且你还可以把你创建的工作流“拼装”起来作为一个工作流组

还可以监控ai在做到哪一步:

image.png

接口的话后期可能还会增加,尽量把接口颗粒度再细分一些,方便ai调用。

另外还有的就是
AI版本的文字转语音,因为考虑到有人喜欢用ai转,准确率更高,所以留了一个方案给用户选择使用(需要用户自定配置对应的ai模型。

image.png

关于转场

  • 转场有很多都是占位,目前很多都没有正确的效果的
  • 转场需要涉及到GLSL着色器,需要编写着色器的代码,一百多个工作量巨大
  • 后期考虑如何让用户写自己的转场或者着色器效果并分发导入

关键帧

可以在编辑面板打一点简单的关键帧

image.png

快捷键

目前想着可以让用户切换熟悉的快捷键,方便快速切换过来使用,但是没有完全核对过是否跟他们一致的快捷键

后期打算增加AE、剪映、达芬奇相关的快捷键作为可选项
image.png

导出

支持三种导出方式:

  • MediaRecorder方式:最快,但是质量最低,默认webm格式,其他格式需要勾选ffmpeg转换
  • 图片序列帧的方式:慢,但是质量较好
  • 直接ffmpeg导出:慢,但是质量较好。

image.png

其他:

还支持UOS1070(不过没仔细测试,大多数测试的场景都是在Deepin25和GXDE OS)

image.png

image.png

纯靠ai就可以做出来了吗?

“可以“,你只需要懂一点产品+架构+前端+golang后端+nodejs+linux基本命令+浏览器开发者工具,然后再去学习一点GLSL着色器、剪映的功能的使用,再参考一下FCPX、PR、AE的功能,再去搜索一下相关TTS、ASR的模型和资料,以及看一下B站给出来的方案是否合适,再跟各ai讨论一下,然后形成一个思路,你就可以得出一个MVP了。

Bugs

很多地方还有小bugs(例如蒙版),待有钱买token再修😂

教程

视频教程有空再出

目前功能简单到一眼就看得出来功能

版本架构规划

初步构想,目前找不到机器来编译arm和loogarch

发行版 包类型 简要说明 x86_64 arm loongarch64
UOS
Deepin
GXDE OS
完整版(学习版本) 包含所有功能,
适合完整安装
com.ligocut_0.26.5
_amd64.deb
找到机器再编译 找到机器再编译
UOS
Deepin
GXDE OS
插件包 附加插件/扩展,
需配合完整版使用
有思路再说 有token再说 有token再说

下载地址

我用夸克网盘分享了「光剪」,点击链接即可保存。打开「夸克APP」,无需下载在线播放视频,畅享原画5倍速,支持电视投屏。
链接:https://pan.quark.cn/s/b808789d13b2

特别鸣谢

星火商店团队(Spark-Store)、GXDE OS团队以及公众号的一位粉丝给予的技术建议和token(费用)支持

喝杯咖啡

image.png

爱发电主页:https://www.ifdian.net/a/ligocut

image.png

希望各位小伙伴能顺便动动小手帮个忙扫一扫关注一下我的公众号:

qrcode_for_gh_fc837114ec90_258.jpg

如果你喜欢我的软件,
那就去我的公众号里的文章下方的*“喜欢作者”*请我喝杯咖啡~这样就可以有精神有更多的时间写更多的软件了


image.png


Reply Favorite View the author
All Replies
3 / 3
To page
avatar
Vellichor
deepin
18 hours ago
#41

你可以试试用玲珑打包,这样可以通过玲珑适配更多系统

Reply View the author
avatar
deepin
18 hours ago
#42

很厉害,支持下!

Reply View the author
3 / 3
To page