[software development] 从代码看鸿蒙UI与AI的深度结合
Tofloor
poster avatar
Rubbish
deepin
2025-05-17 20:10
Author

Computer Use Agent最近一直是“如火”,大致调研了一下发现主要还是基于浏览器的较为成熟,如Manus

虽然有论文提出基于视觉识别的方法在当下较为领先,但我是不太赞成的,毕竟视觉模态的算力需求太大

浏览器领先就领先在其原生的DOM、CSS等结构化属性,很方便进行低成本的结构化信息抽取

而桌面端受制于历史原因,缺乏统一的接口,只能通过Accessibility(无障碍)接口提取残缺的信息,而且桌面端的无障碍甚至不如移动端

今天偶然打开Openharmony仓库看了下,发现其ArkUI已经对AI提供了比较全面的支持,例如 text的AI相关属性与方法整改

还没细看结合到了哪一步,但目测信息提取是毫无压力的

image.png

Qt/GTK对AI理解界面的支持似乎没什么大动作

但其实它们也是有先发优势的,如Qt GammaRay、GTK Inspector都是原生结构化观测GUI状态的利器,稍加改造就能输出结构化的UI信息

目前UOS AI所使用基于剪贴板的机制,则可能需要用户进行“全选”后才能获取到完整的信息?而且应该难支持Menu、Tooltip等不可选中的控件

Reply Favorite View the author
All Replies
tacat
deepin
2025-05-18 06:50
#1

ArkUI 能让信息提取,更方便,更准确,更全面

可以这么理解吧

Reply View the author
Rubbish
deepin
2025-05-18 11:28
#2
tacat

ArkUI 能让信息提取,更方便,更准确,更全面

可以这么理解吧

目前是这样的,后续应该会加更多特性,这是掌控统一UI框架的优势

Reply View the author
zccrs
deepin
2025-05-19 09:52
#3

uos上如何能要求所有UOS应用都用指定的UI框架,这些事情也很方面做,但事实上不行。

Reply View the author
Rubbish
deepin
2025-05-19 13:57
#4
zccrs

uos上如何能要求所有UOS应用都用指定的UI框架,这些事情也很方面做,但事实上不行。

确实,安卓/鸿蒙/苹果平台上也有相当部分用flutter、RN之类跨平台框架,粗略搜了一下大部分还是只有无障碍api

不知道结构化抽取组件树之类的能力会不会成为UI框架的标配,感觉这样还能降低无障碍方面的开发成本,也能从根源上避免视觉识别隐私泄露的问题

无障碍一方面需要主动去写,一方面比源码缺少一些信息、交互模型受限

Reply View the author