(更新 —> Light 教程) goldendict + ocr屏幕取词 + 百度翻译 + goog- Community

(更新 —> Light 教程) goldendict + ocr屏幕取词 + 百度翻译 + goog

Experiences and Insight 8678 views · 9 replies ·

ylxdxx

deepin

2018-12-29 02:33

Author

本帖最后由 ylxdxx 于 2018-12-29 18:04 编辑

说明：
1，为 goldendict （词典应用）添加的功能：ocr屏幕取词 + 百度翻译 + google翻译
2，轻量级词典应用推荐：https://github.com/ziqiangxu/words-picker 和 https://github.com/rekols/redict-qt5
3，需要使用的项目地址有（自己提前安装）：https://github.com/goldendict/goldendict + https://github.com/ssut/py-googletrans + https://github.com/tesseract-ocr/tesseract

一，百度翻译
翻译接口需自己申请，通用的翻译每个月前200万字符免费，申请后拿到 appid 和 secretKey ，再新建一个后缀 .py 的文件填入，代码如下：

#来源于：http://http://blog.csdn.net/lcyong_
#coding: utf8
import http.client
import hashlib
import json
import urllib
import random
import sys
def baidu_translate(content):
appid = ''
secretKey = ''
httpClient = None
myurl = '/api/trans/vip/translate'
q = content
fromLang = 'en' # 源语言
toLang = 'zh' # 翻译后的语言
salt = random.randint(32768, 65536)
sign = appid + q + str(salt) + secretKey
sign = hashlib.md5(sign.encode()).hexdigest()
myurl = myurl + '?appid=' + appid + '&q=' + urllib.parse.quote(
q) + '&from=' + fromLang + '&to=' + toLang + '&salt=' + str(
salt) + '&sign=' + sign
try:
httpClient = http.client.HTTPConnection('api.fanyi.baidu.com')
httpClient.request('GET', myurl)
# response是HTTPResponse对象
response = httpClient.getresponse()
jsonResponse = response.read().decode("utf-8")# 获得返回的结果，结果为json格式
js = json.loads(jsonResponse) # 将json格式的结果转换字典结构
dst = str(js["trans_result"][0]["dst"]) # 取得翻译后的文本结果
print(dst) # 打印结果
except Exception as e:
print(e)
finally:
if httpClient:
httpClient.close()
if __name__ == '__main__':
# while True:
# print("请输入要翻译的内容,如果退出输入q")
# content = input()
# if (content == 'q'):
# break
baidu_translate(sys.argv[1])

Copy the Code

然后在 goldendict 中的如图位置填写：

命令行一栏为：

python3 /home/shui/Desktop/学习/translate-for-goldendict/Baidu/demo.py "%GDWORD%"

Copy the Code

二，Google翻译
依照上面差不多，不过这回是后缀为 .sh 的shell脚本，代码如下：

#!/bin/bash
#统计字数，对单个单词不作翻译
num=$( echo "$1" | wc -w )
if [ "$num" -ge "2" ] ;then
#网络代理
export http_proxy="http://127.0.0.1:12333"
export https_proxy="http://127.0.0.1:12333"
translate -d zh-CN "$1"
else
echo "^ _ ^"
fi
exit

Copy the Code

其中在 goldendict 中填入的命令为：

/home/shui/Desktop/学习/translate-for-goldendict/Google/1.sh "%GDWORD%"

Copy the Code

三，OCR 屏幕取词
原理解说：利用深度截屏的自动保存功能将图片存储特定位置，再监控特定位置的文件变化，当有图片存入时，利用 tesseract 对图片进行识别，再将识别的内容穿给 goldendict ，从而实现所需功能。
说明：tesseract 自带的英文识别不是太好，可以到项目地址下载最新的英文识别训练文件，特殊识别可自行训练或使用各云端的OCR—api 来使用

脚本代码如下：