需要做的工作主要是数据的收集。
收集什么数据呢?自然是词库c翻译对照表这样的数据。
翻译的程序本质是什么?
简单!
翻译程序就是先获得用户的,然后由程序去数据库,找到了对应的翻译对照内容,便可用户的提问了。
最重要的东西只有两个,一个是数据库,就是包含了很多个语种的翻译对照表。如果能搞来这个数据库,就算是最初级的程序员也能捣鼓出所谓的翻译ruǎn jiàn。
二个是搜索算法,低级的算法当然是简单的查找并提取结果就行。但高级的搜索算法可就不这么简单了,单单是提高翻译精确度这一条就不知道要花费多少脑细胞才能设计出合理的算法。
所以九重对翻译项目的这样安排的,项目从头到尾要一直完善自己的,包含各语种的词库,各语种翻译对照表等数据。越全面越好!等收集得差不多了再设计一套翻译算法管理语料库即可。
九重的翻译项目组之前做的就是数据收集的工作,不是人工录入那种笨蛋式的数据建立方式,而是通过编写一些特殊的小程序,由程序来提取网络中的语料库。
百度谷歌翻译自然而然的成为了重点照顾的目标,有现成的干嘛不用?自建多辛苦啊!
另外像是某某词霸,电子辞典之类的ruǎn jiàn都成为翻译小组偷窃的目标。在九重从旁辅助的情况下,翻译项目小组的程序员们都快变成一个盗窃团伙了,到处打劫别人家的语料库。反编译c破解c注入等技术用得越来越666了。
一一一
“目前已经建立的,语料库相对完整的六个语种分别是汉语cyg yuc日语c印度语c阿拉伯语c西班牙语,以这六个语种为初始数据,借用各种手段,已经建立起了这六个语种与其他144个语种的互译数据库。也就是说,我们已经可以实现一百五十个语种之间的翻译了。”夏羽回答道!
“这么快?”九重有点吃惊!这速度比想象中的要快很多啊!
这才一个多月而已,已经做到这种程度了?
看到老大吃惊!夏羽颇为得意,不过却谦虚的表示:“这还多亏了老大编写的那个妖孽小程序的功劳!只比起我们自己写的那个程序,差距上了千倍都不止啊。”
翻译小组曾自己编写过一个自动翻译程序,该程序借用谷歌翻译返回翻译结果,效率大约是15秒可以获得一个单词的翻译数据,按这个速度,英文语料库75万个单词,一台电脑要13天才能获得英文和汉语互译对照数据。这个工作量就算平摊到翻译小组13台机器上,也需要1天时间才能获得2个语种的互译数据。
最坑爹的是他们制作的程序还不能关闭网页,基本上运行这个程序,电脑也不能干啥事情了。
150个语种的两两互译知道要执行多少个循环吗?
(嗯~在下也算不清楚)
反正很多就对了,九重看到他们做的程序之后,当然嗤之以鼻,然后只用半小时制作出了一个可以多开c可以以借用公司一百台计算机c在后台运行的翻译辅助工具,100台机子,每台程序3,每秒共计可返回1200个翻译数据。
这效率惊呆了把翻译小组的小伙伴们都惊了个呆!
“也就是说,基础的单词翻译数据已经建立起来了?”
夏羽说道:“准确说,真正完善的只有之前我提到的6个语种的翻译数据,其他的语种或多或少还有些数据缺失,现在正整在检查和补全中,现在每天大约能检查3一5个语种的部分遗漏。”
“数据库仍然是在原来的那个磁盘中吧!”
“是的,这个道没变!”
“那我先去看看情
『加入书签,方便阅读』