江寒在网上了一番,参考了一下同类软件。
最后他决定,采用市场接受度较高的下载、试用模式。
超过试用次数和时间后,只要花费58元rmb,购买注册码,就可以终身使用。
在软件保护策略上,江寒毫不犹豫地启动了“坏苹果2代”技术。
经过加密后,“极光ocr”的可执行文件,以及动态链接库等要害部位,堪称坚不可摧。
江寒又用installshield wizard,制作出一个1g大小的安装包,然后挂到了大江官网上。
技术上的事情,至此全部搞定。
至于其他的事情,全盘委托给老江和夏如冰就好……
江寒想了想,又访问了一下布置在地下机房里的数据服务器。
过了这么多天,他为islvrc2013图像识别挑战赛,打造的深度网络,也终于完成了训练。
江寒将代码中关于训练的部分,暂时全部剔除,然后将验证集数据加载进来,跑了一下。
结果还算不错, top-1项目的识别正确率,达到了62.7%, top-5项目中,更是达到了85.4%的正确率。
所谓top-1,就是对于每张要分类的图片,只允许给出唯一答案,对就对,错就错。
至于top-5,要求就比较宽松了,每张图可以给出5种预测,有一个与标签相同,就算分类正确。
现在这个成绩,已经相当接近去年的冠军算法了。
但江寒怎么可能就此满足呢?
他深入思考了一番,重新编写了预测函数。
这一次,他使用了一个小技巧。
将待分类的图片加载到内存中之后,先进行预处理。
从图片的四个角,以及中间部分,依次进行矩形抠图,这样就得到了5张子图片。
接下来,再对这5张子图片,依次进行镜像操作,子图片的总数就变成了10。
最后再对这10张图片,分别进行预测,再把10个结果的平均值,作为网络的最后输出。
这可以有效地防止程序“发呆”,以得到更接近正确答案的预测。
不出所料,使用了这个技巧后,深度在验证集上的表现,果然改善了不少。
top-1上的正确率,足足提高了2%,在top-5上的正确率,也提高了1.84%。
不过,感觉还有进一步提升的空间。
江寒思考了一下,又对训练集图片的rgb数值,做了pca,也就是主成分分析,并且对主成分做了0.1标准差的高斯扰动。
这样做的目的,是增加一些噪声数据,以提高模型的泛化能力。
处理完庞大的训练集后,就可以让网络重新进行训练了。
安排妥当这件事之后,江寒开始考虑学科等级的事情。
经过几天的奋战,他已经学完了化学、生物两科,在大学本科阶段的全部专业课。
单论理论上的水平,超过了绝大多数相应科目的本科生、甚至硕士研究生。
江寒打开系统ui看了一眼。
学科等级面板上,数学、物理、化学、生物、信息学,这五个学科全都达到了高级。
其中,信息学的经验条已经过半,距离下一个级别不远了。
不过,工程、材料、能源三科,仍然没有任何评级。
江寒思考了一下,决定在网上找一找这三个专业的教材,深入地学习一番。
然而,他很快就发现了一个问题。
所谓的工程,到底是什么工程呢?
生物工程也是工程,电
『加入书签,方便阅读』