《行云流水》 第4章 审题 在线阅读
即便有算力系统傍身,可是光有算力是不够的。
算力只是计算的能力而已,没有算法的加持,算力等于是零。
就好比:你不可能光靠着汽油去诗和远方,你必须得有一辆汽车,然后那些汽油才能发挥作用。
而本就是本二水准的林远对于算法一道并不精通。
其实这也很好理解。要是林远天生聪慧,当年高考也就不会考个本二了。
因而林远能拿到紫金航校计算机专业的面试资格全然是靠算力系统的指引。
是算力系统为他规划好了学习路径,找对了每一科的教材,才让林远的学习事半功倍。
所以,林远不得不面对一个事实:其实他自己挺菜的。
毕竟智商这个东西吧,真不是看几本书就能有啥质的提升。
-----------------
经过了两分钟后,林远的古董T440总算开机完成。
如果这时候上面装了630安全软件,那一定会在右下角显示:您的开机速度打败了全国X%的用户(X一定是个位数)。
依照惯例,林远没有在开机完成后的第一时间就点开他的python开发环境--pycharm。他又给了T440一分钟时间“冷静冷静”。因为一台古董机的真正开机完成往往并非如它所展示的那样。
足足三分钟后,pycharm的图标终于被打开。
【loading project。。。】接着的是龟速的加载过程。
随后,林远终于打开了他的OCR识别项目。
没错,他直接套用了现成的项目代码。
这并非是他作弊。
事实上就在刚刚,张教授特地跑到每一个教室来说了一遍,“这次上机考核不同于以往,除了不允许交头接耳抄袭代码之外,随便你们上网查阅资料。你们可以参考任何开源项目。”
张教授甚至贴心地把写有校方WiFi名称和密码的白纸,用磁吸贴在了黑板上。
“但有一点。千万不要自作聪明,别以为拿别人代码改改我们就看不出来。我最近正在做一个用AI技术判定代码抄袭的课题,但愿你们不要给我提供AI训练的素材。”
既然连参考开源项目都不成问题,那直接套用个人过往项目自然更加不在话下。
不过所谓套用,却远非是简单的复制黏贴。
在林远看来,所有AI训练的过程都可以被抽象为:采集数据==》训练数据==》计算误差==》回馈误差。
虽然这次考核没有解释的太详细,但是林远凭借这半年来的刻苦学习已然完成了第一步--审题。
任何考试的第一步永远是审题,很多所谓的难题往往审题占了很大的比重。
而以这间教室里不少人紧皱的眉头来看,他们看样子是连第一关都没过。
考题是让大家用原创方法实现OCR字符识别,但却没有详细指定哪些范畴算是原创的。这是这次考核的第一道面纱。
如果真的从“数据采集”阶段完全原创,那可以洗洗睡了。
林远大致估算了下,如果从头开始每一行代码都是原创的,那今天大家就要留在这间教室过夜了。
可是他刚刚就有环顾四周,显然校方没打算留他们过夜。校方甚至没打算留他们吃晚饭。
此刻的时间大致是下午两点,那这次考核的时长也就是三四个小时。
林远心道:‘这考核也太随性了,鬼知道是哪个混蛋想出来的。’
既然考核只有三四个小时,那考核必然有考察的重点。
林远仔细思索了一小会儿。
对于OCR字符识别来说,采集数据特征完全就是公式化的步骤。因为OCR识别不是什么新的领域,那必然就不可能是考核的重点。所以,这部分代码,抄就完事儿了。
剩下的计算误差和回馈误差,也没什么可创新的。更准确来说,校方这整的是研究生入学考核,又不是招募国宝级科学家,难道还指望通过这次考核发现什么天才?
所以,这次考核的重点,必然是聚焦于考察考生平日里的修行。
简单来说,就是考察你平时都在干些什么。对计算机和AI到底感不感兴趣啊。如果你感兴趣,那你就肯定会经常写写代码。经常写写代码那自然就会很熟练。
而兴趣是科研的首要条件。
虽然林远此时并没有对科研报以很大的兴趣,但是他对通过走科研一途改变命运很有兴趣。
嗯~~,也算是殊途同归吧。
既然要考核平日修行,又不指望你水平能有多高。那自然也就不可能去考核计算误差和回馈误差这两个步骤,因为这两个步骤有太多现成的套路方案,体现不出人与人的差异性。
那就只剩最后一个步骤--训练数据。
这个步骤综合了线性代数、微积分、计算机编程能力、图像学,算是很综合的一个步骤。
‘一定是这样的。’林远思虑既定,当即快速定位到原有项目工程中“训练数据”部分的代码。他打算重构这部分代码,至于其它部分的嘛,就原封不动了。
林远接着深入思考。
现今的AI训练无非就是基于深度神经网络,但是总共也就才三个多小时,既要写代码又要调试出结果,根本就不可能把网络设计的有多深。
而在了解图像基本原理,掌握线性代数和微积分的基础上,如果用现成的数学计算工具库。比如:tensorFlow或者pytorch搭建一个三层左右的神经网络。三个小时时间够好差不多。
至此,林远恍然了。
‘审题结束。原来就是一道综合考查题。出题人挺坏的,算是把应试的人彻底筛出去了。名校的研究生入学考试,果然不是光靠做题就行的。’
得益于往日里对OCR识别项目的了解,林远自信两小时就能完成代码编写和调试。
可麻烦的是这台T440没法用GPU训练。
现代的AI训练用数学工具库需要的硬件入门条件太高,林远无奈只得转而用CPU跑训练。
他并未因此有什么担忧,因为训练的过程是持续的。只要训练出的结果误差在不断缩小,那即便时间上来不及,也能通过展示出来的潜力来让老师们同意延长时间。
这就好比在爬山的时候,虽然还没有看到云遮雾绕的山顶,但通过脚底的感受就能清晰知道:此刻所处的地方并非是山顶,上面还有更高的地方。
由于这次考核的参试者每个人的笔记本性能都是不一样的,因此林远笃定:考核的重点决对不会是训练时间的长短,而是最终训练结果的准确率。
也就是说:这次考核不是考你爬的有多快,而是考你最后能爬的多高。
念及于此,林远不自禁嘴角一笑,‘难怪刚刚那个张教授一直强调的是结果的准确率。’
他的推测和张教授起初公布的评判结果完美匹配上了。
思虑既定,林远随即开始了忙碌的复制+黏贴。