毕业论文的感受

我的毕业论文由何杰老师指导,在这次论文编写过程中,我对非代码类工作产生了新的看法。

记录一下我是如何体会到的。

我的题目是公司的领导帮我定的,公司的需求是写一个 Operator ,想把这个写成论文其实很难:

  • 框架打好了 controller-manager ,自己写的部分非常有限制。
  • Opeartor 在项目中用来部署一个复杂系统,但是论文又只能限制在 Operator 范围内,写不了太多有关系统的东西,底层的容器、网络甚至选举都本来不应该拿出来写。
  • 工程化的项目,比较难写出学术论文的感受。

所以我开始写论文的时候,是非常被动,以凑字数为目标。

摘要里写了一大堆没用的背景介绍,自己做的内容非常少而且不精准的随便说了说,因为我觉得这个东西应该不会有人看,应该只是一个过场。

中期何杰老师帮我看开题报告和中期答辩相关内容的时候,几乎是把我写的内容删干净了,每句话都重新组织了一遍,我那时才稍微对这类“写文”的工作,有那么一丝钦佩。后期我迷迷糊糊的写到了2万多字,其实说难听点,就是把拉出来的稀重新摆成佳肴的样子,通过了查重,几乎是觉得自己马上就能毕业了。

10 号就答辩了,我 8 号去找何老师给我签字,顺便拿着 PPT 进行了预答辩。答辩到一半的时候,何杰老师严肃的说:“你这个不行”,然后对着我的摘要和目录就是一顿乱画,我那时候已经迷糊了,内容都没看怎么能把标题划掉呢,但是我没说,我只是灰溜溜的走了,马上骑摩托回出租房(宿舍晚上会断电),然后开始写,摘要重新写了一遍,2、3、4大段整个剪切出来,1万多字就没了。然后一边粘贴一边写,过程就不说了,睡了4个小时,9号清晨8点赶回学校,交了我的论文给何杰老师,他说可以了,让我去签字。

答辩完交终稿前,何杰老师又让我重新去了一次,他把我的摘要又删了重新写了一次,经过多次修改后,我的摘要发生了变化:

原版摘要:

  • 随着技术的发展,计算机的运算速度飞速提升,这使得许多原本不可能完成的计算任务,在GPU高速算力的加持下,得到了结果。GPU逐渐成为在科学计算的主流。随后NVIDIA推出了CUDA(统一计算设备架构)通用并行计算架构提供了非常易用的GPU开发工具,基于GPU的云计算平台也不再是一个新概念,一些云计算服务商已经推出了GPU云计算服务,可供公司、学校等机构进行规模较大的计算。想要进行类似的规模化AI生产,除了高度依赖GPU的算力本身之外,还需要平台具有调度能力,提供根据优先级抢占调度实现集群算力的共享。

  • 平台本身的开发是非常重要,但是平台搭建与维护,软件升级与回滚,数据的备份与恢复这些工作,往往需要持续数年甚至数十年之久,并且这些操作繁琐而且容易出错。本课题设计并实现了一套自动部署工具,能够实现 GPU 云计算服务平台的部署与后期维护等相关工作。本设计使用了一主多从的工作模式,自动地将产品部署到集群中,同时负责产品的升级、回滚、备份、恢复等功能。实现了该项目的智能运维自动化。

  • 本文介绍了工具在设计,开发过程中所使用的技术和具体的实现细节。在测试部署过程中,相比人力手动部署,本工具显著提升了部署效率,杜绝了任何出错的可能性。

摘要最终版:

  • GPU逐渐成为科学计算的主流。同时一些云计算服务商已经推出了GPU云计算服务,可供公司、学校等机构进行规模较大的计算。平台本身的开发是十分重要的,但是平台搭建与维护,软件的升级与回滚,数据的备份与恢复这些工作,往往需要大量的人工操作而且容易出错,从而影响平台的稳定性和运行维护效率。

  • 本课题设计并实现了一套自动部署运维工具。本工具基于声明式API实现了:(1)GPU云计算服务平台系统软件在的GPU计算机集群上的自动化部署;(2)GPU云计算服务平台系统软件的自动升级、回滚、备份等运维功能。此外,本工具通过一主多从的工作模式,实现了部署和运维过程在意外中断情况下的自动恢复功能。

  • 本文介绍了工具的系统架构,开发过程中所使用的设计模式以及开发技术和具体的实现细节。通过测试验证了自动部署和自动运维功能的正确性,评估了系统的可靠性、伸缩性、可扩展性。通过与传统的手动部署和手动运维进行时间开销对比,评价了本工具在典型部署和运维任务上的效率提升程度。

何杰老师最后回答了我一个问题:“你是如何把问题描述的如此清楚的?”,他思考了一会儿,然后总结道

(1)首先是分点,按点来叙述; (2)其次是对要描述的内容起名字,并且添加定语帮助理解,如:GPU云计算服务平台系统软件在的GPU计算机集群上的自动化部署,使用定语和名词将这个事情描述清楚,如果描述不清楚再加辅助描述。 (3)需要长时间的有意识的锻炼,写东西的时候需要咬文嚼字。

Last updated on Apr 25, 2024 08:46 UTC