毕业论文的感受

我的毕业论文由何杰老师指导，在这次论文编写过程中，我对非代码类工作产生了新的看法。

记录一下我是如何体会到的。

我的题目是公司的领导帮我定的，公司的需求是写一个 Operator ，想把这个写成论文其实很难：

框架打好了 controller-manager ，自己写的部分非常有限制。
Opeartor 在项目中用来部署一个复杂系统，但是论文又只能限制在 Operator 范围内，写不了太多有关系统的东西，底层的容器、网络甚至选举都本来不应该拿出来写。
工程化的项目，比较难写出学术论文的感受。

所以我开始写论文的时候，是非常被动，以凑字数为目标。

摘要里写了一大堆没用的背景介绍，自己做的内容非常少而且不精准的随便说了说，因为我觉得这个东西应该不会有人看，应该只是一个过场。

中期何杰老师帮我看开题报告和中期答辩相关内容的时候，几乎是把我写的内容删干净了，每句话都重新组织了一遍，我那时才稍微对这类“写文”的工作，有那么一丝钦佩。后期我迷迷糊糊的写到了2万多字，其实说难听点，就是把拉出来的稀重新摆成佳肴的样子，通过了查重，几乎是觉得自己马上就能毕业了。

10 号就答辩了，我 8 号去找何老师给我签字，顺便拿着 PPT 进行了预答辩。答辩到一半的时候，何杰老师严肃的说：“你这个不行”，然后对着我的摘要和目录就是一顿乱画，我那时候已经迷糊了，内容都没看怎么能把标题划掉呢，但是我没说，我只是灰溜溜的走了，马上骑摩托回出租房（宿舍晚上会断电），然后开始写，摘要重新写了一遍，2、3、4大段整个剪切出来，1万多字就没了。然后一边粘贴一边写，过程就不说了，睡了4个小时，9号清晨8点赶回学校，交了我的论文给何杰老师，他说可以了，让我去签字。

答辩完交终稿前，何杰老师又让我重新去了一次，他把我的摘要又删了重新写了一次，经过多次修改后，我的摘要发生了变化：

原版摘要：

随着技术的发展，计算机的运算速度飞速提升，这使得许多原本不可能完成的计算任务，在GPU高速算力的加持下，得到了结果。GPU逐渐成为在科学计算的主流。随后NVIDIA推出了CUDA（统一计算设备架构）通用并行计算架构提供了非常易用的GPU开发工具，基于GPU的云计算平台也不再是一个新概念，一些云计算服务商已经推出了GPU云计算服务，可供公司、学校等机构进行规模较大的计算。想要进行类似的规模化AI生产，除了高度依赖GPU的算力本身之外，还需要平台具有调度能力，提供根据优先级抢占调度实现集群算力的共享。
平台本身的开发是非常重要，但是平台搭建与维护，软件升级与回滚，数据的备份与恢复这些工作，往往需要持续数年甚至数十年之久，并且这些操作繁琐而且容易出错。本课题设计并实现了一套自动部署工具，能够实现 GPU 云计算服务平台的部署与后期维护等相关工作。本设计使用了一主多从的工作模式，自动地将产品部署到集群中，同时负责产品的升级、回滚、备份、恢复等功能。实现了该项目的智能运维自动化。
本文介绍了工具在设计，开发过程中所使用的技术和具体的实现细节。在测试部署过程中，相比人力手动部署，本工具显著提升了部署效率，杜绝了任何出错的可能性。

摘要最终版：

GPU逐渐成为科学计算的主流。同时一些云计算服务商已经推出了GPU云计算服务，可供公司、学校等机构进行规模较大的计算。平台本身的开发是十分重要的，但是平台搭建与维护，软件的升级与回滚，数据的备份与恢复这些工作，往往需要大量的人工操作而且容易出错，从而影响平台的稳定性和运行维护效率。
本课题设计并实现了一套自动部署运维工具。本工具基于声明式API实现了：（1）GPU云计算服务平台系统软件在的GPU计算机集群上的自动化部署；（2）GPU云计算服务平台系统软件的自动升级、回滚、备份等运维功能。此外，本工具通过一主多从的工作模式，实现了部署和运维过程在意外中断情况下的自动恢复功能。
本文介绍了工具的系统架构，开发过程中所使用的设计模式以及开发技术和具体的实现细节。通过测试验证了自动部署和自动运维功能的正确性，评估了系统的可靠性、伸缩性、可扩展性。通过与传统的手动部署和手动运维进行时间开销对比，评价了本工具在典型部署和运维任务上的效率提升程度。

何杰老师最后回答了我一个问题：“你是如何把问题描述的如此清楚的？”，他思考了一会儿，然后总结道

（1）首先是分点，按点来叙述；（2）其次是对要描述的内容起名字，并且添加定语帮助理解，如：GPU云计算服务平台系统软件在的GPU计算机集群上的自动化部署，使用定语和名词将这个事情描述清楚，如果描述不清楚再加辅助描述。（3）需要长时间的有意识的锻炼，写东西的时候需要咬文嚼字。