他现在做的工作不多,能选的只有俩——模型压缩,多模态大模型。
多模态大模型肯定不行,跑个实验一个月就过去了,更别说什么毕业论文了。
模型压缩?其实也不太好做,跑实验也要不少时间。
那他剩下的只有一条路——搞理论。
他说的搞理论也不是纯理论,而是那种只需要小型验证性实验的模型基础架构方面的研究,比如提出Transform的《AttentionIsAllYouNeed》,实验部分其实并不算多。
直接提出一种全新的技术模型架构?
说实话,这个问题他想过,而且时间很久,久到可以追溯到上辈子。
虽然上辈子周昀没这么聪明,但是当他第一次接触到Transform的时候就在想,他能不能研究出一种更加厉害的基础架构。
当然了,这在上辈子完全就是幻想。
所以平时有空的时候他就会抽出时间思考这个问题,所以邱彦他们经常能看到周昀独自一个人坐在位置上发呆,而且一坐就是几个小时。
但哪怕他觉得自己现在已经足够聪明,可是经过近半年的思考,他还是没能想到什么全新的架构,终究还是被束缚在Transform的框架之下。
内容未完,下一页继续阅读