透明的大模型?

Dec 19, 2023

∙ Paid

如果说大模型有什么特别令人诟病的地方，最大的一条大约就是“不透明”。目前主流的大模型是黑盒子，你丢进去一个输入，它丢出来一个输出。为什么？不知道。因为训练这件事就是不透明的呀。大家会告诉你用了多少个参数啥啥的，洋洋洒洒一篇儿又一篇儿，但是其实中间啥情况并没有人告诉你。

不但外人不知道，有时候内人也不知道呢。

最近OpenAI非常懒这件事也因此特别棘手。这就像一个只能号脉的中医去给人看病，这个病人偏偏不长手！这简直要把医生气死，把家属急死。

幸好，看到了一篇paper，非常有意思，于是跟大家共享一下。

他们自己是这么说的：

大多数开源 LLM 版本都包含模型权重和评估结果。然而，要真正理解一个模型的行为，往往还需要其他信息，而大多数研究人员通常无法获得这些信息。因此，我们承诺发布在训练过程中收集到的所有中间检查点…

Keep reading with a 7-day free trial

Subscribe to 曳杖东坡下 to keep reading this post and get 7 days of free access to the full post archives.