什么是大模型？

2024-05-09 23:23 63 0

1.什么是大模型？

大模型又可以称为Foundation Model（基石）模型，模型通过亿级的语料或者图像进行知识抽取，学习进而生产了亿级参数的大模型。其实感觉就是自监督学习，利用大量无标签很便宜的数据去做预训练。

比如BERT，怎么做的无监督pre-trained？他会把输入的句子中的token随机遮住，然后去预测这个token经过encoder以后的输出单词的概率（通过softmax），因为我们自己是知道哪个token被遮住了的，loss就是让模型预测的记过越来越接近真实值（有一个词汇表，可以编码GT的one-hot），通过这样来反传播训练。

2.大模型能解决什么问题？

大规模预训练可以有效地从大量标记和未标记的数据中捕获知识，通过将知识存储到大量的参数中并对特定任务进行微调，极大地扩展了模型的泛化能力。在应对不同场景时，不再从0开始，只需要少量的样本进行微调

再比如BERT已经训练好了，我们要做下游任务，做一个句子的情感分析。那么就会在BERT的输入token中加入一个 class token，这个和vit的做法一样，encoder以后用class token的向量做一下linear transoformation 和softmax和gt做损失训练，所以这一步可以直接初始化BERT模型的预训练参数做finetune，效果要更好。收敛的又快，loss又低。