大模型科普

2024.9.5 2024.9.6 技术 834 2 分钟

最近编写了LLM科普的PPT，写个文章梳理下自己的思路。

大模型简介

jianjie1 jianjie2 jianjie3 jianjie4

大模型可以用于文本类生成式任务：对话，问答，搜索等。
大模型的训练成本非常高，注定是大公司之间的游戏。
模型效果效果最好的是GPT-4o ，国内模型效果处于第二梯队。
使用国内云厂商提供的大模型服务，成本非常低，100万token几块钱。国内服务一个汉字一个token。国外服务一个汉字约3个token。
大模型的使用需要提示词，在请求频繁的业务中，提示词消耗的token数可能占大头，估算成本时不要遗漏。

大模型原理

yuanli yuanli

大模型训练需要准备海量的数据，这些数据大部分都是互联网上的内容，这些数据中包含大量通用型知识。
大模型本质上是通过训练的方式，将训练数据中的信息提取出来，并存储在模型中。信息提取的过程是有损的，可以理解为一种压缩。为了加快提取过程，会用到大量的GPU资源，因而训练成本非常高。
模型训练完成后，模型内部存储的信息就是对训练数据的理解。训练方式一致，训练数据的侧重点不同，最终模型效果也会不同，擅长的任务也会不同。
识别的过程，就是结合模型内部的信息来预测输入文本询问的问题。
模型内部有自注意力机制，预测问题不在是根据输入文本中的单个词，而是前后关联，进而提高效果。因为训练环节提取是有损的，同时预测也有准确率，所有最终给出的答案不是100%准确。
训练数据中不存在的信息，大模型无法回答或者只能编造。解决方案就是将相关的信息作为一个知识库，在询问时作为提示词内容一起输入模型。
大模型只具备文本生成能力，借助其他的系统，才能完成需要联网的任务。

大模型案例

yuanli yuanli yuanli yuanli

利用大模型的总结和提取能力，结合内部文档可以轻松搭建一个和业务紧密关联的问答系统。
利用大模型的对话能力，可以提升智能客服的拟人感，同时挂载特定行业知识库，提高专业问题回答准确率。
利用大模型的生成能力，可以快速批量生成类似的问题。对刷题APP，使用此能力可以降低生成题目的成本。
利用大模型的总结和提取能力，可以对文档生成摘要，提高获取文档关键信息的效率。

作者：阿松
链接：https://xiaoshame.github.io/posts/llm/
许可：CC BY-NC-SA 4.0

LLM 大模型科普