了解chatGPT

二月 12, 2023

近期chatGPT刷爆的所有人的首页、社交平台、朋友圈，如此火爆的背后是人工智能发展出萌芽的第一步，所以我也去网上收集了许多资料，会在这里分享给大家。

【ChatGPT是什么？】

首先，ChatGPT 是由OpenAI公司在2022年11月30日发布的一种聊天机器人模型，是由人工智能技术驱动的自然语言处理工具，其中 Chat 就是聊天。当然不是像小爱同学、siri等智能家居系统这样简单的回答以及完型填空，chatGPT更像是回答你出的命题作文一样进行写作。

然后重点是后面的 【GPT】 ，即 Generative Pre-trained Transformer ，中文叫 “生成型预训练变换模型”。
简单来说，ChatGPT就像我们手机上的一款APP，不同之处在于，他能学习和理解人类的语言，还能根据上下文的语境进行反应，真正像人一样和你进行交流，同时他一门应用不是技术，并且chatGPT最重要的不是技术而是工程。

不仅仅只是聊天的chatGPT还能：

[✓] 写代码、修bug
[✓] 设计装修图
[✓] 写剧本，写论文
[✓] 解析物理题
如果你的提问当中出现明显的错误，他还会纠正你。

【chatGPT的由来】

2017年，谷歌大脑团队（Google Brain）在神经信息处理系统大会（NeurIPS，该会议为机器学习与人工智能领域的顶级学术会议）发表了一篇名为“Attention is all you need”（自我注意力是你所需要的全部）的论文。作者在文中首次提出了基于自我注意力机制（self-attention）的变换器（transformer）模型，并首次将其用于理解人类的语言，即自然语言处理。

在这篇文章面世之前，自然语言处理领域的主流模型是循环神经网络（RNN，recurrent neural network）。循环神经网络模型的优点是，能更好地处理有先后顺序的数据，比如语言，但也因为如此，这种模型在处理较长序列，例如长文章、书籍时，存在模型不稳定或者模型过早停止有效训练的问题（这是由于模型训练时的梯度消失或梯度爆炸现象而导致，在此不具体展开），以及训练模型时间过长（因必须顺序处理数据，无法同时并行训练）的问题。

2015年12月，OpenAI公司美国旧金山成立。特斯拉的创始人马斯克也是该公司创始人之一，为公司早期提供了资金支持（后来他从该公司退出，但保留了金主身份，并未撤资）。成立早期，OpenAI是一家非营利组织，以研发对人类社会有益、友好的人工智能技术为使命。2019年，OpenAI改变了其性质，宣布成为营利机构，这个改变与Transformer模型不无相关。

2018年，在Transformer模型诞生还不到一年的时候，OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”（用创造型预训练提高模型的语言理解力）（Generative一般译为“生成型”，但我认为译为“创造型”更合适），推出了具有1.17亿个参数的GPT-1（Generative Pre-training Transformers, 创造型预训练变换器）模型。这是一个用大量数据训练好的基于Transformer结构的模型。他们使用了经典的大型书籍文本数据集（BookCorpus）进行模型预训练。该数据集包含超过7000本从未出版的书，类型涵盖了冒险、奇幻、言情等类别。在预训练之后，作者针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练（又称为微调，fine-tuning）。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定、以及文本分类这四种语言场景，都取得了比基础Transformer模型更优的结果，成为了新的业内第一。

2019年，该公司公布了一个具有15亿个参数的模型：GPT-2。该模型架构与GPT-1原理相同，主要区别是GPT-2的规模更大（10倍）。同时，他们发表了介绍这个模型的论文“Language Models are Unsupervised Multitask Learners” （语言模型是无监督的多任务学习者）。在这项工作中，他们使用了自己收集的以网页文字信息为主的新的数据集。不出意料，GPT-2模型刷新了大型语言模型在多项语言场景的评分记录。在文中，他们提供了GPT-2模型回答新问题（模型训练数据中未出现过的问题及其答案）的结果。

2020年，这个创业团队再次战胜自己，发表论文“Language Models are Few-ShotLearner”（语言模型是小样本学习者），并推出了最新的GPT-3模型——它有1750亿个参数。GPT-3模型架构与GPT-2没有本质区别，除了规模大了整整两个数量级以外。GPT-3的训练集也比前两款GPT模型要大得多：经过基础过滤的全网页爬虫数据集（4290亿个词符）、维基百科文章（30亿词符）、两个不同的书籍数据集（一共670亿词符）。

由于巨大的参数数目以及训练所需数据集规模，训练一个GPT-3模型保守估计需要五百万美元至两千万美元不等——如果用于训练的GPU越多，成本越高，时间越短；反之亦然。可以说，这个数量级的大型语言模型已经不是普通学者、一般个人能负担得起研究项目了。面对如此庞大的GPT-3模型，用户可以仅提供小样本的提示语、或者完全不提供提示而直接询问，就能获得符合要求的高质量答案。小样本提示是指用户在提问时先给模型提供几个例子，然后再提出自己的语言任务（翻译、创作文本、回答问题等）。

GPT-3模型面世时，未提供广泛的用户交互界面，并且要求用户提交申请、申请批准后才能注册，所以直接体验过GPT-3模型的人数并不多。根据体验过的人们在网上分享的体验，我们可以知道GPT-3可以根据简单的提示自动生成完整的、文从字顺的长文章，让人几乎不能相信这是机器的作品。GPT-3还会写程序代码、创作菜谱等几乎所有的文本创作类的任务。早期测试结束后，OpenAI公司对GPT-3模型进行了商业化：付费用户可以通过应用程序接口（API）连上GPT-3，使用该模型完成所需语言任务。2020年9月，微软公司获得了GPT-3模型的独占许可，意味着微软公司可以独家接触到GPT-3的源代码。该独占许可不影响付费用户通过API继续使用GPT-3模型。

2022年3月，OpenAI再次发表论文“Training language models to follow instructions with human feedback”（结合人类反馈信息来训练语言模型使其能理解指令），并推出了他们基于GPT-3模型并进行了进一步的微调的InstructGPT模型。InstructGPT的模型训练中加入了人类的评价和反馈数据，而不仅仅是事先准备好的数据集。

GPT-3公测期间用户提供了大量的对话和提示语数据，而OpenAI公司内部的数据标记团队也生成了不少人工标记数据集。这些标注过的数据（labelled data），可以帮助模型在直接学习数据的同时学习人类对这些数据的标记（例如某些句子、词组是不好的，应尽量少使用）。

OpenAI公司第一步先用这些数据对GPT-3用监督式训练（supervised learning）进行了微调。

第二步，他们收集了微调过的模型生成的答案样本。一般来说，对于每一条提示语，模型可以给出无数个答案，而用户一般只想看到一个答案（这也是符合人类交流的习惯），模型需要对这些答案排序，选出最优。所以，数据标记团队在这一步对所有可能的答案进行人工打分排序，选出最符合人类思考交流习惯的答案。这些人工打分的结果可以进一步建立奖励模型——奖励模型可以自动给语言模型奖励反馈，达到鼓励语言模型给出好的答案、抑制不好的答案的目的，帮助模型自动寻出最优答案。

第三步，该团队使用奖励模型和更多的标注过的数据继续优化微调过的语言模型，并且进行迭代。最终得到的模型被称为InstructGPT。