2024年1月11日发(作者:金平良)
研究报告Research Report
16 Dec 2022
中国汽车 China Automobiles
OpenAI发布AI对话模型ChatGPT,开启生成式AI商业化新机遇
OpenAI Releases Language Model ChatGPT, Opening New Opportunities for AIGC to Commercialize
[Table_Info]
股票名称
比亚迪
长安汽车
赛力斯
伯特利
江淮汽车
HAI China AutomobilesMSCI China
评级
Outperform
Outperform
Outperform
Outperform
Outperform
目标价
309.80
11.58
75.25
31.25
13.90
市盈率P/E
2022E 2023E
56 38
17 n.a.
n.a. 707
n.a. 80
81 n.a.
(Please see APPENDIX 1 for English summary)
事件
当地时间11月30日,美国人工智能公司OpenAI发布全新产品ChatGPT,一款基于GPT-3.5的免费对话模型。公司CEO Sam Altman透露上线五天该模型的全球用户数量已突破百万。
兼具理解力、创造力和记忆力,ChatGPT对话模型“出圈”。作为一款生成式人工智能模型,ChatGPT的主要功能是与用户进行自然语言的交互,即与用户对话。据OpenAI官网介绍,ChatGPT在与用户展开对话的过程中能够“回答后续问题,承认自己的错误,质疑不正确的前提,并拒绝不适当的请求”。相较苹果Siri、微软小冰等AI服务,ChatGPT最大的亮点之一在于它可以理解用户需求并创造内容、协助代码编写、能够针对用户的追问在后续对话中进行修正或补充。除了逻辑严密的创造能力之外,ChatGPT具有记忆能力,在连续的对话中无需用户提供重复信息,其语言组织和表达能力也更接近人类水平,使对话更自然流畅。目前的ChatGPT局限性也较为明显,官网提示无法保证ChatGPT生成内容的准确性,此外部分创作内容或涉及版权问题。
仰赖大训练规模和强化学习算法,资本注血充沛。ChatGPT的研发公司OpenAI于2015年成立,2018年发布生成式预训练Transform模型GPT-1,随后于2019年和2020年分别优化推出GPT-2和GPT-3。训练参数方面,GPT-3由GPT1的1.17亿提升至1,750亿,公司通过提升训练语料的规模和质量实现GPT系列迭代,而ChatGPT即脱胎于GPT-3.5,其训练参数规模较前代GPT-3又提升了一个数量级,功能更为强大。据悉,OpenAI正在开发的GPT-4模型训练规模或达100万亿。算法模型方面,本次OpenAI引入的人工标注数据和PPO强化学习算法能够结合参数庞大的相关性模型与人类反馈,在与人类互动中通过反馈来强化学习。换言之,用户给予的反馈越多,ChatGPT就会被“打磨”得越好,这也是ChatGPT采取免费试用策略的原因。资本和商业化方面,2019年7月公司与微软达成合作协议,获得微软注资10亿美元同时向微软开放部分技术商业化权限。追求高技术的OpenAI不仅获得了雄厚的研发资本,与微软的合作也为之提供了商业化土壤。以GPT-3为例,微软官网宣布采用GPT-3模型赋能内部商业产品Azure,服务企业用户。
不破不立,AI生成内容商业化前景广阔。继OpenAI今年发布的人工智能图像生成器DALL-E2之后,ChatGPT的推出再次拓展了生成式AI的商业化想象空间,也挑战了现有的商业逻辑。人工智能生成内容将刺激AI生成文本、图像、视频、代码等C端需求,也启发了诸如GPT-3在微软内部商业化落地服务企业的B端业务可能。
5Dec-21 资料来源: Factset, HTI
Mar-22Jun-22Sep-22Dec-22
Related Reports
特斯拉全系国产车型降价,有望垂直延伸市场份额(Tesla cuts starting
prices for China-made models to boost Q4 demand) (25 Oct 2022)
英伟达发布车芯Thor,引领汽车智能芯片革新浪潮(Nvidia Releases Drive
Thor, One Chip to Rule All Software-Defined Vehicles) (21 Sep 2022)
2022华为秋季新品发布会:问界M5 EV全面对标特斯拉Model Y,鸿蒙生态全场景覆盖智慧生活(Huawei-backed AITO launches first all-electric
model M5 EV to take on Tesla Model Y) (7 Sep 2022)
[Table_Author]
Barney Yao
************************
除此之外,类似ChatGPT的智能模型或会对搜索引擎产生一定替代。彭博指出ChatGPT用户可以在对话中直接得到想要了解的资讯,这一新型交互形态可能会冲击现有的搜索引擎广告业务。我们认为,ChatGPT的发布为AI生成内容产业链提供了较多市场机遇,增加上下游需求,同时对现有商业规则的冲击也值得关注。
风险提示
AI生成内容法律法规不健全,模型开发不及预期,商业化进程不及预期等。
ChatGPT的训练步骤合称为RLHF技术
ChatGPT训练过程主要分为三个步骤。
第一步,使用有监督学习方式,基于GPT3.5微调训练一个初始模型,训练数据约为2w~3w量级(此处为推测量级,我们根据兄弟模型InstructGPT的训练数据量级估算)。由标注师分别扮演用户和聊天机器人,产生人工精标的多轮对话数据。值得注意的是,在人类扮演聊天机器人时,会得到机器生成的一些建议来帮助人类撰写自己的回复,以此提高撰写标注效率。以上精标的训练数据虽然数据量不大,但质量和多样性很高,且来自真实世界数据。
第二步,收集相同上文下,根据回复质量进行排序的数据,即随机抽取一大批Prompt,使用第一阶段微调模型,产生多个不同回答,之后标注人员对k个结果排序,形成多组训练数据对。之后使用pairwise loss来训练奖励模型,可以预测出标注者更喜欢哪个输出。"从比较中"学习可以给出相对精确的奖励值,这一步使得ChatGPT从命令驱动转向了意图驱动。另外,训练数据不需过多,维持在万量级即可。因为它不需要穷尽所有的问题,只要告诉模型人类的喜好,强化模型意图驱动的能力即可。
第三步,使用PPO强化学习策略来微调第一阶段的模型。核心思想是随机抽取新的Prompt,用第二阶段的Reward Model给产生的回答打分。这个分数即回答的整体奖励(reward),进而将此奖励回传,由此产生的策略梯度可以更新PPO模型参数。整个过程迭代数次直到模型收敛。强化学习算法可以简单理解为通过调整模型参数,使模型得到最大的奖励,最大奖励意味着此时的回复最符合人工的选择取向。PPO是2017年OpenAI提出的一种新型的强化学习策略优化的算法。它提出了新的目标函数,可以在多个训练步骤实现小批量的更新,特点在于实现简单、易于理解、性能稳定、能同时处理离散/连续动作空间问题、利于大规模训练。
以上三个步骤即ChatGPT的训练过程,合称为Reinforcement Learning from
Human Feedback(RLHF)技术。
图表 1 ChatGPT的训练原理
资料来源:OpenAI,海通国际
ChatGPT的成功基于OpenAI的技术积累
ChatGPT成功的关键原因:1)强大的基座模型能力(InstructGPT);2)大参数语言模型(GPT3.5);3)高质量的真实数据(精标的多轮对话数据和比较排序数据);4)性能稳定的强化学习算法(PPO算法)
图表 2 不同大模型的数据集训练规模 图表 3 更大的模型能够更有效地利用上下文信息
资料来源:Medium,海通国际 资料来源:OpenAI,海通国际
ChatGPT能够实现当前的交互,离不开OpenAI在AI预训练大模型领域的积累。OpenAI最初提出的GPT1,采取的是生成式预训练Transform模型(一种采用自注意力机制的深度学习模型),此后整个GPT系列都贯彻了这一谷歌2017年提出,经由OpenAI改造的伟大创新范式。简要来说,GPT1的方法包含预训练和微调两个阶段,预训练遵循的是语言模型的目标,微调过程遵循的是文本生成任务的目的。
2019年,OpenAI继续提出GPT-2,所适用的任务开始锁定在语言模型。GPT-2拥有和GPT1一样的模型结构,但得益于更高的数据质量和更大的数据规模,GPT-2有了惊人的生成能力,不过它在音乐和讲故事等专业领域的任务表现很不好。2020年的GPT-3将GPT模型提升到全新的高度,其训练参数是GPT-2的10倍以上,技术路线上则去掉了初代GPT的微调步骤,直接输入自然语言当作指示,给GPT训练读过文字和句子后可接续问题的能力,同时包含了更为广泛的主题。
现在的ChatGPT则是由效果比GPT-3更强大的GPT-3.5系列模型提供支持,这些模型使用微软Azure AI超级计算基础设施上的文本和代码数据进行训练。具体来说,ChatGPT在一个开源数据集上进行训练,训练参数也是前代GPT3的10倍以上,还多引入了两项功能:人工标注数据和强化学习,实现了在与人类互动时从反馈中强化学习。
也因此,我们得以看到一个强大的ChatGPT:能理解人类不同指令的含义,会甄别高水准答案,能处理多元化的主题任务,既可以回答用户后续问题,也可以质疑错误问题和拒绝不适当的请求。当初,GPT-3只能预测给定单词串后面的文字,而ChatGPT可以用更接近人类的思考方式参与用户的查询过程,可以根据上下文和语境,提供恰当的回答,并模拟多种人类情绪和语气,还改掉了GPT-3的回答中看似通顺,但脱离实际的毛病。
不仅如此,ChatGPT能参与到更海量的话题中来,更好的进行连续对话,有上佳的模仿能力,具备一定程度的逻辑和常识,在学术圈和科技圈人士看来时常显得博学而专业,而这些都是GPT-3所无法达到的。尽管目前ChatGPT还存在很多语言模型中常见的局限性和不准确问题,但毋庸置疑的是,其在语言识别、判断和交互层面存在巨大优势。
ChatGPT前代模型演变历程
在2019年GPT2出世后,OpenAI就尝试结合GPT-2和强化学习。NeurIPS 2020的 Learning to Summarize with Human Feedback 工作中写道,OpenAI在摘要生成时,利用了从人类反馈中的强化学习来训练。可以从这篇工作的整体流程图中,看出三步走的核心思想:收集反馈数据 -> 训练奖励模型 -> PPO强化学习。
RLHF第一阶段是针对多个候选摘要人工排序;第二阶段是训练排序模型(依旧使用GPT模型);第三阶段是利用PPO算法学习Policy(在摘要任务上微调过的GPT)。
文中模型可以产生比10倍更大模型容量更好的摘要效果。但文中也同样指出,模型的成功部分归功于增大了奖励模型的规模。但这需要很大量级的计算资源,例如训练6.7B的强化学习模型需要320 GPU-days的成本。2020年初的OpenAI的Fine-Tuning GPT-2 from Human Preferences可看出,它同样首先利用预训练模型来训练reward模型,进而使用PPO策略进行强化学习,已初见ChatGPT的雏形。
图表 4 2020年ChatGPT的强化模型方案 图表 5 RLHF框架:人类反馈+强化学习训练
资料来源:OpenAI,海通国际
资料来源:OpenAI,海通国际
ChatGPT是站在InstructGPT以及上述理论的肩膀上完成的一项出色的工作,它们将LLM(large language model)、PTM(pretrain language model)与RL(reinforcement learning)出色结合证明这条方向可行。当然,这也是未来还将持续发展的NLP甚至通用智能体的方向。
未来ChatGPT商业化应用空间广阔
以上得到验证的核心技术结构可以应用的潜在领域:
1)视频生成:图片生成+文本故事生成组合为视频;
2)音乐生成(为已有视频生成配乐);
3)图片生成优化:为图片生成的模型提供更好的人类打分数据,用强化学习方式优化原有的图片生成效果(类似从GPT3到ChatGPT式的进步);
4)代码生成;
5)文本生成优化:在某些专业领域提供更多的标注性数据,对领域内的文本生成效果进行强化,例如营销宣传等。
我们认为,未来在应用层面上,因为ChatGPT的出现和迭代,更多AI+的机会将不断迸发,比如:
1)诞生更专业的客服机器人和机器翻译;
2)创业者朝着更垂直更专业化的 AI 进发(医疗、教育等);
3)出现新的创业机会,即 AI 基础设施的机会(模型运维,管理,训练等)。
风险提示
AI生成内容法律法规不健全,模型开发不及预期,商业化进程不及预期等。
2024年1月11日发(作者:金平良)
研究报告Research Report
16 Dec 2022
中国汽车 China Automobiles
OpenAI发布AI对话模型ChatGPT,开启生成式AI商业化新机遇
OpenAI Releases Language Model ChatGPT, Opening New Opportunities for AIGC to Commercialize
[Table_Info]
股票名称
比亚迪
长安汽车
赛力斯
伯特利
江淮汽车
HAI China AutomobilesMSCI China
评级
Outperform
Outperform
Outperform
Outperform
Outperform
目标价
309.80
11.58
75.25
31.25
13.90
市盈率P/E
2022E 2023E
56 38
17 n.a.
n.a. 707
n.a. 80
81 n.a.
(Please see APPENDIX 1 for English summary)
事件
当地时间11月30日,美国人工智能公司OpenAI发布全新产品ChatGPT,一款基于GPT-3.5的免费对话模型。公司CEO Sam Altman透露上线五天该模型的全球用户数量已突破百万。
兼具理解力、创造力和记忆力,ChatGPT对话模型“出圈”。作为一款生成式人工智能模型,ChatGPT的主要功能是与用户进行自然语言的交互,即与用户对话。据OpenAI官网介绍,ChatGPT在与用户展开对话的过程中能够“回答后续问题,承认自己的错误,质疑不正确的前提,并拒绝不适当的请求”。相较苹果Siri、微软小冰等AI服务,ChatGPT最大的亮点之一在于它可以理解用户需求并创造内容、协助代码编写、能够针对用户的追问在后续对话中进行修正或补充。除了逻辑严密的创造能力之外,ChatGPT具有记忆能力,在连续的对话中无需用户提供重复信息,其语言组织和表达能力也更接近人类水平,使对话更自然流畅。目前的ChatGPT局限性也较为明显,官网提示无法保证ChatGPT生成内容的准确性,此外部分创作内容或涉及版权问题。
仰赖大训练规模和强化学习算法,资本注血充沛。ChatGPT的研发公司OpenAI于2015年成立,2018年发布生成式预训练Transform模型GPT-1,随后于2019年和2020年分别优化推出GPT-2和GPT-3。训练参数方面,GPT-3由GPT1的1.17亿提升至1,750亿,公司通过提升训练语料的规模和质量实现GPT系列迭代,而ChatGPT即脱胎于GPT-3.5,其训练参数规模较前代GPT-3又提升了一个数量级,功能更为强大。据悉,OpenAI正在开发的GPT-4模型训练规模或达100万亿。算法模型方面,本次OpenAI引入的人工标注数据和PPO强化学习算法能够结合参数庞大的相关性模型与人类反馈,在与人类互动中通过反馈来强化学习。换言之,用户给予的反馈越多,ChatGPT就会被“打磨”得越好,这也是ChatGPT采取免费试用策略的原因。资本和商业化方面,2019年7月公司与微软达成合作协议,获得微软注资10亿美元同时向微软开放部分技术商业化权限。追求高技术的OpenAI不仅获得了雄厚的研发资本,与微软的合作也为之提供了商业化土壤。以GPT-3为例,微软官网宣布采用GPT-3模型赋能内部商业产品Azure,服务企业用户。
不破不立,AI生成内容商业化前景广阔。继OpenAI今年发布的人工智能图像生成器DALL-E2之后,ChatGPT的推出再次拓展了生成式AI的商业化想象空间,也挑战了现有的商业逻辑。人工智能生成内容将刺激AI生成文本、图像、视频、代码等C端需求,也启发了诸如GPT-3在微软内部商业化落地服务企业的B端业务可能。
5Dec-21 资料来源: Factset, HTI
Mar-22Jun-22Sep-22Dec-22
Related Reports
特斯拉全系国产车型降价,有望垂直延伸市场份额(Tesla cuts starting
prices for China-made models to boost Q4 demand) (25 Oct 2022)
英伟达发布车芯Thor,引领汽车智能芯片革新浪潮(Nvidia Releases Drive
Thor, One Chip to Rule All Software-Defined Vehicles) (21 Sep 2022)
2022华为秋季新品发布会:问界M5 EV全面对标特斯拉Model Y,鸿蒙生态全场景覆盖智慧生活(Huawei-backed AITO launches first all-electric
model M5 EV to take on Tesla Model Y) (7 Sep 2022)
[Table_Author]
Barney Yao
************************
除此之外,类似ChatGPT的智能模型或会对搜索引擎产生一定替代。彭博指出ChatGPT用户可以在对话中直接得到想要了解的资讯,这一新型交互形态可能会冲击现有的搜索引擎广告业务。我们认为,ChatGPT的发布为AI生成内容产业链提供了较多市场机遇,增加上下游需求,同时对现有商业规则的冲击也值得关注。
风险提示
AI生成内容法律法规不健全,模型开发不及预期,商业化进程不及预期等。
ChatGPT的训练步骤合称为RLHF技术
ChatGPT训练过程主要分为三个步骤。
第一步,使用有监督学习方式,基于GPT3.5微调训练一个初始模型,训练数据约为2w~3w量级(此处为推测量级,我们根据兄弟模型InstructGPT的训练数据量级估算)。由标注师分别扮演用户和聊天机器人,产生人工精标的多轮对话数据。值得注意的是,在人类扮演聊天机器人时,会得到机器生成的一些建议来帮助人类撰写自己的回复,以此提高撰写标注效率。以上精标的训练数据虽然数据量不大,但质量和多样性很高,且来自真实世界数据。
第二步,收集相同上文下,根据回复质量进行排序的数据,即随机抽取一大批Prompt,使用第一阶段微调模型,产生多个不同回答,之后标注人员对k个结果排序,形成多组训练数据对。之后使用pairwise loss来训练奖励模型,可以预测出标注者更喜欢哪个输出。"从比较中"学习可以给出相对精确的奖励值,这一步使得ChatGPT从命令驱动转向了意图驱动。另外,训练数据不需过多,维持在万量级即可。因为它不需要穷尽所有的问题,只要告诉模型人类的喜好,强化模型意图驱动的能力即可。
第三步,使用PPO强化学习策略来微调第一阶段的模型。核心思想是随机抽取新的Prompt,用第二阶段的Reward Model给产生的回答打分。这个分数即回答的整体奖励(reward),进而将此奖励回传,由此产生的策略梯度可以更新PPO模型参数。整个过程迭代数次直到模型收敛。强化学习算法可以简单理解为通过调整模型参数,使模型得到最大的奖励,最大奖励意味着此时的回复最符合人工的选择取向。PPO是2017年OpenAI提出的一种新型的强化学习策略优化的算法。它提出了新的目标函数,可以在多个训练步骤实现小批量的更新,特点在于实现简单、易于理解、性能稳定、能同时处理离散/连续动作空间问题、利于大规模训练。
以上三个步骤即ChatGPT的训练过程,合称为Reinforcement Learning from
Human Feedback(RLHF)技术。
图表 1 ChatGPT的训练原理
资料来源:OpenAI,海通国际
ChatGPT的成功基于OpenAI的技术积累
ChatGPT成功的关键原因:1)强大的基座模型能力(InstructGPT);2)大参数语言模型(GPT3.5);3)高质量的真实数据(精标的多轮对话数据和比较排序数据);4)性能稳定的强化学习算法(PPO算法)
图表 2 不同大模型的数据集训练规模 图表 3 更大的模型能够更有效地利用上下文信息
资料来源:Medium,海通国际 资料来源:OpenAI,海通国际
ChatGPT能够实现当前的交互,离不开OpenAI在AI预训练大模型领域的积累。OpenAI最初提出的GPT1,采取的是生成式预训练Transform模型(一种采用自注意力机制的深度学习模型),此后整个GPT系列都贯彻了这一谷歌2017年提出,经由OpenAI改造的伟大创新范式。简要来说,GPT1的方法包含预训练和微调两个阶段,预训练遵循的是语言模型的目标,微调过程遵循的是文本生成任务的目的。
2019年,OpenAI继续提出GPT-2,所适用的任务开始锁定在语言模型。GPT-2拥有和GPT1一样的模型结构,但得益于更高的数据质量和更大的数据规模,GPT-2有了惊人的生成能力,不过它在音乐和讲故事等专业领域的任务表现很不好。2020年的GPT-3将GPT模型提升到全新的高度,其训练参数是GPT-2的10倍以上,技术路线上则去掉了初代GPT的微调步骤,直接输入自然语言当作指示,给GPT训练读过文字和句子后可接续问题的能力,同时包含了更为广泛的主题。
现在的ChatGPT则是由效果比GPT-3更强大的GPT-3.5系列模型提供支持,这些模型使用微软Azure AI超级计算基础设施上的文本和代码数据进行训练。具体来说,ChatGPT在一个开源数据集上进行训练,训练参数也是前代GPT3的10倍以上,还多引入了两项功能:人工标注数据和强化学习,实现了在与人类互动时从反馈中强化学习。
也因此,我们得以看到一个强大的ChatGPT:能理解人类不同指令的含义,会甄别高水准答案,能处理多元化的主题任务,既可以回答用户后续问题,也可以质疑错误问题和拒绝不适当的请求。当初,GPT-3只能预测给定单词串后面的文字,而ChatGPT可以用更接近人类的思考方式参与用户的查询过程,可以根据上下文和语境,提供恰当的回答,并模拟多种人类情绪和语气,还改掉了GPT-3的回答中看似通顺,但脱离实际的毛病。
不仅如此,ChatGPT能参与到更海量的话题中来,更好的进行连续对话,有上佳的模仿能力,具备一定程度的逻辑和常识,在学术圈和科技圈人士看来时常显得博学而专业,而这些都是GPT-3所无法达到的。尽管目前ChatGPT还存在很多语言模型中常见的局限性和不准确问题,但毋庸置疑的是,其在语言识别、判断和交互层面存在巨大优势。
ChatGPT前代模型演变历程
在2019年GPT2出世后,OpenAI就尝试结合GPT-2和强化学习。NeurIPS 2020的 Learning to Summarize with Human Feedback 工作中写道,OpenAI在摘要生成时,利用了从人类反馈中的强化学习来训练。可以从这篇工作的整体流程图中,看出三步走的核心思想:收集反馈数据 -> 训练奖励模型 -> PPO强化学习。
RLHF第一阶段是针对多个候选摘要人工排序;第二阶段是训练排序模型(依旧使用GPT模型);第三阶段是利用PPO算法学习Policy(在摘要任务上微调过的GPT)。
文中模型可以产生比10倍更大模型容量更好的摘要效果。但文中也同样指出,模型的成功部分归功于增大了奖励模型的规模。但这需要很大量级的计算资源,例如训练6.7B的强化学习模型需要320 GPU-days的成本。2020年初的OpenAI的Fine-Tuning GPT-2 from Human Preferences可看出,它同样首先利用预训练模型来训练reward模型,进而使用PPO策略进行强化学习,已初见ChatGPT的雏形。
图表 4 2020年ChatGPT的强化模型方案 图表 5 RLHF框架:人类反馈+强化学习训练
资料来源:OpenAI,海通国际
资料来源:OpenAI,海通国际
ChatGPT是站在InstructGPT以及上述理论的肩膀上完成的一项出色的工作,它们将LLM(large language model)、PTM(pretrain language model)与RL(reinforcement learning)出色结合证明这条方向可行。当然,这也是未来还将持续发展的NLP甚至通用智能体的方向。
未来ChatGPT商业化应用空间广阔
以上得到验证的核心技术结构可以应用的潜在领域:
1)视频生成:图片生成+文本故事生成组合为视频;
2)音乐生成(为已有视频生成配乐);
3)图片生成优化:为图片生成的模型提供更好的人类打分数据,用强化学习方式优化原有的图片生成效果(类似从GPT3到ChatGPT式的进步);
4)代码生成;
5)文本生成优化:在某些专业领域提供更多的标注性数据,对领域内的文本生成效果进行强化,例如营销宣传等。
我们认为,未来在应用层面上,因为ChatGPT的出现和迭代,更多AI+的机会将不断迸发,比如:
1)诞生更专业的客服机器人和机器翻译;
2)创业者朝着更垂直更专业化的 AI 进发(医疗、教育等);
3)出现新的创业机会,即 AI 基础设施的机会(模型运维,管理,训练等)。
风险提示
AI生成内容法律法规不健全,模型开发不及预期,商业化进程不及预期等。