《ChatGPT:人类新纪元》一书的作者马占凯,我以前并没有听说过,上网一查,发现他有一个重要标签:搜狗输入法之父。我也曾试用过搜狗五笔,只可惜习惯了QQ五笔里输入特殊字符的方式,才没有成为搜狗输入法的用户。

2002年左右,马占凯加入搜狐公司,成功带领团队开发了搜狗输入法。后来,他还在奇虎360、美团任过职。区块链技术火热的时候,他还组织开发了一款钱包,可能由于国内形势不允许才没有发展下去。看本书的后记,《ChatGPT:人类新纪元》这本书成稿只用了一个多月的时间,但整体叙事还是相当宏大的,让我有了不少收获。

既然是讲ChatGPT的一本书,开篇以GPT-4撰写的序言出场就相当惊艳。

GPT-4写的序言

当然,作者也用人类语言亲自写了序言,提供了更加人性化的视角。作者指出,ChatGPT将开启第四次科技革命,称之为智能革命,之前的三次革命分别是机械革命、电力革命和信息革命。作者称为新纪元,意思是GPT-4的出现,使我们进入了一个新的时代,我们再也无法回到过去。

GPT不仅是提高生产力的超强工具,还将重塑所有行业,可能所有的行业可以再用AI来一遍。以前搜索引擎是每个人的标配,而现在各种大模型将成为标配。最近ChatGPT宕机几个小时,有些编辑、程序员的工作就受到影响。智能革命的时代,强者更强,弱者更弱。

第四次科技革命来了

图片来自《ChatGPT:人类新纪元》

机械革命

机械革命始于18世纪末,标志性事件是瓦特改良蒸汽机的发明。瓦特的蒸汽机彻底改变了传统的生产和交通方式。之前,人类主要依靠人力、畜力和自然水力进行生产和运输,而蒸汽机的发明让机器代替了人和动物,极大地提高了生产效率。

蒸汽机推动了工业革命的进程,使得制造业得以迅速发展,工厂大量涌现。火车的出现,更是让人类和货物能够以更快的速度和更低的成本在陆地上移动,改变了人们的交通方式和生活方式。

蒸汽机和随之而来的机械设备,极大地增强了人类的手和脚的能力,使得人类能够完成更多、更重、更复杂的工作。

电力革命

电力革命开始于19世纪末,直至20世纪中期。交流电的普及是其标志性事件。在电力革命之前,人们主要依靠蜡烛和煤气灯照明,夜晚几乎漆黑一片。电力的应用极大地改变了这种情况,促进了城市化进程。电灯、电话、冰箱、洗衣机等电器的发明,大大提高了人们的生活质量和便利性。

电力革命使得城市生活变得更加舒适和高效,工厂生产更加高效,工作环境更加安全,城市发展速度加快,社会生产力大幅提升。电器设备的发明和使用,增强了人类眼睛(电灯)、耳朵(电话)和手(家用电器)的功能,使得人们能够在更短的时间内完成更多的事情。

信息革命

信息革命始于20世纪中期,并持续至今。1946年第一台计算机ENIAC的发明,标志着计算机时代的来临。信息革命由计算机和互联网的普及驱动。1977年,苹果II的出现标志着个人计算机革命的开始。1989年,万维网的发明,使得信息传递更加迅速和便捷。2007年,苹果发布iPhone,开启了移动互联网时代。

信息革命极大地改变了人们的工作、学习和生活方式。计算机和互联网使得信息获取和处理变得更加快捷,全球化进程加快,社交网络、电子商务、在线教育等新兴行业迅速发展,提升了社会整体的效率和生产力。信息技术增强了人类的眼睛(显示屏)、嘴巴(语音识别)、耳朵(音频技术)等功能,使得人类能够更快地获取、处理和传播信息。

智能革命

作者认为ChatGPT的出现标志着智能革命的开始,这一革命正在将人工智能技术融入到各个领域,从自动驾驶汽车、智能家居到医疗诊断,人工智能的应用正在改变着各行各业的运作方式和人们的日常生活。

智能革命极大地提升了生产力和资源配置效率。智能技术在医疗领域的应用,提高了诊断的准确性和效率;在教育领域,个性化学习成为可能;在工业生产中,智能制造显著提升了生产效率和质量。社会正在向更加智能化和高效化的方向发展。

人工智能技术,特别是自然语言处理技术(如ChatGPT),极大地增强了人类大脑的能力,使得人类能够更好地处理复杂问题,获取知识,并进行创造性思维。智能革命不仅在技术层面带来革新,更在深层次上推动了人类思维和生活方式的变革。

从机械革命到智能革命,人类通过不断发明和应用新技术,逐步增强了自身的能力,推动了社会的进步和发展。每一次科技革命不仅改变了生产和生活方式,也拓展了人类的器官功能,使得人类能够完成更多、更复杂的任务。

手把手拆解ChatGPT

ChatGPT的特点

ChatGPT是一款聊天机器人,与早期的聊天机器人不同,它好像可以听懂人话。即使你给它相同的问题也可以产生不同的回答。ChatGPT不仅能回答问题,还能参与复杂的对话,甚至进行推理和提供建议,在处理复杂的语言任务的时候得心应手,是我们进行文字总结、翻译和创意写作的AI助手。

ChatGPT的本质是对文字的合理续写,可以理解为一个非线性函数f(x),每次生成的回答都基于当前上下文进行续写。它不是基于固定的规则或预定义的回答库,而是通过理解和生成自然语言来回应用户。

什么是GPT?

GPT是指生成式预训练模型,它是ChatGPT的核心技术,包含三个关键概念:生成式(Generative)、预训练(Pre-trained)和转换器(Transformer)。

生成式意味着模型不仅能对输入进行分类或预测,还能生成新的内容;预训练指的是模型在大量文本数据上进行初步训练,使其掌握广泛的语言知识;转换器是一种专门用于处理序列数据的神经网络架构,擅长捕捉语言中的复杂依赖关系和上下文信息。

在GPT-3中,模型包含了1750亿个参数,预训练的数据量大约为数百TB,但经过优化和压缩后,实际模型的数据量不到1TB。通过在大规模文本数据上进行预训练,它能理解和生成高质量的自然语言文本。

两步手搓一个GPT

ChatGPT的开发过程分为两个主要步骤:预训练和微调。预训练阶段,模型在大量的文本数据上进行训练,这些数据涵盖了广泛的主题和语言使用方式,从而使模型具备通用的语言理解和生成能力。预训练阶段的主要目标是让模型学习语言结构、语法和常识知识。

微调阶段则是根据具体的应用场景进行调整,使用专门的数据集对模型进行优化,使其在特定任务上表现更好。例如,通过微调,模型可以更好地理解特定领域的语言和上下文,提高其在实际应用中的表现。这个过程也涉及AI对齐(AI Alignment),即确保模型的输出符合人类的价值观和期望,避免产生有害或不适当的内容。

强大的计算能力支持

ChatGPT背后的强大功能离不开计算资源的支持。由于模型包含了数十亿个参数,计算量非常庞大,因此需要使用GPU进行计算加速。ChatGPT的训练和运行过程中,需要处理大量的矩阵运算和数据流,GPU的并行计算能力使得这些复杂的计算得以快速完成,从而保证了模型的高效训练和实时响应能力。

为了更好地理解这一点,可以从较简单的手写数字图像识别问题入手。在28x28像素的手写数字识别中,神经网络会输出一个包含10个元素的向量来表示可能的数字结果。而在ChatGPT中,这样的计算量和复杂性被成倍放大。ChatGPT需要处理的不是简单的图像,而是复杂的自然语言文本,这需要大量的计算资源来解析和生成高质量的语言内容。GPU的强大计算能力正是保证这一切顺利进行的关键。

神经网络用于手写数字识别

无论是在预训练阶段还是在微调阶段,GPU都起到了至关重要的作用,使得这样庞大的模型能够在实际应用中得以实现。从最初的大规模数据处理,到最终的实时对话生成,GPU的计算能力确保了ChatGPT能够快速、准确地响应用户的各种需求。英伟达股票连创新高,也得益于大模型的发展。

人工智能简史

初期

达芬奇在1495年设计了一款机械武士,设计手稿在1950年才被发现。机械武士穿着中世纪盔甲,内部由复杂的齿轮、滑轮和绳索构成,能够模拟人类的基本动作,如坐下、站立、挥动手臂和移动头部。一群意大利工程师揣摩这些草图15年,终于重建了这个机械骑士。

达芬奇机械骑士,图片来自维基百科

1770年,沃尔夫冈·冯·肯佩伦展示了一款被称为“土耳其人”的下棋机器人,他宣称这是一台能够自主下棋的机械装置。这个装置包含一个穿着土耳其服装的人偶,坐在一个大柜子后面,柜子内有复杂的齿轮和机械装置。在接下来的十多年里,它战胜了欧洲的许多棋手,包括拿破仑和富兰克林等名人。然而,这个装置并不是人工智能,而是一个设计精妙的骗局,柜子里藏着一个国际象棋高手,通过机械系统操控人偶下棋。

图灵测试

图灵,誉为“人工智能之父”,在二战期间领导团队成功破译了德国的恩尼格玛密码,极大地影响了战争的进程。他在1950年就提出了著名的图灵测试,用于判断机器是否具有智能。测试的基本思想是,如果一台机器能通过文字对话让人类无法区分其是机器还是人类,那么它就被认为具有智能。有一些程序声称通过了图灵测试,但这些程序都是在某些条件下成功迷惑了评判者,并不能算真正地通过图灵测试。如今的GPT-3已经非常强大,但是否彻底地通过图灵测试,仍有争议。

恩尼格玛密码机,图片取自维基百科

达特茅斯会议(Dartmouth Conference)是1956年在美国新罕布什尔州达特茅斯学院举行的一次具有历史意义的学术会议,被广泛认为是人工智能(AI)领域的正式起点。在这次会议上,约翰·麦卡锡提出了“人工智能”这一术语,并与马文·明斯基、克劳德·香农和艾伦·纽厄尔等人一起讨论了智能机器的可能性。

几次浪潮和寒冬

早期的人工智能主要研究通用问题求解和逻辑推理。通用问题求解主要模拟人类解决复杂问题的过程,尝试将复杂问题分解为更小、更易处理的子问题。而逻辑推理领域,发明了一系列符号语言用于自动定理证明。这个时期也诞生了著名的LISP和PROLOG编程语言,这些语言非常适合人工智能、自然语言处理、专家系统、自动推理等方面的编程。

LISP语言编写的快速排序函数

在1974年至1980年左右,由于技术进展缓慢,人工智能领域经历了一段寒冬期。

1980年至1987年间,人工智能领域又迎来了第二次浪潮。专家系统是当时的一个亮点,基于规则的专家系统在于医疗诊断、化学分析和地质勘探等领域取得一些效果。1986年Geoffrey Hinton等人提出了反向传播算法(BP神经网络),为训练多层神经网络提供了解决方案,重新点燃了大家对神经网络研究的热情。机器学习也开始受到更多关注,各种算法如决策树、贝叶斯网络等的提出和应用为未来机器学习研究奠定了基础。

然而,这一繁荣期随后迎来了第二次寒冬。专家系统在处理复杂问题时难以满足实际需求,BP神经网络仍然训练困难。同时,恰逢美国经济衰退,政府和企业对人工智能的投资减少,也加剧了这一寒冬的到来。

机器学习和深度学习的突破

机器学习领域的重大突破之一是卷积神经网络(CNN)的发展,特别是在图像识别领域的应用。卷积神经网络由杨立昆(Yann LeCun)开发,并在手写数字识别的机器学习算法中取得了显著进展。这一技术的基础是模仿人类视觉系统,通过层级结构逐步抽象和识别图像中的特征。杨立昆的工作为后来的图像识别技术奠定了坚实基础,并成为深度学习领域的核心技术之一。

李飞飞创建的ImageNet视觉数据库是另一个重要里程碑。ImageNet包含了数百万张标注过的图像,极大地促进了计算机视觉研究。2012年,AlexNet的问世标志着深度学习在图像识别领域的突破。AlexNet由Geoffrey Hinton(杰弗里·辛顿)及其学生Alex Krizhevsky开发,在ImageNet竞赛中以领先第二名10个百分点的成绩夺得冠军。这一胜利展示了深度学习的潜力,促使更多研究者和企业投入这一领域,推动了技术的快速发展。

2016年3月,AlphaGo与李世石的围棋人机大战引起了全球轰动。AlphaGo以4:1的成绩战胜了李世石,证明了人工智能在复杂战略游戏中的潜力。AlphaGo是由谷歌DeepMind团队开发的,利用深度学习和强化学习技术,结合了庞大的数据和计算能力。这一胜利不仅展示了机器学习在高复杂度问题中的应用前景,也激发了公众对人工智能的广泛关注。然而,随着AlphaGo的退役,人类已经难以找到能够与之匹敌的对手,无敌就是这样的寂寞。

AlphaGo与李世石的人机大战

伊利亚·苏茨克维尔(Ilya Sutskever)在2015年离开谷歌加入OpenAI,担任首席科学家,并推动了ChatGPT的研发。ChatGPT是一个基于生成式预训练模型的聊天机器人,能够理解和生成自然语言。自发布以来,ChatGPT引发了广泛的关注和讨论,被视为自然语言处理和生成模型的重大突破。

ChatGPT的发布让谷歌感受到了前所未有的威胁,谷歌内部甚至拉响了红色警报,视其为战略层面的最高预警。为了应对这一挑战,谷歌迅速推出了自己的聊天机器人竞品Bard。Bard依托谷歌强大的数据和技术积累,旨在提供与ChatGPT相媲美甚至更优越的对话体验。

大航海时代

发现新大陆:哥伦布的大航海之旅

15世纪末,哥伦布提出向西航行可以到达富饶的亚洲。然而,这一想法在当时被视为异想天开,难以被接受。他辗转于多个国家的宫廷,屡遭拒绝。经过多年的努力和坚持,哥伦布在西班牙获得了支持,筹集到了三艘船和约90名船员,得以开始他的远航。

1492年8月3日,哥伦布从西班牙出发,开始了他的西行探险。航行初期,船队穿越了相对熟悉的海域,但离开这些海域后,航程变得愈加艰难。船员们对未知海域充满恐惧,补给短缺和恶劣天气使得航行更加危险。随着时间的推移,船员们的耐心渐渐耗尽,甚至出现了叛乱的苗头。哥伦布则不断鼓励船员,承诺不远处就是新大陆。经过两个多月的漫长航行,10月12日清晨,船上的瞭望员终于在远处发现了陆地。

哥伦布的发现不仅标志着欧洲大航海时代的开始,也促进了欧洲与美洲之间的经济和文化交流,深刻地影响了全球历史进程。

人工智能的大航海时代

哈萨比斯,一位天才,在2010年的奇点峰会上,做了一场精彩演讲,引起了投资大佬彼得蒂尔的注意。会后,哈萨比斯被邀请到家里详谈,哈萨比斯对于国际象棋的深度理解让蒂尔产生了兴趣。后来,蒂尔出资225万美元,DeepMind在2010年9月正式成立。DeepMind从游戏AI入手,井逐渐向强人工智能方向迈进。

2014年,谷歌宣布以6亿美元收购DeepMind,此后的DeepMind发展迅速。2016年AlphaGo在围棋比赛中战胜李世石。2017年又以3:0战绩横扫柯洁。在2017年,DeepMind的兄弟部门谷歌大脑团队发表了一篇关于Transformer架构的论文,种下了一颗大模型的种子。

2015年底,埃隆·马斯克、山姆·奥特曼、布罗克曼、彼得·蒂尔等投资方宣布成立OpenAI,并承诺投资超过10亿美元。一开始,OpenAI并不是推进AGI通用人工智能发展,而是想做一个不被大公司垄断的开放AI。

谷歌大脑发布的关于Transformer的论文让OpenAI受到了启发。2018年,OpenAI推出了首个基于Transformer的模型,即GPT-1,拥有1.17亿个参数,展示了令人印象深刻的文本生成能力。随后,2019年发布的GPT-2进一步扩大了参数规模,达到15亿,展现了更强的语言理解和生成能力。2022年,GPT-3发布,已经达到1750亿参数,让世界沸腾。目前,ChatGPT基于GPT-4架构,领先其它大模型产品。

语言的本质

作者通过海伦·凯勒学习语言的过程,探讨了语言的本质。海伦·凯勒在失明失聪的情况下,通过安妮·沙利文老师耐心的指导和无数次的重复,学会了一个又一个单词。

在电影中,有一个片段特别生动地展现了这一过程:沙利文将海伦的手放在水流下,同时在她手上拼写“W-A-T-E-R”。这种方法帮助海伦在符号和实物之间建立了联系。通过反复练习和记忆,海伦逐渐扩展了她的词汇量,并最终学会了使用手语和盲文进行复杂交流,甚至出版了14本书。

我也搜索了一下沙利文的生平。沙利文的视力也不好,可以算是半盲。海伦是她的第一个学生,也是唯一的学生。沙利文将一生的精力都投入到了海伦的教学中。人的一生,看来做成一件事就足矣。

从这个极端的学习案例中可以发现,人类的词汇只是一套符号系统,学习一件事物并不一定全靠视觉或听觉。只要能在符号和事物之间建立起联系,就能赋予其意义。我突然对于海伦在手心里写字产生了兴趣,查了一下盲文的基础知识,先学10个简单的数字,记得有的电梯里有这种符号。

我把它们重新分了组,感觉更容易记忆一些:

涌现

单只蚂蚁的生存能力有限,无法单独存活,但当大量蚂蚁聚集在一起时,就形成了一种集体智慧。这种现象被称为涌现,是复杂性科学中的一个核心概念。

类似地,当ChatGPT等大模型的运算达到一定规模时,也会发生涌现现象。摩尔定律指出,硬件性能每两年翻一番,而GPT中的Transformer模型每两年增长750倍。这种增长需要大量的GPU资源,是一般科研机构所难以承担的。

经过大量数据的学习,ChatGPT建立的模型大约有570GB,压缩后为几百GB,能够轻松存储在一块硬盘中。

写在最后

书的最后一章,作者快速回顾了人类发展的整个历史,畅想了AI的未来。我没有如此遥远的梦想,只想让ChatGPT改善我的学习、工作。写这篇笔记,也辅助使用了AI的整理和配图,但自己的工作量也并没有减少,还重温了一遍人工智能的发展史,回顾了一遍海伦的电影,学习了一点点盲文。

智能革命已经到来,我们是否会因此而失业?我们该如何面对?沃尔弗拉姆在《这就是ChatGPT》给出了如下建议:

  • 发掘新的可能性,找到自己感兴趣且能创造价值的东西。
  • 提出有价值的问题比找到问题的答案更加重要。
  • 拥有广泛的知识背景,并能清晰地思考和表达复杂问题。
  • 直接学习所有详细的知识已经变得不必要了,我们可以在更高的层次上学习和工作,抽象掉许多具体的细节。
  • 学会使用多种工具(包括通用人工智能)来做事,提高工作效率和创新能力。