标签谢选骏全集

2023年7月20日星期四

谢选骏:自断双臂,独缺中文


《自断双臂,中国为何缺席了这场ChatGPT盛宴?》(红博士说 2023-02-09)报道:


目录:


1.ChatGPT 编年史


2.我们如何错过GPT盛宴


3.GPT大语言模型能实现AGI吗


ChatGPT编年史


我们来梳理一个时间轴。ChatGPT是对话式UI + GPT–3.5系列模型,我们以最具代表性的论文、模型、API为主线,梳理到今天。


2020之前


2017年6月,Google发布Transformer论文。


2017年6月,7月,OpenAI发布人类喜好的强化学习算法、PPO算法,都是ChatGPT用到的算法。


2018年6月,OpenAI发布GPT-1.


2018年11月,Google发布BERT,此后NLP领域主要基于这个框架研究下游任务。


2019年2月,OpenAI发布GPT-2,OpenAI获得了自信,此后专注于GPT.


2020年


年初,Covid-19爆发。中国闭关。


1月,OpenAI发布语言模型的Scaling Law(概念:模型能力跟参数规模、数据规模强相关),OpenAI获得了在数据和参数规模上Scaling-up的信心。


5月,GPT-3论文发布。


6月,GPT-3 API发布。


9月,ChatGPT的关键原型算法相关论文发布。


12月,欧洲机构发布用于GPT-3复现的开源数据集。


2021年


7月,OpenAI发布Copilot原型算法。


8月,Codex API发布。


11月,GPT-3 API Public Release,不对中国开放。


中国闭关。


2022年


1月,GPT-3.5 API (text-davinci-002)发布,该模型经过Github代码的训练加持,推理能力显著提升(该假设的因果关系待学术界论证),经过Alignment技术的加持,Follow人类指令的能力显著提升,输出结果有用性和无害性显著提升。


3月,GPT-3.5论文发布,公开Alignment算法。


5月,OpenAI Codex已经被70个应用使用,包括微软收购的Github的Copilot.


8月,Stability AI开源StableDiffusion,文生图的算法的效果可用、速度可行、代码开源同时发生,引爆图片生成。一时间,在中国,AIGC似乎就是图片生成的代名词。


9月,Sequoia Capital发布Generative AI: A Creative New World博客。


中国研究人员和开发者,没有OpenAI的API权限。但图片生成却人人都可以尝试,于是互联网似乎只注意到了图片生成,对GPT大语言模型的关注度进一步下降。


经过接近一年的API接入和UI探索、近一年的思维链(Chain of Thought)等Prompt Engineering技术试错、模型加速等技术(如Flash Attention、Fixed-Point)带来的成本和延迟下降,GPT-3.5的模型潜力得到开发(变得Better、Faster and Cheaper), Copy.ai, Jasper等文本生成类公司的产品逐渐成熟。


11月,OpenAI发布GPT3.5 API的新模型(text-davinci-003).


12月1日,ChatGPT发布。Musk等名流开始谈论ChatGPT,引爆英文互联网。


12月初,中国互联网的自媒体逐渐开始讨论ChatGPT,主要以翻译twitter的方式。知乎上有学者开始反思。一周后,关注指数下降,两个月来只剩下AI自媒体把ChatGPT作为自己的主要关注内容。


中国闭关。


2023年


1月,微软宣布投资OpenAI数十亿美元,并将GPT加入全家桶。


2月,中国春节结束,微软和Google你方唱罢我登场,纳斯达克财报季,AI被反复提起。中国互联网是认识微软的,ChatGPT引爆中国互联网,关注指数飙升。


中国开放。


值得注意的是,中国因为疫情闭关的三年,正是OpenAI的GPT发展、壮大、产品化的三年。


我们如何错过GPT盛宴?


历史回顾完了,那么为什么我们(中国,尤其是AI社区)没有更早地意识到,OpenAI技术在应用层面的突破性?


意识到问题需要同时具备哪些条件:


能够看且懂OpenAI、DeepMind、Google等机构的论文(代表人群:研究员)


能够使用OpenAI的API探索论文里的模型 (代表人群:研究员里的尝鲜者)


对硅谷的敏感性,经常看大家在用OpenAI的API做什么产品 (代表人群:VC)


这三类人在中国,我们粗估一下,第一类,大概有1/100,000,第二类大概是第一类里的1/1,000,第三类大概是1/1,000,000. 三个条件,缺少一个,都无法意识到OpenAI发展到哪一步了。有哪个团队汇集了这三种人,并且他们有充分的碰撞?有哪个人是具备了这三种属性?雪上加霜的是,研究人员三年来被封在国内,没有出国参加过学术会议交流,甚至我猜很多人连线上会议都没有参加,很多东西我们从论文上是看不到的。


我们继续深挖。第一类人群中,又分成NLP(自然语言处理)研究人员,其他AI研究人员(比如计算机视觉、语音识别、机器学习)。


中国NLP的研究群体里,基本上是把语言模型(尤其是BERT,而不是GPT)拿去应用在NLP的各种下游任务上,在学术界就是刷榜发论文,在工业界,就是拿去做客服机器人、写稿机器人、角色扮演机器人,研究方法也完全不同于GPT精髓——Scaling-up和Alignment。(几乎)没有人是把大语言模型(LLM)当做通用人工智能(AGI)的一种可能性来研究的。


其他AI研究人员,比如计算机视觉,大部分人还是专注在图像上,即使是用Transformer,也是解决图像的问题,比如用Transformer来做自动驾驶、图像生成等。即使是Tesla AutoPilot的AI主管Karpathy。Karpathy在2022年上半年从Tesla裸辞,以独立研究员的身份,投身于大语言模型。


Karpathy曾经说他过去十年痴迷于AI中取得最快进展的方向,并且曾经对语言模型非常感兴趣,但是却忽视了scaling up的力量,那就是简单的Objective(next word)+简单的结构(Transformer)+ 足够的参数+足够的数据(web text),一个语言模型可以涌现出在小规模状态下看不到的能力,他曾像其他人一样(他应该指早期的OpenAI),一度以为强化学习是AGI的路径,到头来却发现大语言模型是看起来最有希望的路径。在此之前,语言模型的研究人员,把精力过多地放在了具体任务上。


再说AI领域的另一个重要群体——计算机视觉(Computer Vision)群体。在2012年开始的深度学习浪潮里,计算机视觉一直是应用最广、商业化最成功的方向,吸引了太多AI研究员的精力,从图像分类、检测、分割到识别,从图像到视频,从高层视觉到底层视觉,我们在卷积神经网络上卷出了一个又一个新高度。一个YOLO目标检测框架,被迭代到原作者都放弃了,还有人给推到了v7版本。最具代表性的是计算机视觉的登月工程——自动驾驶,它需要成像、识别、合成、建图、规划等几乎所有的视觉AI技术加持,从CNN时代到Transformer时代,不断地拉更多的人下水,但直到今天,全自动驾驶的方案仍未收敛。马斯克定义的问题是对的,自动驾驶是一个real-world AI问题,但显然特斯拉的方案并没有为全自动驾驶准备好。


NLP圈的小家碧玉,CV圈的隔行隔山,疫情闭关三年,互联网信息不通。这些因素叠加起来,整个中文世界,形成了一个信息茧房。10年来,我们以为自己积攒的AI算法、数据、应用的优势,如今变成中美巨大的鸿沟。这个时候,我们甚至没有一个新闻调查,把这件事的来龙去脉,挖它个底朝天。


另一个问题是,我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据?比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。


我们看看GPT–3的训练数据是什么。权重最大的数据集是OpenWebText(开源版本),数据是从Reddit论坛上收集的URL,再把内容抓取下来。Common Crawl是一个开放的互联网数据存档(英文占一半,中文大概5%)。其他一些代表性的数据包括Wikipedia维基百科,Books开放图书,Stack Exchange技术问答社区,Github 代码,ArXiv论文,RealNew新闻存档,PubMed医疗数据。可以看到,由中文互联网产生的数据,比例低到可以忽略。这也是困扰很多试图训练中文大模型的问题,但实际上,ChatGPT的用中文沟通的能力,已经远超那些专门的中文大语言模型了,背后原因是GPT隐式学到的翻译能力。


没有好的中文数据,我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生,需要开放的社区,我们似乎无解。


GPT大语言模型能实现AGI吗?


基于GPT的LLM,仅仅依赖语言,大概率无法实现AGI,而只是”通往AGI的高速公路的一个出口(Yann Lecun)“。但LLM足以把互联网基础设施搞个天翻地覆,它同时具备了Logic和Memory。Logic是推理能力,Memory是对高频知识的记忆,显然Memory可以分为片上和片外,片上有限,片外无限。下一步,我们只需要专注于把LLM的Logic推到极致,把大部分低频Memory offload到模型以外,配以搜索等查询技术,就可以实现对整个互联网前后端的重构。我们远远没有吃尽scaling-law的红利,限制我们的,只有集成电路的摩尔定律和制造能力、能源的价格、数据的获取。


集成电路方面,以Chiplet为代表的系统摩尔定律还不够,人们需要能够scaling-up的Foundry。


能源方面,太阳能和风能 + 能源存储能够解决很多问题,更加激动人心的是以Helion为代表的核聚变技术,则有机会把能源价格降低一个量级,然后更多。


数据方面,目前的GPT模型依赖互联网文本数据,这会用尽,没关系,现实世界的数据是无限的。


网民嚎叫:


旁观者XWY 发表评论于 2023-02-10 16:50:00

中国人工智能热门项目应该是人脸识别,可以很快应用到政府各监测系统,有钱有客户。这种东西在美国是不能搞的,侵犯他人隐私被法律追究到破产。两种不同文化,不同政治法律制度,人工智能的用处大不同,没什么可比性。

5AGDG 发表评论于 2023-02-10 12:50:42

AI只能说实话,中国说的全都是谎话,能不缺席吗?

麦克老狼 发表评论于 2023-02-10 12:19:58

嗯,百度AI拿中文网资料训练了半天,一张口就是习主席语录

没事逛逛88 发表评论于 2023-02-10 11:44:46

好奇中国特色的AI它的资料库是什么样的,是不是三句不离习主席语录?

彼采荇兮 发表评论于 2023-02-10 10:20:22

扯,呵呵, 2021年 关晓彤就在王牌对王牌里 模仿 “小度”了。

西岸-影 发表评论于 2023-02-10 08:44:46

中国的发展阶段目前类似美国在上世纪所谓the great generation那一代(中国是经历了文革的一代,这两代人有类似的经历)。美国到了婴儿潮一代才开始科技大跃进,因为从出生就富裕,不仅国家富裕,个人也富裕,有美国历史上最大的选择权,创造性就是最大的。中国需要下一代人才到这个阶段,才能培养出同样环境。其实中国已经开始,比如互联网经济的发达程度中国远比西方和日本高,这是新经济形式,类似美国在上世纪三四十年代发展地产经济带动美国市场的概念,当时也是领先欧洲的经济模式。

再有就是中国目前在世界上申请的专利最多,论文被引用的次数最多,这都是科技水平的衡量标准。chatgpt仅仅是第一个被注目的产品,并不是终极。MySpace当年是社交媒体鼻祖,默多克化巨资收购,现在在哪儿?可以预测这类AI产品会大量出现,如果市场存在。去年几乎所有世界上除美国以外的知名汽车制造品牌买了华为的智能汽车专利,那只不过就是更有针对性的产品罢了。

过客文 发表评论于 2023-02-10 08:43:08

人都去跟机器聊天了,人际交流就更少,这种东西将导致结婚率,出生率下降,不是什么好东西。

不好吃懒做 发表评论于 2023-02-10 06:05:52

中国为何缺席了这场ChatGPT盛宴? - China missed lots of chances from industrial revolution until now and China never did anything really creative and mainly good at following others.

已经4段 发表评论于 2023-02-10 05:42:27

洋知青, 欧洲日本一贯自由, 为啥也缺席了?

已经4段 发表评论于 2023-02-10 05:40:51

Canterbury, 我很少看中国新闻, 中国自诩AI老大, 是老习宣布的还是外交部发言人宣布的? 别把粉红自媒体当成央视

洋知青 发表评论于 2023-02-10 04:20:55

实际原因很简单,AI不是人,说错话了没法抓,也没法送精神病院,只好让它不出现啦!实际AI智商比那个一尊强千百倍!

Canterbury 发表评论于 2023-02-10 03:34:00

楼下是外行。中国自诩AI老大已经有一段时间了。论文什么的超美已经是事实。欧日没有认为自己领先。这是这文章讨论中国的原因。

已经4段 发表评论于 2023-02-10 03:26:23

什么P话! 日本欧洲他们缺席了没有?

zhongguoren8 发表评论于 2023-02-10 02:31:30

炒作。ChatGPT只是把网络的内容汇总,说的话毫无新意,和没说一样。

Sam大树 发表评论于 2023-02-10 01:47:37

聊天而已,没有人信之。跟说唱没多大差别,即使很好玩。

yefenghaiyun 发表评论于 2023-02-10 00:18:26

做研究的时候AI不是我的选项。直到今天也还不信任AI这个东西。当然有可能是我落伍了。

Canterbury 发表评论于 2023-02-09 23:33:00

岂止是AI。自然智慧也因资讯的匮乏低得惨不忍睹。看看各类拳民的言论就知道。

lue96500 发表评论于 2023-02-09 22:41:17

外行看热闹

freemanli01 发表评论于 2023-02-09 22:06:25

真心觉得,如果世界上真的需要一个国家做老大,那就应该是美国。因为美国是个多元化多种族的国家,可以包容任何人种。美国是建立在理念上的国家,而其他国家基本都是以种族为基础。其他任何国家做老大,都只能是某个种族的繁荣,而不是所有种族。比如:日本做老大?那是日本人德国做老大?那是德意志;法国做老大?那是法国人。西班牙,英国,葡萄牙,中国,俄国?那都多少是有限种族的繁荣。只有美国,有潜力和理念,代表世界的未来。其他国家何必要争老大,大家都围绕独立宣言、人人平等的理念来发展,每个国家、种族,发展自己的特长,不是很好吗?

shakuras2000 发表评论于 2023-02-09 21:43:29

中国在搞电动车,芯片,其实也没错。主要问题是永远英明的指导和百花齐放的竞争在效果上的区别。当年日本也是全国搞联盟押宝等离子屏幕和不是LCD

jingzhe 发表评论于 2023-02-09 21:42:49

厨具再好,没有好的食料也不行。巧妇难为无米之炊嘛!

hombre 发表评论于 2023-02-09 21:39:09

中国忙着放气球呢。

Diesel10 发表评论于 2023-02-09 21:09:03

本来百度的搜索即便是中文部分都比谷歌差很远,现在好了,OpenAI 的GPT把国内甩的更远。百度匆匆上马的“文心一言”不过是在GPT-3开源部分的基础上窜出来的一个蹩脚货,再加上美国对华高端人工智能GPU,FPGA等芯片的限制出口,国内在人工智能上其实与美国的差距在拉大。

道霖沙 发表评论于 2023-02-09 21:07:27

没事,中国有的5G,高铁,微信支付技术甩美帝几十条大街!

Hansha 发表评论于 2023-02-09 21:01:21

中国已经有了中国特色的社会主义,有了中国特色的现代化,现在该有一个中国特色的人工智能了。其实很简单的,只要把中共的那些空话套话搜集起来就可以了,绝对不会说错话的,这在中国是最重要的,否则一旦说错了就要吃官司的。

常看热闹 发表评论于 2023-02-09 20:56:23

天朝要搞出同样功能的产品,难度要高一万倍。原因主要不在于技术,而在于给 AI 提供信息。当所有的信息都必须能通过关键词库时,AI 还学过屁?

退齋 发表评论于 2023-02-09 20:56:21

还是ShitCCP盛宴更厉害

一年回国一次 发表评论于 2023-02-09 20:50:03

2018-2019年,好象天朝正在打击教培行业?

吃素的狼 发表评论于 2023-02-09 20:44:55

呵呵,chatGPT看来就是个被人训练的机器,跟着老鼠学打洞,跟着猴子学爬树。

把它放进中共党校,它讨好总书记的本事无人可及,官运直升政治局常委。

把它留在美国,它不但会编程还会出谋划策,妙计无穷。

这其实揭示了一个真理:再好的工具再优秀的人才,到了中共手里,完蛋操。

freemanli01 发表评论于 2023-02-09 20:19:37

没有男儿指方向。

别的都是白扯。

加州老中 发表评论于 2023-02-09 20:05:50

大概用国内的文库训练出来的软件回答同样的问题会和ChatGPT的不一样,具有中国特色。就好比同样的关键字用百度狗出来的和谷歌狗出来的不一样。

roliepolieolie 发表评论于 2023-02-09 19:45:00

问题问得好怪。中国本来就该出席盛宴?盛宴多着呢。近年来的可回收式火箭,星链互联网,mRNA疫苗,哪一个中国不想出席啊?但是,它有门票吗?

fancyorange 发表评论于 2023-02-09 19:40:00

闭关三年没偷着先进技术,呵呵。挺好的。接着闭关。因为中国学者闭关三年研究出明清闭关锁国是对中国有利的。哈哈

jinzhengping 发表评论于 2023-02-09 19:38:27

中国为何缺席了这场ChatGPT盛宴? 哈哈 为啥软件界中国人当不了老大替阿三打工 现世现报

新邯郸人 发表评论于 2023-02-09 19:31:07

知识分子冒傻气!

tina0 发表评论于 2023-02-09 19:30:31

咋又是从美国出来的? 真不仗义,这叫我们怎么弯道超车,怎么体现”制度优势“?还让不让人活了?

泥川 发表评论于 2023-02-09 19:22:45

韩国本土搜索引擎Naver,俄罗斯的搜索引擎Yandex,都在开发自己的ChatGPT变种。百度也搞自己的大型语言模型,叫“文心一言”,据说3月就能八字见一撇。不过,正像文中指出,训练大型语言模型的高质量语料,都是英文的。没有海量高质量语料,AI模型再好也补不过来,中国要做这个,先天不足,在这条赛道上,注定追赶不上。

elune 发表评论于 2023-02-09 19:22:22

说实话,国内这种领导说一不二,党领导一切的体制是不可能有正真的创新的,思想全被桎梏了

李听 发表评论于 2023-02-09 19:19:03

遍地谎言的中文网世界,ChatGPT也只能跟着扯谎。

chinesegod3 发表评论于 2023-02-09 19:14:16

摸索的成本是最高的,等摸索出来再跟上去不香吗?这种东西说起来就是一个算法而已,数据来说中文相对封闭的,外国人没啥优势,真正难的还是芯片,涉及的领域太多了。

Sam大树 发表评论于 2023-02-09 18:57:12

聊天软件,跟聊天骗子水平差不了多远

没必要花巨资投入

手中有股心中无股 发表评论于 2023-02-09 18:47:32

这有啥稀奇?中国创新能力为0。 下一个技术突破100%不会在中国出现。中国的强项是大规模制造,前提是西方分享技术。

Rohueone 发表评论于 2023-02-09 18:24:15

没事儿,弯道超车

橡皮潜艇 发表评论于 2023-02-09 18:17:16

等技术成熟了,中国再跟。创造性的东西中国都不行,一直吃救济。


谢选骏指出:其实,AI也会撒谎,而且脸不红、心不跳——专门坑害弱势群体!等“中国”迎头赶上的时候,就比欧美更加恐怖了——看看它把欧美的道路监控,如何变成了天眼覆盖!就略知一二了。

没有评论:

发表评论

谢选骏:與gemini討論死亡與人生

(一)如何理解“死亡幫助我們認清了自己作爲碳基生物的這一處境”? 如何理解「死亡幫助我們認清了自己作為碳基生物的這一處境」? 這句話乍聽之下有些抽象,但其實蘊含著深刻的生命哲學。讓我們來逐層剖析: 1.碳基生物的本質 物質組成:所有地球上的生命形式,包括人類,都是以碳元素為基礎的...