标签谢选骏全集

2023年2月10日星期五

谢选骏:共产党自断双臂,GPT独缺中文



《自断双臂,中国为何缺席了这场ChatGPT盛宴?》(红博士说 2023-02-09)报道:


目录:


1.ChatGPT 编年史


2.我们如何错过GPT盛宴


3.GPT大语言模型能实现AGI吗


ChatGPT编年史


我们来梳理一个时间轴。ChatGPT是对话式UI + GPT–3.5系列模型,我们以最具代表性的论文、模型、API为主线,梳理到今天。


2020之前


2017年6月,Google发布Transformer论文。


2017年6月,7月,OpenAI发布人类喜好的强化学习算法、PPO算法,都是ChatGPT用到的算法。


2018年6月,OpenAI发布GPT-1.


2018年11月,Google发布BERT,此后NLP领域主要基于这个框架研究下游任务。


2019年2月,OpenAI发布GPT-2,OpenAI获得了自信,此后专注于GPT.


2020年


年初,Covid-19爆发。中国闭关。


1月,OpenAI发布语言模型的Scaling Law(概念:模型能力跟参数规模、数据规模强相关),OpenAI获得了在数据和参数规模上Scaling-up的信心。


5月,GPT-3论文发布。


6月,GPT-3 API发布。


9月,ChatGPT的关键原型算法相关论文发布。


12月,欧洲机构发布用于GPT-3复现的开源数据集。


2021年


7月,OpenAI发布Copilot原型算法。


8月,Codex API发布。


11月,GPT-3 API Public Release,不对中国开放。


中国闭关。


2022年


1月,GPT-3.5 API (text-davinci-002)发布,该模型经过Github代码的训练加持,推理能力显著提升(该假设的因果关系待学术界论证),经过Alignment技术的加持,Follow人类指令的能力显著提升,输出结果有用性和无害性显著提升。


3月,GPT-3.5论文发布,公开Alignment算法。


5月,OpenAI Codex已经被70个应用使用,包括微软收购的Github的Copilot.


8月,Stability AI开源StableDiffusion,文生图的算法的效果可用、速度可行、代码开源同时发生,引爆图片生成。一时间,在中国,AIGC似乎就是图片生成的代名词。


9月,Sequoia Capital发布Generative AI: A Creative New World博客。


中国研究人员和开发者,没有OpenAI的API权限。但图片生成却人人都可以尝试,于是互联网似乎只注意到了图片生成,对GPT大语言模型的关注度进一步下降。


经过接近一年的API接入和UI探索、近一年的思维链(Chain of Thought)等Prompt Engineering技术试错、模型加速等技术(如Flash Attention、Fixed-Point)带来的成本和延迟下降,GPT-3.5的模型潜力得到开发(变得Better、Faster and Cheaper), Copy.ai, Jasper等文本生成类公司的产品逐渐成熟。


11月,OpenAI发布GPT3.5 API的新模型(text-davinci-003).


12月1日,ChatGPT发布。Musk等名流开始谈论ChatGPT,引爆英文互联网。


12月初,中国互联网的自媒体逐渐开始讨论ChatGPT,主要以翻译twitter的方式。知乎上有学者开始反思。一周后,关注指数下降,两个月来只剩下AI自媒体把ChatGPT作为自己的主要关注内容。


中国闭关。


2023年


1月,微软宣布投资OpenAI数十亿美元,并将GPT加入全家桶。


2月,中国春节结束,微软和Google你方唱罢我登场,纳斯达克财报季,AI被反复提起。中国互联网是认识微软的,ChatGPT引爆中国互联网,关注指数飙升。


中国开放。


值得注意的是,中国因为疫情闭关的三年,正是OpenAI的GPT发展、壮大、产品化的三年。


我们如何错过GPT盛宴?


历史回顾完了,那么为什么我们(中国,尤其是AI社区)没有更早地意识到,OpenAI技术在应用层面的突破性?


意识到问题需要同时具备哪些条件:


能够看且懂OpenAI、DeepMind、Google等机构的论文(代表人群:研究员)


能够使用OpenAI的API探索论文里的模型 (代表人群:研究员里的尝鲜者)


对硅谷的敏感性,经常看大家在用OpenAI的API做什么产品 (代表人群:VC)


这三类人在中国,我们粗估一下,第一类,大概有1/100,000,第二类大概是第一类里的1/1,000,第三类大概是1/1,000,000. 三个条件,缺少一个,都无法意识到OpenAI发展到哪一步了。有哪个团队汇集了这三种人,并且他们有充分的碰撞?有哪个人是具备了这三种属性?雪上加霜的是,研究人员三年来被封在国内,没有出国参加过学术会议交流,甚至我猜很多人连线上会议都没有参加,很多东西我们从论文上是看不到的。


我们继续深挖。第一类人群中,又分成NLP(自然语言处理)研究人员,其他AI研究人员(比如计算机视觉、语音识别、机器学习)。


中国NLP的研究群体里,基本上是把语言模型(尤其是BERT,而不是GPT)拿去应用在NLP的各种下游任务上,在学术界就是刷榜发论文,在工业界,就是拿去做客服机器人、写稿机器人、角色扮演机器人,研究方法也完全不同于GPT精髓——Scaling-up和Alignment。(几乎)没有人是把大语言模型(LLM)当做通用人工智能(AGI)的一种可能性来研究的。


其他AI研究人员,比如计算机视觉,大部分人还是专注在图像上,即使是用Transformer,也是解决图像的问题,比如用Transformer来做自动驾驶、图像生成等。即使是Tesla AutoPilot的AI主管Karpathy。Karpathy在2022年上半年从Tesla裸辞,以独立研究员的身份,投身于大语言模型。


Karpathy曾经说他过去十年痴迷于AI中取得最快进展的方向,并且曾经对语言模型非常感兴趣,但是却忽视了scaling up的力量,那就是简单的Objective(next word)+简单的结构(Transformer)+ 足够的参数+足够的数据(web text),一个语言模型可以涌现出在小规模状态下看不到的能力,他曾像其他人一样(他应该指早期的OpenAI),一度以为强化学习是AGI的路径,到头来却发现大语言模型是看起来最有希望的路径。在此之前,语言模型的研究人员,把精力过多地放在了具体任务上。


再说AI领域的另一个重要群体——计算机视觉(Computer Vision)群体。在2012年开始的深度学习浪潮里,计算机视觉一直是应用最广、商业化最成功的方向,吸引了太多AI研究员的精力,从图像分类、检测、分割到识别,从图像到视频,从高层视觉到底层视觉,我们在卷积神经网络上卷出了一个又一个新高度。一个YOLO目标检测框架,被迭代到原作者都放弃了,还有人给推到了v7版本。最具代表性的是计算机视觉的登月工程——自动驾驶,它需要成像、识别、合成、建图、规划等几乎所有的视觉AI技术加持,从CNN时代到Transformer时代,不断地拉更多的人下水,但直到今天,全自动驾驶的方案仍未收敛。马斯克定义的问题是对的,自动驾驶是一个real-world AI问题,但显然特斯拉的方案并没有为全自动驾驶准备好。


NLP圈的小家碧玉,CV圈的隔行隔山,疫情闭关三年,互联网信息不通。这些因素叠加起来,整个中文世界,形成了一个信息茧房。10年来,我们以为自己积攒的AI算法、数据、应用的优势,如今变成中美巨大的鸿沟。这个时候,我们甚至没有一个新闻调查,把这件事的来龙去脉,挖它个底朝天。


另一个问题是,我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据?比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。


我们看看GPT–3的训练数据是什么。权重最大的数据集是OpenWebText(开源版本),数据是从Reddit论坛上收集的URL,再把内容抓取下来。Common Crawl是一个开放的互联网数据存档(英文占一半,中文大概5%)。其他一些代表性的数据包括Wikipedia维基百科,Books开放图书,Stack Exchange技术问答社区,Github 代码,ArXiv论文,RealNew新闻存档,PubMed医疗数据。可以看到,由中文互联网产生的数据,比例低到可以忽略。这也是困扰很多试图训练中文大模型的问题,但实际上,ChatGPT的用中文沟通的能力,已经远超那些专门的中文大语言模型了,背后原因是GPT隐式学到的翻译能力。


没有好的中文数据,我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生,需要开放的社区,我们似乎无解。


GPT大语言模型能实现AGI吗?


基于GPT的LLM,仅仅依赖语言,大概率无法实现AGI,而只是”通往AGI的高速公路的一个出口(Yann Lecun)“。但LLM足以把互联网基础设施搞个天翻地覆,它同时具备了Logic和Memory。Logic是推理能力,Memory是对高频知识的记忆,显然Memory可以分为片上和片外,片上有限,片外无限。下一步,我们只需要专注于把LLM的Logic推到极致,把大部分低频Memory offload到模型以外,配以搜索等查询技术,就可以实现对整个互联网前后端的重构。我们远远没有吃尽scaling-law的红利,限制我们的,只有集成电路的摩尔定律和制造能力、能源的价格、数据的获取。


集成电路方面,以Chiplet为代表的系统摩尔定律还不够,人们需要能够scaling-up的Foundry。


能源方面,太阳能和风能 + 能源存储能够解决很多问题,更加激动人心的是以Helion为代表的核聚变技术,则有机会把能源价格降低一个量级,然后更多。


数据方面,目前的GPT模型依赖互联网文本数据,这会用尽,没关系,现实世界的数据是无限的。


网民嚎叫:


不好吃懒做 发表评论于 2023-02-10 06:05:52

中国为何缺席了这场ChatGPT盛宴? - China missed lots of chances from industrial revolution until now and China never did anything really creative and mainly good at following others.

已经4段 发表评论于 2023-02-10 05:42:27

洋知青, 欧洲日本一贯自由, 为啥也缺席了?

已经4段 发表评论于 2023-02-10 05:40:51

Canterbury, 我很少看中国新闻, 中国自诩AI老大, 是老习宣布的还是外交部发言人宣布的? 别把粉红自媒体当成央视

洋知青 发表评论于 2023-02-10 04:20:55

实际原因很简单,AI不是人,说错话了没法抓,也没法送精神病院,只好让它不出现啦!实际AI智商比那个一尊强千百倍!

Canterbury 发表评论于 2023-02-10 03:34:00

楼下是外行。中国自诩AI老大已经有一段时间了。论文什么的超美已经是事实。欧日没有认为自己领先。这是这文章讨论中国的原因。

已经4段 发表评论于 2023-02-10 03:26:23

什么P话! 日本欧洲他们缺席了没有?

zhongguoren8 发表评论于 2023-02-10 02:31:30

炒作。ChatGPT只是把网络的内容汇总,说的话毫无新意,和没说一样。

Sam大树 发表评论于 2023-02-10 01:47:37

聊天而已,没有人信之。跟说唱没多大差别,即使很好玩。

yefenghaiyun 发表评论于 2023-02-10 00:18:26

做研究的时候AI不是我的选项。直到今天也还不信任AI这个东西。当然有可能是我落伍了。

Canterbury 发表评论于 2023-02-09 23:33:00

岂止是AI。自然智慧也因资讯的匮乏低得惨不忍睹。看看各类拳民的言论就知道。

lue96500 发表评论于 2023-02-09 22:41:17

外行看热闹

freemanli01 发表评论于 2023-02-09 22:06:25

真心觉得,如果世界上真的需要一个国家做老大,那就应该是美国。因为美国是个多元化多种族的国家,可以包容任何人种。美国是建立在理念上的国家,而其他国家基本都是以种族为基础。其他任何国家做老大,都只能是某个种族的繁荣,而不是所有种族。比如:日本做老大?那是日本人。德国做老大?那是德意志;法国做老大?那是法国人。西班牙,英国,葡萄牙,中国,俄国?那都多少是有限种族的繁荣。只有美国,有潜力和理念,代表世界的未来。其他国家何必要争老大,大家都围绕独立宣言、人人平等的理念来发展,每个国家、种族,发展自己的特长,不是很好吗?

shakuras2000 发表评论于 2023-02-09 21:43:29

中国在搞电动车,芯片,其实也没错。主要问题是永远英明的指导和百花齐放的竞争在效果上的区别。当年日本也是全国搞联盟押宝等离子屏幕和不是LCD

jingzhe 发表评论于 2023-02-09 21:42:49

厨具再好,没有好的食料也不行。巧妇难为无米之炊嘛!

hombre 发表评论于 2023-02-09 21:39:09

中国忙着放气球呢。

Diesel10 发表评论于 2023-02-09 21:09:03

本来百度的搜索即便是中文部分都比谷歌差很远,现在好了,OpenAI 的GPT把国内甩的更远。百度匆匆上马的“文心一言”不过是在GPT-3开源部分的基础上窜出来的一个蹩脚货,再加上美国对华高端人工智能GPU,FPGA等芯片的限制出口,国内在人工智能上其实与美国的差距在拉大。

道霖沙 发表评论于 2023-02-09 21:07:27

没事,中国有的5G,高铁,微信支付技术甩美帝几十条大街!

Hansha 发表评论于 2023-02-09 21:01:21

中国已经有了中国特色的社会主义,有了中国特色的现代化,现在该有一个中国特色的人工智能了。其实很简单的,只要把中共的那些空话套话搜集起来就可以了,绝对不会说错话的,这在中国是最重要的,否则一旦说错了就要吃官司的。

常看热闹 发表评论于 2023-02-09 20:56:23

天朝要搞出同样功能的产品,难度要高一万倍。原因主要不在于技术,而在于给 AI 提供信息。当所有的信息都必须能通过关键词库时,AI 还学过屁?

退齋 发表评论于 2023-02-09 20:56:21

还是ShitCCP盛宴更厉害

一年回国一次 发表评论于 2023-02-09 20:50:03

2018-2019年,好象天朝正在打击教培行业?

吃素的狼 发表评论于 2023-02-09 20:44:55

呵呵,chatGPT看来就是个被人训练的机器,跟着老鼠学打洞,跟着猴子学爬树。把它放进中共党校,它讨好总书记的本事无人可及,官运直升政治局常委。把它留在美国,它不但会编程还会出谋划策,妙计无穷。这其实揭示了一个真理:再好的工具再优秀的人才,到了中共手里,完蛋操。

freemanli01 发表评论于 2023-02-09 20:19:37

没有男儿指方向。别的都是白扯。

加州老中 发表评论于 2023-02-09 20:05:50

大概用国内的文库训练出来的软件回答同样的问题会和ChatGPT的不一样,具有中国特色。就好比同样的关键字用百度狗出来的和谷歌狗出来的不一样。

roliepolieolie 发表评论于 2023-02-09 19:45:00

问题问得好怪。中国本来就该出席盛宴?盛宴多着呢。近年来的可回收式火箭,星链互联网,mRNA疫苗,哪一个中国不想出席啊?但是,它有门票吗?

炒瓜子 发表评论于 2023-02-09 19:42:50

原因不是闭关三年, 是党指挥一切, 你搞个AI, 回头独立思考了不听党的话怎么办

fancyorange 发表评论于 2023-02-09 19:40:00

闭关三年没偷着先进技术,呵呵。挺好的。接着闭关。因为中国学者闭关三年研究出明清闭关锁国是对中国有利的。哈哈

jinzhengping 发表评论于 2023-02-09 19:38:27

中国为何缺席了这场ChatGPT盛宴? 哈哈 为啥软件界中国人当不了老大替阿三打工 现世现报

新邯郸人 发表评论于 2023-02-09 19:31:07

知识分子冒傻气!

tina0 发表评论于 2023-02-09 19:30:31

咋又是从美国出来的? 真不仗义,这叫我们怎么弯道超车,怎么体现”制度优势“?还让不让人活了?

泥川 发表评论于 2023-02-09 19:22:45

韩国本土搜索引擎Naver,俄罗斯的搜索引擎Yandex,都在开发自己的ChatGPT变种。百度也搞自己的大型语言模型,叫“文心一言”,据说3月就能八字见一撇。不过,正像文中指出,训练大型语言模型的高质量语料,都是英文的。没有海量高质量语料,AI模型再好也补不过来,中国要做这个,先天不足,在这条赛道上,注定追赶不上。

elune 发表评论于 2023-02-09 19:22:22

说实话,国内这种领导说一不二,党领导一切的体制是不可能有正真的创新的,思想全被桎梏了

李听 发表评论于 2023-02-09 19:19:03

遍地谎言的中文网世界,ChatGPT也只能跟着扯谎。

chinesegod3 发表评论于 2023-02-09 19:14:16

摸索的成本是最高的,等摸索出来再跟上去不香吗?这种东西说起来就是一个算法而已,数据来说中文相对封闭的,外国人没啥优势,真正难的还是芯片,涉及的领域太多了。

Sam大树 发表评论于 2023-02-09 18:57:12

聊天软件,跟聊天骗子水平差不了多远

没必要花巨资投入。手中有股心中无股 发表评论于 2023-02-09 18:47:32

这有啥稀奇?中国创新能力为0。 下一个技术突破100%不会在中国出现。中国的强项是大规模制造,前提是西方分享技术。

Rohueone 发表评论于 2023-02-09 18:24:15

没事儿,弯道超车

橡皮潜艇 发表评论于 2023-02-09 18:17:16

等技术成熟了,中国再跟。创造性的东西中国都不行,一直吃救济。


谢选骏指出:有人从中国大陆“反复试验,未能登录。先是报错,后曰‘在你的国家无法使用!’”——由此可见,共产党自断双臂,GPT独缺中文。其结果呢?即使在海外,用中文提问得到的结果也多是断缆的……也就是断的、烂的。所以说,共产党自断双臂,也斩断了GPT的一只脚。

没有评论:

发表评论

谢选骏:共产党不愿美国分裂

《美议员提出4州脱离美国,并入加拿大》(网易新闻 2024-12-06)報道: 在先前的节目中,我们曾讲过,美国加利福尼亚州州长纽森公然对抗特朗普,存在欲把加州打造成“国中国”的意思。并且,当时我们还预测了,美国人估计又要演大戏给我们看了,因为后续美国的其他蓝州,应该也会纷纷跟进...