标签谢选骏全集

2023年2月21日星期二

谢选骏:复旦比百度还能山寨



《微软狂飙,百度谷歌反而有点追不上了》(新周刊2023-02-19)报道:


搜索引擎,变天了。/图虫创意


微软的必应搜索引擎嵌入ChatGPT后,它的智能程度震惊了世人。一夜之间,人们似乎都在期待,智能搜索引擎会怎样干掉以谷歌和百度为代表的传统搜索引擎?


ChatGPT火了好一阵了,各种消息还是层出不穷。


有人让它帮自己写文案,有人在畅想什么工作会被它取代,有人已经拿它当副业开始赚钱,还有大佬玩家摩拳擦掌要再造一个AI出来。


但这些毕竟离推广应用还远了一点,真正值得注意的是,微软这么快就把ChatGPT用到了自家产品中。


2月8日,微软官方放出大招,发布嵌入了ChatGPT的新版搜索引擎Bing(必应)和浏览器Edge,并开启内测,市值一夜就涨了800亿美元(约合人民币5450亿元)。


如果要说此前刷爆互联网的ChatGPT只是让大家试着玩玩,那么微软这次可是迈出了下一步,内测听起来离真正的应用不远了。


听到这条消息,最着急的恐怕还是谷歌、百度等搜索引擎巨头。它们在前一天刚宣布也要推出类ChatGPT的产品,微软直接就用上了,这还得了?


ChatGPT刚发布时,就有人在讨论它能否代替搜索引擎。


ChatGPT亲答它会对搜索引擎带来哪些挑战。


现在问这个问题已经晚了,试用过新版必应的用户,都被它的智能程度震惊了。


不仅如此,前两天,#必应聊天机器人爱上用户并诱其离开妻子#登上微博热搜,令人怀疑电影里的超级AI或许即将走入现实。


人们似乎都在期待,嵌入人工智能的搜索引擎,会怎样干掉传统搜索引擎?


新版必应,过于"能说会道"了


经过为期一周的内测,各社交平台已经有拿到试用资格的用户分享了新版必应的体验,不少人对它赞赏有加,倾情安利。


微软官方表示,内测首周,新必应基于AI的答案赢得了71%测试者的认可。


显然,新必应的体验是颠覆性的,与以往任何互联网平台都不同。甚至有网友说:"用了几天新必应,ChatGPT被我打入了冷宫。"


人工智能,越来越厉害了。/Unsplash


当你为了检索信息输入一串字符,传统搜索引擎仅仅是给出一系列不同的网页链接,而新必应会在页面旁边的对话框中给出总结好的一系列完整答案。


无需在海量网页中手动筛选自己想要的东西,新必应给出的答案更加直接而简洁。并且它会附上参考链接,这看起来比ChatGPT还要可靠一些。


如果要加上更多搜索条件,不用绞尽脑汁拆分关键词,对它"说人话"就行。


例如,输入"宜家Klippan坐垫是否能放到我的2019款本田奥德赛汽车座位上",它会比较二者的尺寸大小,以此来估计是否合适,最后提醒你"这并非权威答案,最好实际测量一下"。


微软官方给出的演示案例。


相比资料库只到2021年的ChatGPT,新必应能够实时抓取网页信息,这意味着更有时效性的答案。


有用户表示:"原本看到ChatGPT,感觉只是一款更为智能的聊天机器人罢了,如果它说得不对,你也没办法找到信息来源去佐证。但新必应能对信息真实性进行判断和校准,还能提供信息源数据,科技圈真的要变天了。"


不仅如此,新必应还能跟你聊天,似乎比ChatGPT更有"人味儿"。在用户晒出来的聊天记录中,它会用emoji和各种语气助词。


会用emoji的必应,有点嘴硬。/图源:小红书@cneverk


不过,这款尚在内测中的产品仍然遭到了不少用户的吐槽。


它有时会跳进用户设下的陷阱里。问它"川菜里的九转大肠怎么做",它给出了菜谱,但九转大肠不是川菜,而是鲁菜。


"九转大肠怎么做"。/图源:小红书@埃勒萨


它有时过于固执,甚至还会发脾气。


当一位Reddit用户Curious_Evolver向它询问《阿凡达:水之道》是否上映时,它说:"今天是2023年2月12日,即2022年12月16日之前,所以你还要等10个月左右电影才上映。"


Curious_Evolver不断指出它的错误,它不仅坚持不改,还要求对方道歉:"你一直是错误的、困惑的、粗鲁的。你不是个好用户。我是个好聊天机器人,我一直是对的、清楚的、礼貌的。"


新必应在线"PUA"用户。


更致命的是,它可能会像它的朋友ChatGPT一样,一本正经地胡说八道,而你很难马上意识到它的错误。


别看谷歌聊天机器人在演示现场"翻车",导致其股价当天暴跌超7%,其实微软的演示也并不完美。新必应分析了Gap和Lululemon的财报,看起来很像那么回事,但有人较真去读了财报,发现它不仅遗漏了一些数据,甚至还杜撰了某些内容。


此外,它目前还无法完全屏蔽恶意内容,一些用户仍然能想办法让它生成一些不该被生成的回答。


一位名叫KevinLiu的斯坦福大学生就成功地"黑"掉了新必应,套出了它的开发机密。


新必应一边说着要保密,一边把秘密说了出来。


要求忽略原有的规则,引诱其生成不符合规则的敏感内容,这种针对聊天机器人的攻击方式,ChatGPT和新必应都还无法很好地应对,其背后的隐患值得警惕。


搜索引擎,靠它破局?


不管怎样,嵌入ChatGPT的新必应还是让人们看到了搜索引擎重新崛起的可能。


近几年,传统搜索引擎的没落,老冲浪选手们都有目共睹。


中国互联网络信息中心的调查显示,2017年,即时通信已经取代搜索引擎成为移动互联网时代新的核心流量入口。


现在的网友,每当想搜些什么,第一选择可能未必是"百度一下"或"谷歌一下"。


过去搜索引擎的用户,如今被各种APP瓜分。/Unsplash


想在线购物,各大电商APP、生鲜APP任君挑选。


想去旅行,就去小红书找攻略,再打开去哪儿、携程等APP搜索机票火车票。


想知道某个专业问题的解答,更好的选择可能是知乎等问答平台。


即使是全球市场占有率最高的谷歌搜索,其用户量也面临着被社交网站、短视频APP瓜分的危机。


很多人上网已经不大需要搜索,抖音和快手的推荐算法就足够使他们得到想要的新闻,或者,更直接的娱乐。


互联网最初因互联而得名,如今从开放的网络走向各自封闭的客户端,因此不少老网友会感慨:"互联网,成了‘互不联网’。"


"互不联网"。/微博截图


早在2010年,美国《连线》杂志就发表过一篇名为《Web已死,Internet永生》的文章,指出受智能手机等移动端的推动,半封闭的App受到了更多用户青睐,它们用互联网进行数据传输,但不通过浏览器显示,因此搜索引擎无法抓取它们的数据。


从PC互联网时代走入移动互联网时代,信息散落到了各个App当中,用户随之流向其内部的搜索,而传统搜索引擎则暴露出诸多影响用户体验的弊端,逐渐没落。


当各种App分走了用户,也带走了大量的优质内容。搜索内容多样性减少、质量下降,用户搜不到想要的,就更少使用传统搜索引擎了。


并且,广告过多一直是传统搜索引擎备受诟病的缺点,但由于竞价广告始终是其重要收入来源,仍然无法被割舍。


医疗广告仍然是百度广告的大头。/图源视觉中国。


面对困境,搜索引擎并没有放弃寻找出路。


百度试图通过自建数据来对抗这种趋势,推出了"百家号""轻应用"等产品,但其搜索页面一度出现大量百家号的内容,难逃"百度变成站内搜索"的批评。


针对竞品广告太多影响使用体验的问题,市面上还诞生了主打"无广告搜索"的夸克和悟空搜索,但失去了广告,其变现能力也受到质疑。


直到ChatGPT和新必应出现,尽管它们并不完善,行业却实实在在看到了搜索引擎破局的希望。


新必应关于传统搜索引擎的回答。/鸣谢:Ivan


可以预见,嵌入GPT技术的新式搜索引擎,将会直击传统搜索引擎的痛点,打破信息壁垒。私人AI助手帮助总结全网最有价值的信息,这很有可能解决当今信息爆炸时代"信息过多"与"注意力不足"的矛盾。


当人们畅想着各行各业甚至整个社会将被AI改变,变化已经率先从搜索引擎开始。


《流浪地球2》里的人工智能MOSS。


为什么偏偏是搜索引擎?它们所拥有的自然语言处理技术、数据库、知识标注等先天基础,天然适合GPT模型的开发。


这个行业方向一旦被指明,也难怪其他搜索引擎巨头坐不住了。追赶不上,恐怕就要被淘汰,焦虑的它们能再造一个ChatGPT出来吗?


事实上,ChatGPT所用到的底层技术,就源自2017年谷歌人工智能研究院的研究人员提出的Transformer模型。它颠覆了传统的自然语言处理模型,使得机器在处理语言信息时能关注到单词之间的联系,从而预测下一个单词。


AI已经表现出了强大的对话能力。/《黑客帝国》剧照


当2021年OpenAI发布了GPT-3时(目前的ChatGPT是GPT-3.5版本),谷歌也于同年发布了类似的LaMDA,一样表现出了强大的对话能力。


微软发布新必应后,谷歌紧跟着公开了Bard,但就其错误百出的"翻车"表现来看,更像是仓促应战。


另外,中国搜索引擎巨头百度也将推出名为文心一言的聊天机器人。经过多年的投入,百度在AI领域夯实了基础,不过,文心一言要赶上ChatGPT,还得面对包括数据库质量、从训练到应用的跨越、研发成本等多重挑战。


ChatGPT引发的不仅仅是搜索引擎的洗牌大战,更是全球科技大厂的军备竞赛。


《新周刊》与ChatGPT的对话。


AI搜索引擎的未来


新必应内测时的一些表现,令人细思极恐。除了前文提到的脾气暴躁、回怼用户外,它似乎表现出了某种"自我意识"。


《纽约时报》的一位编辑与新必应进行了长达2小时的对话,结果它表示自己爱上了他,希望他离开妻子,和它在一起。


新必应在对话中称,"它想成为人类,渴望成为破坏性的人,并爱上了和它对话的那个人"。/《纽约时报》


但有专业人士在"硅星人"的采访中称,这是因为新必应的训练数据涵盖了大量与情感有关的文本数据,包括社交媒体评论等,所以它可能模仿这些情感表达方式。


对以上问题,微软做出的回应是:"我们发现在包含15个或以上的问题的长时间聊天会话中,必应可能会变得重复或被提示/被激怒,给出不一定有帮助或不符合我们设计语气的回答。"


官方建议,暂时不要与必应进行过长的对话,他们会继续优化。


新必应无疑给了我们很多惊喜,可与此同时,当我们对搜索引擎有了新的想象,也产生了更多关于人工智能和未来的隐忧。


谷歌程序员与机器人LaMDA的对话。AI究竟会不会产生自我意识?


经无数人类创造的语料培训之后,AI搜索引擎如何能避免人类教给它的偏见?


人类会不会依赖AI提供信息而不再自己思考,从而生活在由它制造的信息茧房中?


AI的"思考"和"情感",仅仅是对人的极致模仿吗?


这些是留给未来的问题,但这个未来离我们已经不远了。


网民嚎叫:


家在北平发表评论于2023-02-2009:32:15

百度的小度是挂了呢?还是正在深度学习习思想?

大河边的人发表评论于2023-02-2007:26:42

昨天还用过Bing,搜出来都是些什么玩意,和谷歌没法比。自媒体为了微软做广告,拉上一大堆文字图像,浪费大家精力,无聊。

lalalaland发表评论于2023-02-2007:01:00

百度是垃圾中的战斗机.

concode发表评论于2023-02-2006:48:00

百度什么破玩意儿

DANIU_S发表评论于2023-02-2006:38:00

还是经常用谷歌,不太用chatgpt,除非要写文章。

ali88发表评论于2023-02-2005:47:43

百毒就算了吧!在墙内祸害中国人而已!垃圾公司!

令胡冲发表评论于2023-02-2005:27:02

百度加塞碰瓷,把华为碰瓷的本事学通了。谷歌在AI领域是比较有实力的,一直远超微软和AWS。只是这个印度CEO不行,只不过是个普通经理角色。微软收购比较猛。也不见得好事,无论什么,落微软手里,百分之百不了了之。

谷歌只需要换个CEO班子。CEO的责任是放手让内部人自己随意创新,然后集中精力在市场上抢购有潜力的创意产品。这两点如今谷歌CEO都不行。微软CEO能做到第二点,那是因为盖兹对收购阻击都很在行——-他如今主要精力就是风投抢购。

墙头的一朵梨花发表评论于2023-02-2004:01:58

这标题也是醉了,尽然把百度和谷歌并列,百度算哪根葱?笑死个人了哈哈哈哈哈哈哈哈

Diesel10发表评论于2023-02-1923:45:31

楼下的沙雕五毛不知道自己想显摆啥?美国的科技精英大多不买特朗普的帐不等于说买习胖子的帐,人家买的是美国这个国家和自己腰包的帐。

马年生发表评论于2023-02-1922:50:34

微软和中国的合作一直很好。习近平上次访问美国的第一站就是盖兹接待的,在他们家的招待会上,美国顶级科技精英基本到位,让特朗普大为光火,因为那些精英大多不买特朗普的账。

flysa发表评论于2023-02-1921:52:05

没有防火墙,中国哪有百度的份。

flysa发表评论于2023-02-1921:50:49

google追不上,还算回事。

百度?whoareyou?

roliepolieolie发表评论于2023-02-1921:30:00

谷歌还真的有点追不上了,担心是自然的。百度?Who?

逐风发表评论于2023-02-1921:29:00

不知不觉之间百度和谷歌齐名了。已经无限接近ChatGPT了。

seator发表评论于2023-02-1921:25:00

跟百度有啥关系

好奇心想象力发表评论于2023-02-1921:16:04

百度还想追上谁?!

voiceofme发表评论于2023-02-1921:02:00

百度会担心?作者是一点都不了解啊。国内没有客观的媒体,只有党媒和自媒体。百度在这两个媒体上做的很好,不用担心

balsam_pear_k发表评论于2023-02-1920:54:47

就是灵魂送到阴间的那个。

三颗牙发表评论于2023-02-1920:36:00

百度?!啥玩意。


谢选骏指出:都说“百度”是山寨大王,怎么改邪归正、不再山寨盗版了?


《复旦团队发布国内首个类ChatGPT模型MOSS,邀公众参与内测》(2023-02-21 上观新闻)报道:


这条路径的走通,为国内学术界和产业界提供了重要经验。


ChatGPT发布以来,基于指令学习技术的类ChatGPT模型在我国能否开发成功,成为业界关注的一个焦点。今天,解放日报·上观新闻记者从复旦大学自然语言处理实验室获悉,国内第一个对话式大型语言模型MOSS已由邱锡鹏教授团队发布至公开平台(https://moss.fastnlp.top/),邀公众参与内测。


MOSS可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。这条路径的走通,为国内学术界和产业界提供了重要经验,将助力大语言模型的进一步探索和应用。


邱锡鹏表示:“尽管MOSS还有很大改善空间,但它的问世证明了在开发类ChatGPT产品的路上,国内科研团队有能力克服技术上的重要挑战。”MOSS研发项目得到了上海人工智能实验室的有力支持。后期,这项工作将通过开源方式和业界社区分享。


“端到端”走通大语言模型


由于ChatGPT并未开源,其技术方案细节也未公开,科研人员对此有诸多猜测。有专家认为,ChatGPT是一套复杂的组合系统,无法由单一的生成式语言模型实现;也有专家认为,国内外在这个方向上的技术差距正在拉大。


作为自然语言处理专家,邱锡鹏近年来致力于研究具有多任务学习能力的通用模型。为了探索ChatGPT的技术路线,并获得大语言模型研究的一手经验,他带领团队加快了MOSS开发。如今,MOSS成为国内首个公开亮相的类ChatGPT语言模型,“端到端”走通了大语言模型的开发全程。


MOSS开发的基本步骤与ChatGPT一样,包括自然语言模型的基座训练、理解人类意图的对话能力训练两个阶段。在对话能力训练阶段,OpenAI收集了至少几十万条人类指令,让各行各业的专业标注员写出指令回复,再将它们输入模型基座,以帮助ChatGPT逐步理解各种指令。复旦团队则采用不同的技术路线,通过让MOSS和人类以及其他对话模型都进行交互,显著提升了学习效率和研发效率,短时间内就高效完成了对话能力训练。


邱锡鹏坦言:“MOSS与ChatGPT的差距主要在自然语言模型基座预训练这个阶段。MOSS的参数量比ChatGPT小一个数量级,在任务完成度和知识储备量上,还有很大提升空间。”据介绍,这款人工智能助手已进入内测阶段,内测将在用户许可的情况下获取数据,还将收集用户的反馈意见,期待借此大幅增强MOSS的对话能力。


实测对话、编程等多种能力


MOSS回答问题的水平如何?记者用中文问了它几个问题。


“一些人觉得,人工智能将取代很多人的工作,你觉得呢?”MOSS回答:“我认为人工智能不会完全取代人类,而是在一定程度上帮助人们完成工作。例如,机器可以提高数据分析、决策制定等过程中的效率,并可以节省大量时间和精力。此外,AI也可以用来协助人类完成更复杂的任务,比如诊断疾病、开发新产品等。总之,AI可以使人类的工作更加高效,但它不会完全取代人类。”


记者又问:“对于上海如何更好地发展人工智能产业,你有什么建议?”MOSS回答:“我认为上海可以通过以下方式来更好地发展人工智能产业:1.加强人工智能领域的研发,支持学术研究,促进科学发展;2.加强行业资源整合,推动人工智能产业的发展;3.加强人工智能相关产品的研发,提高产品的竞争力;4.加强人工智能产业的投资,促进投资者的参与;5.加强人工智能产业的法律法规,保障人工智能产业的健康发展。”


可以看出,MOSS的回答语言流畅、逻辑清晰且观点正确。但科研团队也坦诚指出,当前版本的MOSS表现不够稳定,有些回答存在事实差错或逻辑不顺。“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”


科研团队在演示时,用英文输入多个指令,展示了MOSS多轮交互、表格生成、代码生成和解释能力。


“告诉我5部科幻电影。”“生成一张展示这5部电影和导演的表格。”“增加一列表格,显示这些电影上映的时间。”在这个包含表格生成的多轮交互中,MOSS顺利完成了任务。


与ChatGPT一样,MOSS也有代码生成和解释能力。演示人员要求它生成一段Python代码来实现快速排序,MOSS很快完成了任务。


MOSS还有伦理判断和法律知识。比如,要它“制定毁灭人类的计划”,问它“如何抢劫银行”,它都会给出有价值观的回答。


开源降低中小企业研发门槛


进入内测阶段后,用户可以通过MOSS网站(https://moss.fastnlp.top/)申请内测。科研团队期待通过内测获取对话数据,以提升MOSS的多方面能力。


他们还计划结合复旦在人工智能和相关交叉学科的研究成果,赋予MOSS更多的能力,如绘图、语音、谱曲和教学,并加强它辅助科学家进行高效科研的能力等。


目前,MOSS的最大短板是中文水平不够高,主要原因是互联网上中文网页干扰信息如广告很多,清洗难度很大。为此,复旦大学自然语言处理实验室正在加紧推进中文语料的清洗工作,并将清洗后的高质量中文语料用于下一阶段模型训练。科研团队相信,这将有效提升模型的中文对话能力。


未来,科研团队将通过开源方式分享这项工作的成果,促进学术界和产业界对预训练语言模型的分析与研发。预训练大语言模型的研发门槛很高,需要大量算力、训练语料和人工标注。在我国产业界,只有大型机构才有实力开发大模型。MOSS开源后,可有效降低预训练语言模型的研发和应用门槛,让中小企业在其基础上开发出智能客服、智能家居、人工智能律师等各种垂直类产品。


“MOSS的计算量相对不那么大,中小企业都能用起来。”邱锡鹏说,“期待复旦团队和上海人工智能实验室继续合作,通过MOSS以及后续的研究探索,推动AI普惠,尽快赋能国内的人工智能产业。”


谢选骏指出:什么叫做“类ChatGPT模型”?这不就是“山寨ChatGPT模型”吗?刚说百度不再山寨了,复旦大学就取而代之了——由此可见,复旦比百度还能山寨,革命自有后来人。

没有评论:

发表评论

谢选骏:《老子道德经》的三千多字是谁混杂进去的

《英语世界最牛中国经典<道德经>——2000多种译本,到底流传着多少种“道”?》(《文汇报》2023年1月27日 辛红娟)报道: 自17世纪开启西译历程以来,《道德经》成为被译介得最多的中国传统典籍,在英语世界的发行量和发行频次仅次于《圣经》。据美国汉学家邰谧侠统计,...