图片来源@视觉中国
【资料图】
文|元宇宙日爆
一份被意外泄露的谷歌内部文件,将Meta的LLaMA大模型“非故意开源”事件再次推到聚光灯前。
“泄密文件”的作者据悉是谷歌内部的一位研究员,他大胆指出,开源力量正在填平OpenAI与谷歌等大模型巨头们数年来筑起的护城河,而最大的受益者是Meta,因为该公司2月意外泄露的LLaMA模型,正在成为开源社区训练AI新模型的基础。
几周内,开发者与研究人员基于LLaMA搞起微调训练,接连发布了Alpaca、Vicuna、Dromedary等中小模型,不只训练成本仅需几百美元,硬件门槛也降低至一台笔记本电脑甚至一部手机,测试结果不比GPT-4差。
除了AI模型之外,FreedomGPT等类ChatGPT应用也如雨后春笋般涌现,基于LLaMa的“羊驼家族”不断壮大,这位研究员认为,Meta很可能借此形成生态,从而成为最大赢家。
事实上,人工智能的世界里,的确有一部分进入了“安卓时刻”,这个部分就是开源社区。特斯拉前AI主管Andrej Karpathy评价开源社区中的AI进化时称,他看到了“寒武纪大爆发的早期迹象”。
在AI竞速的赛道上,奔跑的不只有科技巨头,开源社区正在从小径中涌入大道,成为人工智能开发层面不可忽视的力量。
LLaMa意外开源养出 “羊驼家族”
“我们没有护城河,OpenAI 也没有。”一篇来自Google 内部的文章在 SemiAnalysis 博客传播,文章作者认为,Meta的LLaMa开源模型快速聚集起生态雏形,正在消除与GPT之间的差距,开源AI最终会打破 Google与OpenAI的护城河。
这篇文章让人重新注意到了Meta的 LLaMA 大模型,该模型代码被泄露后的2个月里意外成了开源社区训练自然语言模型的基础,还产生了诸多中小模型及应用。
时间回到今年2月24日,Meta推出大语言模型LLaMA,按参数量分为7B、13B、33B和65B四个版本。别看参数量远远不及GPT-3,但效果在AI圈内获得了一些正面评价,尤其是能在单张GPU运行的优势。
Meta在官方博客中曾称,像LLaMA这种体积更小、性能更高的模型,能够供社区中无法访问大量基础设施的人研究这些模型,进一步实现人工智能大语言模型开发和访问的民主化。
“民主化”来得异常快。LLaMA推出一周后,一位名叫llamanon的网友在国外论坛4chan上以种子文件的方式上传了7B和65B的LLaMA模型,下载后大小仅为 219GB。此后,这个种子链接被发布到开源社区GitHub,下载量超过千次。LLaMA就这样被泄露了,但也因此诞生了诸多实验成果。
最初,名叫 Georgi Gerganov 的开发者开源了一个名为llama.cpp的项目,他基于LLaMA 模型的简易Python语言的代码示例,手撸了一个纯 C/C++ 语言的版本,用作模型推理。换了语言的最大优势就是研究者无需 GPU、只用 CPU能运行LLaMA模型,这让大模型的训练硬件门槛大大降低。
正如谷歌那位研究员写得那样,“训练和实验的门槛从一个大型研究机构的全部产出降低到1个人、1晚上和1台性能强大的笔记本电脑就能完成。”在开发者的不断测试下,LLaMA已经能够在微型计算机树莓派4和谷歌Pixel 6手机上运行。
开源社区的创新热情也彻底点燃,每隔几天都会有新进展,几乎形成了一个“LLaMA(羊驼)生态”。
3月15日,斯坦福大学微调LLaMA后发布了Alpaca(美洲驼)模型,仅用了52K数据,训练时长为3小时。研究者宣称,测试结果与GPT-3.5不分伯仲,而训练成本还不到600美元,在一些测试中,Alpace与GPT-3.5的获胜次数分别为90对89。
随后,加州大学伯克利分校、卡内基梅隆大学、加州大学圣地亚哥分校的研究人员又提出新的模型Vicuna(小羊驼),也是基于LLaMa做出来的,训练成本仅300美元。
在该项目的测评环节,研究人员让GPT-4当“考官”,结果显示,GPT-4在超过90%的问题中更强倾向于Vicuna的回答,并且Vicuna在总分上达到了ChatGPT的92%。
用GPT-4测评Vicuna与其他开源模型
短短几周,基于LLaMa构建的“羊驼家族”不断壮大。
4月3日,伯克利人工智能研究院发布了基于LLaMa微调的新模型 Koala(考拉),训练成本小于100美元,在超过一半的情况下与 ChatGPT 性能相当;5月4日,卡内基梅隆大学语言技术研究所、IBM 研究院与马萨诸塞大学阿默斯特分校的研究者们,推出了开源自对齐语言模型Dromedary(单峰骆驼),通过不到300行的人工标注,就能让65B的LLaMA基础语言模型在TruthfulQA(真实性基准)上超越GPT-4。
在国内,垂直医疗领域的 “羊驼家族”成员也出现了,哈尔滨工业大学基于LLaMa模型的指令微调,推出了中文医学智能问诊模型HuaTuo(华驼),该模型能够生成专业的医学知识回答。
哈工大推出中文医学智能问诊模型HuaTuo(华驼)
基于该模型的开源创新不仅在大模型上,应用层也有多点开花之势。
3月31日,AI公司Age of AI推出了语言模型FreedomGPT,正是基于斯坦福大学的Alpaca开发出来的;3月29日,加州大学伯克利分校在它的Colossal-AI基础下发布了ColossalChat对话机器人,能力包括知识问答、中英文对话、内容创作、编程等。
从基础模型层到应用层,基于LLaMa所诞生的“羊驼家族”还在一路狂奔。由于被 “开源” 的 LLaMA 出自 Meta 之手,那位发文的谷歌研究员认为,Meta意外成了这场AI竞争中的最大受益者——借助开源社区的力量,Meta获得了全世界顶级开发者的免费劳动力,因为大多数开源的 AI 创新都发生在他们的基础架构内,因此,没有什么能阻止 Meta将这些成果直接整合到他们的产品中。
开源力量触发“AI的安卓时刻”
ChatGPT引爆AI热后,英伟达的CEO黄仁勋将这股浪潮喻为“AI的iPhone时刻”,他认为,AI行业进入了如iPhone诞生颠覆手机行业时的革命性时间点。而当LLaMA开启开源社区的小宇宙后,网友认为,“AI的安卓时刻”来了。
回顾过去,谷歌曾以开源思想让更多的开发者参与到安卓应用生态的建设中,最终让安卓成为电脑与手机的系统/应用主流。如今,LLaMA再次让AI业内看到了开源力量的强大。
智能软硬件件开发公司出门问问的CEO李志飞也注意到了谷歌这篇内部声音:
“大模型这个领域,Google已经在声势上大幅落后于OpenAI。在开源生态上,如果Google再犹豫不决,后面就算想开源也会大幅度落后于Meta的LLaMA。相反,如果开源,可以把OpenAI的壁垒进一步降低,而且会吸引(或留住)很多支持开源的高级人才。”
特斯拉前AI主管Andrej Karpathy认为:
“当前开源大模型的生态之势,已经有了寒武纪大爆发的早期迹象。”
确实,开发者对开源的AI模型前所未有的热情正在从Github的打星量指标中溢出:Alpaca获得了23.2k星,llama.cpp获26.3k星,LLaMA获20.8k星……而在“羊驼家族”之前,AutoGPT等开源项目也在Github拥有超高的人气,突破100k星。
开发者对开源AI模型的打星量
此外,为了追赶 ChatGPT,构建大型开源社区的 AI 初创公司Hugging Face 也在近日推出了开源聊天机器人HuggingChat,该机器人的底层模型拥有300 亿个参数,并对外开放了训练数据集。英伟达 AI 科学家 Jim Fan认为,如果后续开发应用程序,Hugging Face将比 OpenAI 更具优势。
开源力量来势汹汹,手握OpenAI的微软也并不准备把鸡蛋都放在一个篮子里。今年4月,微软推出了开源模型DeepSpeed Chat,为用户提供了 “傻瓜式” 操作,将训练速度提升了15倍。
以LLaMA 为核心的AI开源社区正在平行空间中,与OpenAI等走闭源路线的大模型巨头展开竞速,开源思想与实践中爆发出的创新力量已经不容巨头小觑了。
责任编辑:
关键词 :
上一篇 : 每日快看:中信证券:前期在市场上已经取得先发优势的充电模块技术型龙头企业,有望迎来高速成长期
下一篇 : 最后一页
“泄密文件”的作者据悉是谷歌内部的一位研究员,他大胆指出,开源力量正在填平OpenAI与谷歌等大模型巨...
搜狐数码 05-11 11:52:55
“泄密文件”的作者据悉是谷歌内部的一位研究员,他大胆指出,开源力量正在填平OpenAI与谷歌等大模型巨...
搜狐数码 05-11 11:52:55
近年来,随着经济全球化的迅猛发展,中国品牌出海已经成为常态化选择。在所有的出海品牌中,游戏产业一直在
中国经营网 05-11 11:07:13
近年来,随着经济全球化的迅猛发展,中国品牌出海已经成为常态化选择。在所有的出海品牌中,游戏产业一直在
中国经营网 05-11 11:07:13
新品上市第十天,销量就突破50000+杯,还在全网造成打卡热潮,溪边姑娘拉丝酸奶水果捞的新品草莓摇摇奶...
今报在线 05-11 11:35:20
新品上市第十天,销量就突破50000+杯,还在全网造成打卡热潮,溪边姑娘拉丝酸奶水果捞的新品草莓摇摇奶...
今报在线 05-11 11:35:20
中信证券指出,随着大功率直流快充的发展、充电应用场景的复杂化、欧美等海外市场对充电桩品质的严格要求,
第一财经 05-11 11:19:39
中信证券指出,随着大功率直流快充的发展、充电应用场景的复杂化、欧美等海外市场对充电桩品质的严格要求,
第一财经 05-11 11:19:39
鞭牛士报道北京时间2023年5月11日,中国领先的本地即时零售和配送平台达达集团(Nasdaq:DADA)发布2023年
鞭牛士 05-11 11:01:52
鞭牛士报道北京时间2023年5月11日,中国领先的本地即时零售和配送平台达达集团(Nasdaq:DADA)发布2023年
鞭牛士 05-11 11:01:52
1、张强生于1971年,今年恰好五十。他的巅峰期是在九十年代初。个人赛最好成绩拿过前六。他可谓生不逢时,
互联网 05-11 10:32:45
1、张强生于1971年,今年恰好五十。他的巅峰期是在九十年代初。个人赛最好成绩拿过前六。他可谓生不逢时,
互联网 05-11 10:32:45
人民网北京5月10日电(记者任妍)记者从财政部获悉,为保障免费开放科技馆正常运转,经研究,现下达2023年
扬子晚报 05-11 10:25:02
人民网北京5月10日电(记者任妍)记者从财政部获悉,为保障免费开放科技馆正常运转,经研究,现下达2023年
扬子晚报 05-11 10:25:02
勇士队由于现在1:3暂时落后湖人队,所以在比赛中勇士队的球员还有教练都一直在抱怨裁判的执法标准过于糟糕
老胡说球 05-11 10:34:22
勇士队由于现在1:3暂时落后湖人队,所以在比赛中勇士队的球员还有教练都一直在抱怨裁判的执法标准过于糟糕
老胡说球 05-11 10:34:22
西安失业金领取标准为全市统一标准1755元 月。调整后的失业保险金待遇标准从2021年5月1日起执行,详见正文
律法网 05-11 10:07:57
西安失业金领取标准为全市统一标准1755元 月。调整后的失业保险金待遇标准从2021年5月1日起执行,详见正文
律法网 05-11 10:07:57
山东淄博是齐国故都,蹴鞠故里,按说凭着深厚的历史底蕴便能傲视文旅市场,奈何群雄并举,竞争激烈,今年却
月泊秋水 05-11 10:03:43
山东淄博是齐国故都,蹴鞠故里,按说凭着深厚的历史底蕴便能傲视文旅市场,奈何群雄并举,竞争激烈,今年却
月泊秋水 05-11 10:03:43
此次天舟六号为中国空间站带去哪些物资,在中国空间站的神舟十五号乘组什么时候能获取这些物资呢?总台央视
吉林日报 05-11 09:37:08
此次天舟六号为中国空间站带去哪些物资,在中国空间站的神舟十五号乘组什么时候能获取这些物资呢?总台央视
吉林日报 05-11 09:37:08
这是4月9日拍摄的贵南高铁贵州段三标营盘清水河双线特大桥(无人机照片)。新华社记者杨文斌摄 记者从中
新华社 05-11 09:41:31
这是4月9日拍摄的贵南高铁贵州段三标营盘清水河双线特大桥(无人机照片)。新华社记者杨文斌摄 记者从中
新华社 05-11 09:41:31
可以打开呀我刚登陆试了下可能是服务器在维护,所以登录速度较慢。弱电之家网很好哦适合新手学习基础知识,
注册建造师网 05-11 09:26:13
可以打开呀我刚登陆试了下可能是服务器在维护,所以登录速度较慢。弱电之家网很好哦适合新手学习基础知识,
注册建造师网 05-11 09:26:13
文旅市场供需两旺,文旅消费强劲复苏,国内旅游出游人次和旅游收入同比大幅增长;中长线游加快恢复、自驾游
扬子晚报 05-11 09:33:57
文旅市场供需两旺,文旅消费强劲复苏,国内旅游出游人次和旅游收入同比大幅增长;中长线游加快恢复、自驾游
扬子晚报 05-11 09:33:57
随着近期雨水天气增加,水泥市场需求有所下降,全国近20个省份为缓解库存压力、改善市场供需关系,相继发布
扬子晚报 05-11 09:44:53
随着近期雨水天气增加,水泥市场需求有所下降,全国近20个省份为缓解库存压力、改善市场供需关系,相继发布
扬子晚报 05-11 09:44:53
北京5月10日电(记者李心萍)记者从中国国家铁路集团有限公司(以下简称国铁集团)获悉:1至4月,全国铁路
扬子晚报 05-11 09:33:35
北京5月10日电(记者李心萍)记者从中国国家铁路集团有限公司(以下简称国铁集团)获悉:1至4月,全国铁路
扬子晚报 05-11 09:33:35
儿童玩具行业的发展壮大与国家的政策息息相关,近年来,国家陆续开放“二胎”、“三胎”,中国儿童数量...
百度 05-11 09:15:38
儿童玩具行业的发展壮大与国家的政策息息相关,近年来,国家陆续开放“二胎”、“三胎”,中国儿童数量...
百度 05-11 09:15:38
挪威NorwegianElectricSystems(NES)公司日前接获了一份合同,将为一艘匿名的超级游艇升级项目提供设备交
国际船舶网 05-11 09:24:01
挪威NorwegianElectricSystems(NES)公司日前接获了一份合同,将为一艘匿名的超级游艇升级项目提供设备交
国际船舶网 05-11 09:24:01
海参行业市场多大?中国市场需求巨大,自然捕捞海水产品已无法满足,中国海水养殖产业得以迅速发展。由于政
百度 05-11 09:19:14
海参行业市场多大?中国市场需求巨大,自然捕捞海水产品已无法满足,中国海水养殖产业得以迅速发展。由于政
百度 05-11 09:19:14
高端装备制造领域都经历了哪些?高端装备产业,是稳经济的重要一环,在经济和产业链条上起着承上启下的作用
互联网 05-11 09:08:01
高端装备制造领域都经历了哪些?高端装备产业,是稳经济的重要一环,在经济和产业链条上起着承上启下的作用
互联网 05-11 09:08:01
按下shift按键先找到并按下你的电脑键丽珠盘上面的shift按键,切换到英文输入法状态。键盘下划线怎么打?...
word中_________上打字的方法如下:1、进入word2010,在要设置下划线的位置输入空格,然后选中空格,点...
word横线上打字横线往后移怎么办?选中横线跑的文字,找到输入文字后横线跑的那几个文字,选中文字。查看...
大熊猫有天敌吗?答案是肯定的。野生大熊猫最大的天敌就是豺,确切的说是四川豺。四川豺主要分布在我国的...
充电桩安装需要什么条件?1、运营充电桩需要电动车使用人数多,小区充电使用率到达一定程度,如果使用率...
联系我们:55 16 53 8@qq.com
关于我们| 联系方式| 版权声明| 供稿服务| 友情链接
经济头条 版权所有,未经书面授权禁止使用
Copyright©2008-2020 By www.jingji.net All Rights Reserved