虎秀科技集团出品
作者| 姜琪
编辑| 廖莹
标题图像| 《复仇者联盟3·无限战争》 静态图像
8月7日,国内另一家AI初创公司发布了自己的开源、免费、可商用的大规模AI模型XVERSE-13B。该公司名为“远翔XVERSE”,由腾讯前副总裁、腾讯AI实验室创始人姚星创立。
自7月份Meta发布开源免费商用的LLaMA 2系列大模型以来,AI大模型市场又掀起了新一波“开源”热潮。
8月2日,百度旗下AI大模型平台文心千帆宣布,现已接入LLaMA2全系列开源模型。平台上可调用的大模型数量增加至33个。 3个文心模型,其他30个模型均为开源模型,包括ChatGLM2、RWKV、MPT、Dolly、OpenLLaMA、Falcon等。
第二天,阿里云也宣布加入开源模式。开源的统一钱文70亿参数模型包括通用模型Qwen-7B和会话模型Qwen-7B-Chat,两者均在Moda社区公开,可免费商业使用。
有趣的是,这种对开源的积极态度始于——微软,它是大型闭源模型ChatGPT的所有者。 7月18日,微软宣布与Meta合作发布LLaMA 2模型的开源商业版本,为企业提供OpenAI和Google模型的替代方案。 OpenAI对大型AI模型市场的垄断似乎受到了整个行业的“针对”,包括其最亲密的合作伙伴。
OpenAI的GPT-4被公认为世界第一的大规模语言模型,也是目前唯一一个很多用户愿意付费的大规模语言模型。
在班级中取得最高成绩的学生通常没有动力参加学习小组。同样,OpenAI 也没有理由或动机开源。
然而LLaMA 2的完全开源使得越来越多的开发者加入到meta和各种开源模型阵营中。正如Android利用开源对抗iOS一样,许多大型开源AI模型正在绕开GPT-4技术障碍,并围绕开源生态中的OpenAI进行。
为什么要开源?
当OpenAI 首次发布其插件功能时,许多人将这种大规模AI 模型比作Windows、iOS 和Android 的未来。现在,随着LLaMA 2的发布,AI大型模型不仅在功能方面正在发展,而且在市场结构上也正在向操作系统发展。
由加州大学伯克利分校领导的组织LMSYS Org 主办的大规模语言模型(LLM)排名赛,截至7 月20 日共有40 个大型人工智能模型,前五名尚未确定。决定了不是……源模型(专有)是GPT-4、GPT-3.5-turbo 和Claude。不过,除了Google的PaLM-Chat-Bison-001之外,其余34个模型都是开源模型,其中15个是非商业的。
排名模型 Arena Elo评估(评估)MT-Bench(评估)MMLUL许可证(许可证)1GPT-412068.9986.4Proprietary2Claude-111667.977Proprietary3Claude-instant-111387.8573.4Proprietary4Claude-211358.0678.5Propriet ary5GPT- 3. 5-turbo11227.9470 专有规格6Vicuna-33B10967 .1259.2Nonprofit7Vicuna -13B10516.5755.8Llama 2 Community8MPT-30B-chat10466.3950.4CC-BY-NC-SA-4.09WizardLM-13B-v1.110406.7650Nonprofit10Guanaco-33B10386.5357.6Nonprofit11 PaLM-Cha t-B -00110156.4 独特的12Vicuna-7B10066。 1749.8 Llama 2 社区13Llama-2-13b-chat9876.6553.6 Llama 2 社区14Koala-13B9835.3544.7 非营利组织15GPT4All-13B-Snoozy9675.4143x16Llama-2-7b-chat9616.2745.8 Llama 2 社区17MPT -7 B-聊天9475.4232CC- BY -NC -SA -4.018RWKV-4-Raven-14B9433.9825.6Apache 2.019Alpaca-13B9234.5348.1Nonprofit20OpenAssistant-Pythia-12B9154.3227Apache 2.021ChatGLM-6B9004.536.1Nonprofit22F stChat T5- 3B8923.0447.7Apache 2.023 StableLM-Tuned-Alpha – 7B8632.7524.4CC-BY-NC-SA-4.024Dolly-V2-12B8423.2825.7MIT25LLaMA-13B8172.6147Nonprofit26WizardLM-30B7.0158.7Nonprofit27Vicuna-13B-16k6.8754.1Lama 2 社区8Llama – 2-70b -chat6.8663Llama 2 Community29Tulu -30B6.4358.1Nonprofit30Guanaco-65B6.4162.1Nonprofit31OpenAssistant-LLaMA-30B6.4156Nonprofit32WizardLM-13B6.3552.3Nonprofit33Vicuna-7B-16k6 。 Instruct5.1754.7Apache 2.039ChatGLM2 – 6B4.9645.5Ap ache-2.040H2O-Oasst-OpenLLaMA-13B4。 6342.8Apache 2.0 LMSYS Org大型语言模型(LLM)排行榜7月20日发布
Chatbot Arena:使用超过50,000 个用户投票计算您的Elo 评级。
MT-Bench:一系列困难的多圈问题。
MMLU(5 个镜头):衡量模型在57 项任务上的多任务处理准确性的测试。
从模型功能上来说,放眼整个市场,没有一个模型,无论是开源还是闭源,敢于与GPT-4直接竞争。然而,虎斗不过狼,无法战胜GPT-4的大型模型选择了“变道超车”,利用开源来掌控应用生态。这看起来类似于Android和iOS之间的战斗。
“如今,所有主要的开源模型都有一个目的:营销。”
国内一家开源大模型研发公司创始人向虎嗅坦言,目前之所以推广开源大模型和开源Android系统,主要是为了免费占领市场。 “很多大公司刚刚发布了大型AI模型,或者基于现有模型创建了应用程序,并开始大力推广。事实上,基础大型模型的用户将模型开源,无论花多少钱,都是非常重要的对我们来说,这也是AI公司证明自己实力的最好方式。
首先,开源模型比封闭模型更容易评估。由于开源模型的代码和数据集是公开的,研究人员可以直接检查模型的架构、训练数据和训练过程,从而更深入地分析模型并了解其优缺点。
“一些大型人工智能模型可能看起来非常有能力,但由于它们不是开源的,所以你只能看到它们输出的结果。”
与开源模型相比,闭源模型只能通过模型性能评估来了解模型的优缺点。因此,闭源模型的性能可能会被人为夸大或隐藏其缺点。开源模型的透明度有助于开发人员更好地理解和更公平地评估模型。
对于后来者来说,闭源模式还带来了其他问题。这意味着该技术的独特性可能会受到质疑。不少大型模型开发者曾向虎嗅表示: “对于非开源模型,坦白说,即使你对LLaMA 进行脱壳,或者只是在后台调用ChatGPT 接口,也没有人知道。”
当国内第一波大型人工智能模型刚刚兴起时,这样的质疑就在网络上广泛流传。对于没有开源的大型AI模型,一些公司会移动他们的推理服务器并通过断开网络电缆进行现场演示,以证明他们没有调用ChatGPT的API。
开源可以说是大规模实现人工智能模型自我验证的最佳方式之一。但开源的真正价值不是自我认证的能力,而是对生态系统的掌控能力。
“LLaMA 2出来后,肯定会很快接管OpenAI生态。”一位大型模型开发者告诉虎嗅,并补充说,GPT-4几乎是业界公认的性能最好的模型,之后没有一个模型能做到这一点。 GPT-3 是开源的。而且GPT-4的API接口的开放性也很低,这给GPT模型的开发带来了很多限制。因此,许多开发人员选择LLaMA 等开源模型,这使他们不仅可以微调指令,还可以研究底层模型。
“LLaMA 在开发者中比OpenAI 更受欢迎。”
当LLaMA 2 于7 月19 日首次发布时,GitHub 上有超过5,600 个包含关键字“LLaMA”的项目,超过4,100 个包含“GPT-4”的项目。发布两周后,LLaMA 迅速增长,截至本文为止,“LLaMA”数量超过6,200 个,“GPT-4”数量超过4,400 个。
另一方面,开源模型可以本地下载并进行私有化部署,让商业企业的AI训练变得更加容易。这些公司的AI应用必须根据自己的业务数据进行训练,大规模私有部署的AI模型可以提供最大程度的数据安全保护。同时,算力私有化部署也有更多选择,比如云服务、本地部署,甚至跨多个IDC分布式算力,大幅降低模型训练和推理的成本。
ChatGPT 在短短两个月内就积累了1 亿月活跃用户,但开源模式似乎在开发者生态系统中的流行速度更快。
目前,国内不少AI公司都选择发布开源模型。其中包括智普AI发布的开源模型ChatGLM-6B、复旦大学发布的MOSS、Super Symmetry发布的BBT-2千元2模型、致远研究院发布的Aquila、百川智能发布的百川-7B(13B)等。其中,智普AI发布的大规模开源模型ChatGLM-6B全球下载量已超过400万次,在GitHub上拥有32000颗星,比LLaMA多了3000颗星。
“如果我们不打造开源模型,市场很快就会只是LLaMA。”一位推出开源模型的AI公司高管告诉虎嗅,开源是中国大规模的AI模型。发展的重要一步。
模型名称开源时间发布权限参数数量ChatGLM 3 月14 日智普人工智能60 亿统一钱文8 月3 日阿里云70 亿MOSS 4 月21 日复旦大学160 亿TigerBot 6 月7 日虎博科技70 亿Aquila) 6 月9 日驰远研究院70 亿百川6 月15 日百川智能70亿/130亿XVERSE 8月7日远翔公司130亿份国内开源AI大模型
事实上,在LLM风潮开始之前,生成式AI就已经在开源与闭源之间展开了一场斗争。
在数据层面,Commen Crawl开源数据集是GPT模型训练过程中的重要数据源。目前许多机构和数据公司都在发布人工智能训练数据集的开源产品,例如Chigen研究院的COIG-PC数据集和海地AAC的DOTS-MM-0526多模态数据集。
对于数据集发布者来说,开源不仅可以增加影响力和品牌价值,还可以让他们从开源社区收集积极的反馈,发现并纠正数据中的错误和不一致之处。此外部审核可帮助发布商提高数据质量,同时进一步丰富其产品生态系统。
“算法工程师在研发过程中经常面临数据缺失的问题,高质量的数据给模型评估带来质的提升。我国目前正面临着高质量数据集的缺乏。”海天AAC是开源模型LLaMA 2。”海天瑞声首席运营官李可表示。
谈到AI发展最大的瓶颈——算力,开源芯片框架也在刺激行业发展。
高通8月4日宣布,与四家半导体公司组建合资公司,加速基于开源RISC-V架构芯片的商业化。目前市场上主流的芯片框架有3种。 Intel CPU中使用的x86、NVIDIA GPU中使用的Arm以及开源芯片框架RISC-V。
“RISC-V可以提供一个可编程环境。芯片研发团队可以使用RISC-V来执行许多预处理和后处理任务,我们还可以创建专门的加速器和功能模块,”SiFive的高级人士刚志坚表示。企业营销和业务发展副总裁表示,这对于快速增长的AI芯片来说将是一个很大的帮助。
与RISC-V相比,Arm和x86生态系统相对封闭。在Arm生态系统中,用户只能从Arm提供的有限选择中进行选择,而在RISC-V生态系统中,更多的公司参与其中,增加了产品种类和选择。
刚志坚表示,基于开源的架构也正在刺激芯片行业的加速竞争。最终帮助RISC-V 生态系统蓬勃发展和进步。 ”
虽然RISC-V指令集架构是免费开源的,但芯片设计厂商基于RISC-V指令集架构二次开发而开发的核心IP拥有自主知识产权,需要外部付费才能获得许可。据RISC-V国际基金会数据显示,2023年会员单位预计同比增长26%以上,会员单位总数超过3180个,覆盖70个国家/地区。英特尔、谷歌、阿里巴巴、华为、紫光展锐等多家主流芯片公司。
虽然开源是RISC-V 的优势,但它也带来了一些挑战。 RISC-V只有40多条基本指令集和几十条基本模块扩展指令。任何公司或开发者都可以免费使用RISC-V来打造具有自主知识产权的芯片。
然而,开源特性、高度可定制性和模块化使得RISC-V生态系统更加碎片化和复杂。
“每个芯片研发公司升级RISC-V的指令集后,实际上就创建了一种新的架构。它们都称为RISC-V,但不同的公司使用RISC-V和开源等术语。”维维科技总裁兼大中国区总经理陆涛认为,开源和芯片架构的软件生态非常重要,但不同的团队在生态系统中并不兼容,需要在灵活性、定制化和碎片化之间找到平衡。将考验研发团队的智慧和能力。
此外,Arm架构还催生了GPU、IPU等适合AI训练和推理的芯片,使得技术生态更加完善和成熟。虽然RISC-V 的最初目的是设计CPU,但AI 芯片设计仍处于起步阶段。
研究公司Counterpoint Research预计,到2025年,RISC-V处理器累计出货量预计将超过800亿颗,复合年增长率为114.9%。届时,RISC-V将占据全球CPU市场14%、物联网市场28%、工业市场12%、汽车市场10%的份额。
高通已于2023 年将RISC-V 应用于其Snapdragon 865 SoC 的微控制器中,目前已出货超过6.5 亿颗RISC-V 芯片。在2023 年9 月的AI 硬件高峰论坛上,RISC-V 的发明者Krste Asanovi 教授表示,谷歌正在使用基于RISC-V 的技术来开发专门为机器学习框架TensorFlow 开发的TPU 芯片。他已经开始使用SiFive Intelligence X280。在此之前,谷歌已经对TPU芯片架构进行了十多年的独立研究。
RISC-V芯片很难从头开始开发,但RISC-V的开源特性使得中国芯片从头开始开发也成为可能。
封锁、垄断当中争取到了多一线生机,“从我的视角看,中国的芯片公司是全球成长最快的。中国芯片公司更加激进,愿意面对挑战。”刚至坚表示,市场是刺激芯片行业发展的关键。中国的芯片市场很庞大,例如中国的车用芯片算力需求,已经远超欧美市场。随着中国企业对AI算力需求的增长,未来中国的AI芯片产业肯定也会迎来更多的机会。
结语
除了商业方面的考虑,开源还可以帮助技术发布者优化模型。
“ChatGPT其实是工程的胜利。”如今大语言模型的成功,其实是建立在对模型的反复训练和调教之上的。如果在建立基础模型之后,把模型推广到开源社区中,有更多的开发者参与模型优化工作中,那么对于AI大模型的进步来说,无疑会产生很大的帮助。
除此以外,“开源大模型可以避免重复造轮子。”北京智源人工智能研究院副院长兼总工程师林咏华在2023年智源大会期间接受采访时曾表示,假设所有人都去自研通用大模型,需要耗费大量的算力、数据、电力,完全是重复造轮子,不利于社会资源的合理化利用。
对于智源研究院这样的非盈利机构来说,不管模型是开源还是闭源,可能都没有太多商业化的考虑。但对于商业化AI公司来说,无论是微软、谷歌、Meta、OpenAI,还是国内的智谱AI、百川智能,任何一款AI大模型肯定不会只以“科研”为目的。
OpenAI的产品虽然在技术上占据了绝对的优势,但以插件形式构建的ChatGPT生态,在生态建设方面却竞争乏力。在AI的开源、闭源之争中,未来或许会看到与手机操作系统不一样的格局。
正在改变与想要改变世界的人,都在 虎嗅APP
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/669968.html