102: DeepSeek 启动开源周,大模型开源到底在开什么?

00:00
56:40
听完整版
节目详情
「与西北大学(NU) MLL Lab 博士生王子涵“逛”开源。」 (题图:开源大模型推理框架 vLLM 的 GitHub 页面截图,该项目已有 800 多社区贡献者。) 上周五,DeepSeek 在官方 twitter 上预告了下一周会连续 5 天开源 5 个代码库,进入 open-source week,开源周。 我们录制节目的这天是周一,DeepSeek 也正式放出了开源周的第一个开源项目 FlashMLA。 https://cdn.z.wiki/autoupload/20250225/6cwf/892X1260/%E6%88%AA%E5%B1%8F2025-02-25_01.15.27.png 我一直很想和人好好聊一下,大模型开源是在开什么,怎么开。比如相比闭源模型,开源要额外做一些什么工作,才能让社区比较好地理解到这个开源成果,以及能更充分地把开源用起来。 正好在 DeepSeek 这个开源周,我邀请到了正在美国西北大学 MLL lab 攻读博士学位的王子涵。 子涵今年刚博一,之前毕业于人大,大四时,也就是 2024 年,他曾在 DeepSeek 实习半年,今年暑假即将前往一家美国 AI Agent 从创业公司,Yutori 实习。 随着 DeepSeek 在春节的爆火出圈,开源也正成为一种趋势:之前一直模型闭源的一些公司,如 MiniMax、阶跃星辰,从 1 月到现在都陆续发布了自己的第一批开源模型。 之前选择保留自己最强模型闭源,开源较小版本模型的公司,可能也会在 DeepSeek 的冲击波里有新选择。 这期我和子涵聊到了开源模型不同的层级,主要有技术报告,模型权重,推理框架,训练框架,还有数据集。现在我们说一个模型是开源的,一般指的是有技术报告也开放了模型权重。再往下更深入的开源,是推理框架和训练框架。而现在只有极少数的机构,比如 Allen AI 研究所,他们也开放过预训练的数据集。 我们也在一起围观 DeepSeek 开源周的过程中,回顾了他们之前开源模型的一些重点优化思路,以及他们为了让社区充分理解和使用开源成果,而专门花费心力去规范代码,写详细的技术报告。这背后是一个组织对优先级的选择。 而在本期最后,子涵也分享了一个自己成为开源模型滥用“受害者”的亲身经历。开源在加速技术进化,如 DeepSeek 开源周 twitter 预告里所写:acclerates the journey;也带来一些隐患,需要整个领域一边开源,一边探索解决。 马斯克曾经说:“有人问我是不是想死在火星上,我说当然,但不是死于(登陆器降落时的)撞击。” 登场人物: 嘉宾:王子涵,西北大学 MLL Lab 博士生 (个人主页 https://zihanwang314.github.io) 主播:程曼祺,《晚点 LatePost》科技报道负责人 剪辑制作:甜食 本期节目中提及的一些开源项目的 GitHub 页面: DeepSeek:https://github.com/deepseek-ai DeepSeek/Open-Infra-Indes:https://github.com/deepseek-ai/open-infra-index DeepSeek/FlashMLA:https://github.com/deepseek-ai/FlashMLA vLLM:https://github.com/vllm-project/vllm SGLang:https://github.com/sgl-project/sglang 字节跳动/Verl:https://github.com/volcengine/verl DeepSeek/ESFT:https://github.com/deepseek-ai/ESFT 本期节目涉及一些AI 项目、机构,见 shownotes 末尾附录。 时间线跳转: -DeepSeek 开源周指向 Infra,已放出第一个库 FlashMLA 02:20 过往实习、工作中的开源项目 03:18 王子涵分享自己开源工作,包括在数研时做的 agent 相关 benchmark,以及参与 DPCVR 研发和关于 DPCRY 加 agent 的开源报告。 05:17 DeepSeek 开源周预告,强调 Small but sincere;第一个库已发布:FlashMLA;未来开源方向推测 09:30 FlashMLA,一个用 C++ 语言写到算子层的推理框架优化;像 DeepSeek 这样做大量更底层算子优化的努力比较难 17:14 FlashMLA GitHub 反馈(issues)速览:有人想要 FP8,有人问何时支持 NPU? -一起来逛 GitHub 库,大模型开源是在开什么 19:23 一起逛 GitHub 仓库(Repo),在开源项目里该看什么? ·看 license(开源协议),DeepSeek 惯常使用的 MIT 协议,开放、简洁、免责 ·看 readme,树状学习库的基本信息,需要的环境、如何部署 ·子涵更喜欢看 issues,而不是 star,issue 反映多少人在深度玩这个库;PR(Pull Requests)是更深度的代码贡献。 31:30 大模型开源到底在开什么:技术报告、模型权重、推理框架、训练框架、数据集。一般一个开源模型都有技术报告和权重,但推理和训练框架的代码和数据集则不一定,尤其是数据集。 35:23 vLLM、SGLang,两个活跃的开源推理库;模型权重的下载途径;字节其实开源过一般较少开源的训练框架 (Verl) 41:25 数据开源几乎没有,主要是出于信息敏感性和安全性考虑。 42:38 除了数据集,DeepSeek 已开源过上述各部分,其中子涵参与的 ESFT 工作就也开源了训练框架。 44:16 从闭源到开源,需要 another layer of hard work:如规范代码、适配开源推理或训练框架。 -不同的开源策略:开源最强模型 VS 有所保留 49:14 不同开源策略主要和盈利模式与诉求有关。不靠 API 赚钱或期望推动更大格局变化(如形成标准)可能选择开源最强模型;另外,一些非盈利机构也会“非常开”,如 Allen AI 和 EleutherAI,罕见地开源了数据集。 51:29 是否会看到 OpenAI 开源最强模型?不确定。Sam Altman 在 twitter 发起投票的两个开源选项(o3-mini 和 phone-sized model)都值得期待。 52:36 子涵分享一个大模型滥用案例:自己推特账号被黑经历,“受害者”现身说法。 53:32 Ilya:“if you value intelligence above all other human qualities, you’re gonna have a bad time.” 附录: Allen AI(Allen Institute for AI):已故微软联合创始人、慈善家保罗・艾伦于 2014 年创立的非盈利研究机构 Eleuther:一个草根、非盈利 AI 研究机构 FlashAttention:基于分块计算的注意力优化技术,减少内存占用并提升效率 MLA:多头潜在注意力机制,优化长序列处理效率 vLLM:大语言模型推理框架,优化显存管理和吞吐量 SGLang:结构化生成框架,支持灵活域特定语言控制 ESFT(Expert Specialized Fine-Tuning):专家特化微调技术 NPU:神经网络处理器(一种 AI 芯片),专为深度学习计算优化能效 FP8:混合精度计算格式,平衡性能与数值稳定性 ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 相关链接 光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么? (https://www.xiaoyuzhoufm.com/episode/65b19c9bc2bedd4be809a48a) DeepSeek Inside:彻底的技术开放,成就的商业奇观 (https://mp.weixin.qq.com/s/6m5V3qG1LHILH_Y4YvouJQ) 本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
展开
大家都在听
评论(0条)
快来抢沙发吧!
打开蜻蜓 查看更多