[人人能懂AI前沿] 信号、记忆与野性：解锁AI黑箱的三把钥匙

倍速播放下载节目

00:00

31:44

主播信息

爱可可爱生活

爱可可爱生活

Nice Day!

AI可可AI生活

261

来自 @爱可可-爱生活的第一手AI快报，用最简单易懂的语言，带你直击最前沿的人工智能科研动态。无论你是科技小白，还是行业达人，这里都有你想知道的AI故事和未来趋势。跟着我们，轻松解锁人工智能的无限可能！ #人工智能 #科技前沿

APP内查看主播

节目详情

你有没有想过，当AI学会了耍心机，我们怎么才能看穿它的伪装？最新论文带来了一把钥匙：给AI做个“脑CT”，直接定位它脑中的“坏心思”和“好创意”。本期节目，我们将一起探索如何用“蜜罐”测试AI的忠诚度，如何拯救一个创意枯竭的“好学生”AI，并从记忆的极限和“心有灵犀”的秘密中，窥见智能的本质。准备好了吗？让我们即刻出发！

00:00:33 如果AI学会了“耍心机”，我们怎么才能发现？

00:07:28 我们能给AI做个“脑CT”吗？

00:12:23 如何拯救一个“无聊”的好学生？

00:16:34 你的记忆力，正在如何塑造你的学习天花板？

00:23:42 AI心有灵犀的秘密，藏在一根“直线”里

本期介绍的几篇论文：

[LG] Realistic honeypot evaluations for scheming propensity

[Google DeepMind]

https://arxiv.org/abs/2605.29729

---

[AI] Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

[Anthropic]

https://arxiv.org/abs/2605.29358

---

[CL] Recovering Diversity Without Losing Alignment: A DPO Recipe for Post-Trained LLMs

[University of Maryland]

https://arxiv.org/abs/2605.30021

---

[CL] On Language Generation in the Limit with Bounded Memory

[Cornell University & Stanford University]

https://arxiv.org/abs/2605.30324

---

[LG] Representation Alignment Rests on Linear Structure

[MIT]

https://arxiv.org/abs/2605.28870

在小宇宙查看该单集文稿

展开

大家都在听

听懂AI

大数据文摘专注于数据科学与人工智能知识分享，把最前沿的科技报道转化成音频，让听者换个姿势学习科技，了解人工智能。

《AI·未来》

《AI·未来》

迎来“深度学习”这项重大技术突破后，人工智能已经从发明的年代步入了实干的年代。现在已是未来，我们所处的时代，已经与过去完全不同。面对已经来临的、机遇与挑战并存的人工智能时代，我们必须了解人工智能，跟上人工智能发展的脚步，这样才能不被时代淘汰。全球目前人工智能发展的情况是怎样的？全球的人工智能巨头企业有哪几家，现在它们有什么贡献？未来它们又将如何改变世界？人工智能已经改变了世界前进的脚步，那么人工智能的发展阶段如何区分？人工智能对社会的最大冲击是什么？我们应该如何应对未来可能出现的大规模冲击？在未来，个人、企业、政府究竟该如何协作，才能打造出繁荣的社会图景？

关注人工智能动态

AI拉呱：专注于人工智能与前沿技术

AI拉呱：专注于人工智能与前沿技术

AI拉呱，专注人工智能以及科技前沿！学习就该慢一点、深一点、有前瞻一点！

CDP、数据中台知识讲堂

CDP、数据中台知识讲堂

定期分享CDP、数据中台等相关知识内容、产品应用

学习AI

学习人工智能知识，交流相关的使用检验。

科技新播客

科技新播客

科技决定未来，真知引领生活，和您一起感知真理的奥秘，带您一起寻求科学的真相。不光只是听听听，不光只是学学学，生活科学，才能科学生活，这里是新科技广播——《科技新播客》。

羊创101

科技大潮里的好多浪

AI人工智能

在科技浪潮奔涌的当下，人工智能无疑是最闪耀的弄潮儿，以令人惊叹的速度重塑着世界的模样。我们的播客专辑《前沿 AI：探索智能新维度》，就致力于成为一扇窗，带你窥探 AI 那充满无限可能的奇妙天地。

合作的进化

合作的进化

本书是行为领域的经典之作，主题是合作的产生和进化。作者以组织的两轮＂重复囚徒困境＂竞赛为研究对象，结果发现在两轮竞赛中胜出的都是最简单的策略＂一报还一报＂。这一策略简洁明晰，具有善良性、宽容性、可激怒性和策略性，其出色的竞赛表现为我们了解个人、组织和国家间合作产生和进化提供了积极的前景，其结论在社会科学的诸领域产生了广泛深刻的影响，被广泛征引。

评论(0条)

快来抢沙发吧！

打开蜻蜓查看更多

打开APP，高品质·离线听

沪ICP备06026464号-4 网络文化经营许可证

沪网文[2014]0587-137号

信息网络传播视听许可证：0911603

©2011-2019 qingting.fm ALL Rights Reserved.

应用名称：蜻蜓FM | 开发者：上海麦克风文化传媒有限公司

版本号：9.5.0 | 应用权限 | 隐私协议