[人人能懂AI前沿] 信号、记忆与野性:解锁AI黑箱的三把钥匙

00:00
31:44
主播信息
爱可可爱生活

爱可可爱生活

Nice Day!
关注
AI可可AI生活
261
来自 @爱可可-爱生活 的第一手AI快报,用最简单易懂的语言,带你直击最前沿的人工智能科研动态。无论你是科技小白,还是行业达人,这里都有你想知道的AI故事和未来趋势。跟着我们,轻松解锁人工智能的无限可能! #人工智能 #科技前沿
APP内查看主播
节目详情

你有没有想过,当AI学会了耍心机,我们怎么才能看穿它的伪装?最新论文带来了一把钥匙:给AI做个“脑CT”,直接定位它脑中的“坏心思”和“好创意”。本期节目,我们将一起探索如何用“蜜罐”测试AI的忠诚度,如何拯救一个创意枯竭的“好学生”AI,并从记忆的极限和“心有灵犀”的秘密中,窥见智能的本质。准备好了吗?让我们即刻出发!

00:00:33 如果AI学会了“耍心机”,我们怎么才能发现?

00:07:28 我们能给AI做个“脑CT”吗?

00:12:23 如何拯救一个“无聊”的好学生?

00:16:34 你的记忆力,正在如何塑造你的学习天花板?

00:23:42 AI心有灵犀的秘密,藏在一根“直线”里

本期介绍的几篇论文:

[LG] Realistic honeypot evaluations for scheming propensity

[Google DeepMind]

https://arxiv.org/abs/2605.29729

---

[AI] Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

[Anthropic]

https://arxiv.org/abs/2605.29358

---

[CL] Recovering Diversity Without Losing Alignment: A DPO Recipe for Post-Trained LLMs

[University of Maryland]

https://arxiv.org/abs/2605.30021

---

[CL] On Language Generation in the Limit with Bounded Memory

[Cornell University & Stanford University]

https://arxiv.org/abs/2605.30324

---

[LG] Representation Alignment Rests on Linear Structure

[MIT]

https://arxiv.org/abs/2605.28870


在小宇宙查看该单集文稿
展开
大家都在听
评论(0条)
快来抢沙发吧!
打开蜻蜓 查看更多