AI速递0922-人工智能学院

AI速递0922

作者: 信息来源: 发布时间: 2025-09-22

生成式AI

一、 Chrome 迎来大更新，刚刚登顶 App Store 的 AI 直接用

1. Chrome自2008年发布以来进行最大更新，将Gemini AI助手集成到浏览器右上角，支持跨标签页对话和内容总结；

2. 浏览器地址栏升级为"Omnibox全能框"，可根据页面内容智能推荐问题，并支持直接在地址栏开启AI模式进行复杂查询；

3. 新版Chrome还利用Gemini Nano增强安全保护，可识别有害网站、自动管理垃圾通知，以及一键修复泄露密码，已向美国用户开放。

https://mp.weixin.qq.com/s/2LtnbHh769lYBPdibzmsvg

二、 Notion 3.0 版本正式上线，全面进入AI Agent 时代

1. Notion创始人Ivan Zhao宣布Notion 3.0发布，引入Agent功能，可自主执行所有Notion操作，时隔7年的重大更新；

2. Agent能自主工作长达20分钟，可跨工具完成复杂任务，如整合多渠道客户反馈、更新知识库、生成入职计划等；

3. 新版本引入高度个性化的"记忆库"，即将推出的"自定义Agent"功能还将支持自动运行和团队共享，创建专属AI团队成员。

https://mp.weixin.qq.com/s/kmDuhAxqd1Pk-bz963QL5Q

三、一站式工作台「混元3D Studio」，整合生产全流程

1. 腾讯发布面向3D设计专业人士的混元3D Studio，利用AI技术整合3D资产生产全流程，将生产周期从"天"级缩短到"分钟"级；

2. 工作台提供概念设计、几何建模、组件拆分、低模拓扑、贴图、绑骨蒙皮、动画等全方位3D创作管线，支持Q版、低多边形等多种风格；

3. 平台搭载业界领先的混元3D 3.0模型，具备分割生成、UV展开、材质编辑等创新功能，已集成于混元3D AI创作引擎并面向用户开放。

https://mp.weixin.qq.com/s/V0jgyRCIaWRUgtpNtLoyaA

四、通义万相全新动作生成模型Wan2.2-Animate正式开源

1. 阿里云开源通义万相全新动作生成模型Wan2.2-Animate，支持驱动人物、动漫形象和动物照片，可用于短视频创作等领域；

2. 模型升级自Animate Anyone，提供角色模仿(复制动作和表情)和角色扮演(替换原视频角色)两种模式，人物一致性和生成质量大幅提升；

3. 研发团队构建了涵盖说话、面部表情和身体动作的大规模数据集，通过骨骼信号、隐式特征和光照融合LoRA技术，在主观评测中超越Runway Act-two等闭源模型。

https://mp.weixin.qq.com/s/WpZIY0vjYeyygFy3mbSs_w

五、 Luma AI 推出 Ray3，首个推理视频模型，电影级 HDR

1. Luma AI发布Ray3，全球首个推理视频模型，将AI视频从实验性生成推进到专业可用，支持复杂多步动作的理解与推理；

2. Ray3提供精细控制功能，允许在画面上直接涂鸦或标注引导演员动作和镜头运动，Draft Mode仅用20秒即可生成预览，成本仅为最终渲染的1/5；

3. 模型支持保真运动、物理模拟、复杂人群、光照交互和高度写实细节，并原生支持10、12、16-bit HDR视频输出，可轻松融入专业后期制作流程。

https://mp.weixin.qq.com/s/qef0-0R-sRK86TTt3wsjMw

六、 ElevenLabs 发布 Studio 3.0：一站式 AI 音频视频编辑器

1. ElevenLabs推出Studio 3.0，将旁白、音乐、音效、字幕和视频编辑整合到一条时间线，让创作者只需一个工具完成专业作品；

2. 新版本支持从10,000+AI声音中选择、自动生成专属配乐、文本提示生成音效、语音校正和隔离、一键多语言字幕等功能；

3. 该工具适用于视频创作者、播客主、有声书作者和AI电影人，所有功能也可通过API调用，支持集成到大规模工作流或应用中。

https://mp.weixin.qq.com/s/4E-ME_oV22W4E_oEUeq5Xg

七、小米正式开源原生端到端语音模型Xiaomi-MiMo-Audio

1. 小米开源首个原生端到端语音模型Xiaomi-MiMo-Audio，参数规模70亿，预训练数据超1亿小时，在多项测试超越同参数量开源模型与闭源模型；

2. 该模型具备自然对话、音频字幕、长时间音频理解等多种能力，首次在语音领域实现基于ICL的少样本泛化，并展现语音转换、风格迁移等涌现能力；

3. 研发团队推出MiMo-Audio-Tokenizer无损压缩模型和混合思考模式，在MMSU、MMAU等基准测试实现SOTA，可用于语音续写、语音编辑和音频理解。

https://mp.weixin.qq.com/s/akG2o6UN45yKnmQrYdQXdg

前沿科技

八、「逆龄大脑药」首次人体试验！奥特曼押注RTR242实验药

1. Sam Altman投资的长寿公司Retro Biosciences宣布年底在澳大利亚启动实验药RTR242的首次人体试验，该药可激活衰老细胞的自噬系统；

2. Retro的使命是清理大脑中堆积的变异蛋白和损伤分子，以延长人类10年健康寿命，不同于传统阿尔茨海默药物的"拖慢"策略，直接瞄准"逆转"；

3. OpenAI已协助Retro用GPT-4b micro优化蛋白质与重编程因子，实验室中干细胞标记表达量提升50倍，目前Retro计划募资10亿美元与Bezos支持的Altos Labs竞争。

https://mp.weixin.qq.com/s/v_zIMteqIl0ra3MMGSrBXA

九、生物学ChatGPT时刻，Evo构建首个AI生成的「基因组」

1. Arc研究所和斯坦福大学团队利用Evo模型构建全球首个AI生成的功能性噬菌体基因组，开启生成式基因设计时代；

2. 研究团队开发专门注释pipeline识别全部11个噬菌体基因，对Evo模型进行监督微调，所有功能性基因组携带67-392个新突变；

3. 实验验证了AI设计的基因组能够感染特定宿主菌株，部分基因组甚至整合了远缘噬菌体的蛋白质并保持功能，展示了AI协调复杂突变的能力。

https://mp.weixin.qq.com/s/ZmfpjiyFJlKyQ06MY8aKag

报告观点

十、 OpenAI Codex 「7大核心用法、6条最佳实践首次公开」

1. OpenAI公开Codex在其团队内部7种核心应用场景：代码理解、重构迁移、性能优化、提升测试覆盖率、加速开发、保持工作心流和探索构思；

2. 技术团队用Codex快速理解陌生代码、批量修改多文件、优化性能瓶颈、生成单元测试、搭建样板代码和捕获未完成工作，提高效率和代码质量；

3. 公开6条最佳实践：先用"提问模式"分析后再生成代码、迭代改进开发环境、构建详细提示、将任务队列作为待办清单、维护AGENTS.md提供上下文和利用"N选最佳"提升输出质量。

https://mp.weixin.qq.com/s/4gaXUnWhpSBV5wAQBXUPkQ