人工智能学院欢迎您!

当前位置: 首页   >   AI速递   >   正文

AI速递0922

作者:    信息来源:    发布时间: 2025-09-22

生成式AI

一、 Chrome 迎来大更新,刚刚登顶 App Store 的 AI 直接用

1. Chrome自2008年发布以来进行最大更新,将Gemini AI助手集成到浏览器右上角,支持跨标签页对话和内容总结;

2. 浏览器地址栏升级为"Omnibox全能框",可根据页面内容智能推荐问题,并支持直接在地址栏开启AI模式进行复杂查询;

3. 新版Chrome还利用Gemini Nano增强安全保护,可识别有害网站、自动管理垃圾通知,以及一键修复泄露密码,已向美国用户开放。

https://mp.weixin.qq.com/s/2LtnbHh769lYBPdibzmsvg

二、 Notion 3.0 版本正式上线,全面进入AI Agent 时代

1. Notion创始人Ivan Zhao宣布Notion 3.0发布,引入Agent功能,可自主执行所有Notion操作,时隔7年的重大更新;

2. Agent能自主工作长达20分钟,可跨工具完成复杂任务,如整合多渠道客户反馈、更新知识库、生成入职计划等;

3. 新版本引入高度个性化的"记忆库",即将推出的"自定义Agent"功能还将支持自动运行和团队共享,创建专属AI团队成员。

https://mp.weixin.qq.com/s/kmDuhAxqd1Pk-bz963QL5Q

三、 一站式工作台「混元3D Studio」,整合生产全流程

1. 腾讯发布面向3D设计专业人士的混元3D Studio,利用AI技术整合3D资产生产全流程,将生产周期从"天"级缩短到"分钟"级;

2. 工作台提供概念设计、几何建模、组件拆分、低模拓扑、贴图、绑骨蒙皮、动画等全方位3D创作管线,支持Q版、低多边形等多种风格;

3. 平台搭载业界领先的混元3D 3.0模型,具备分割生成、UV展开、材质编辑等创新功能,已集成于混元3D AI创作引擎并面向用户开放。

https://mp.weixin.qq.com/s/V0jgyRCIaWRUgtpNtLoyaA

四、 通义万相全新动作生成模型Wan2.2-Animate正式开源

1. 阿里云开源通义万相全新动作生成模型Wan2.2-Animate,支持驱动人物、动漫形象和动物照片,可用于短视频创作等领域;

2. 模型升级自Animate Anyone,提供角色模仿(复制动作和表情)和角色扮演(替换原视频角色)两种模式,人物一致性和生成质量大幅提升;

3. 研发团队构建了涵盖说话、面部表情和身体动作的大规模数据集,通过骨骼信号、隐式特征和光照融合LoRA技术,在主观评测中超越Runway Act-two等闭源模型。

https://mp.weixin.qq.com/s/WpZIY0vjYeyygFy3mbSs_w

五、 Luma AI 推出 Ray3,首个推理视频模型,电影级 HDR

1. Luma AI发布Ray3,全球首个推理视频模型,将AI视频从实验性生成推进到专业可用,支持复杂多步动作的理解与推理;

2. Ray3提供精细控制功能,允许在画面上直接涂鸦或标注引导演员动作和镜头运动,Draft Mode仅用20秒即可生成预览,成本仅为最终渲染的1/5;

3. 模型支持保真运动、物理模拟、复杂人群、光照交互和高度写实细节,并原生支持10、12、16-bit HDR视频输出,可轻松融入专业后期制作流程。

https://mp.weixin.qq.com/s/qef0-0R-sRK86TTt3wsjMw

六、 ElevenLabs 发布 Studio 3.0:一站式 AI 音频视频编辑器

1. ElevenLabs推出Studio 3.0,将旁白、音乐、音效、字幕和视频编辑整合到一条时间线,让创作者只需一个工具完成专业作品;

2. 新版本支持从10,000+AI声音中选择、自动生成专属配乐、文本提示生成音效、语音校正和隔离、一键多语言字幕等功能;

3. 该工具适用于视频创作者、播客主、有声书作者和AI电影人,所有功能也可通过API调用,支持集成到大规模工作流或应用中。

https://mp.weixin.qq.com/s/4E-ME_oV22W4E_oEUeq5Xg

七、 小米正式开源原生端到端语音模型Xiaomi-MiMo-Audio

1. 小米开源首个原生端到端语音模型Xiaomi-MiMo-Audio,参数规模70亿,预训练数据超1亿小时,在多项测试超越同参数量开源模型与闭源模型;

2. 该模型具备自然对话、音频字幕、长时间音频理解等多种能力,首次在语音领域实现基于ICL的少样本泛化,并展现语音转换、风格迁移等涌现能力;

3. 研发团队推出MiMo-Audio-Tokenizer无损压缩模型和混合思考模式,在MMSU、MMAU等基准测试实现SOTA,可用于语音续写、语音编辑和音频理解。

https://mp.weixin.qq.com/s/akG2o6UN45yKnmQrYdQXdg

前沿科技

八、 「逆龄大脑药」首次人体试验!奥特曼押注RTR242实验药

1. Sam Altman投资的长寿公司Retro Biosciences宣布年底在澳大利亚启动实验药RTR242的首次人体试验,该药可激活衰老细胞的自噬系统;

2. Retro的使命是清理大脑中堆积的变异蛋白和损伤分子,以延长人类10年健康寿命,不同于传统阿尔茨海默药物的"拖慢"策略,直接瞄准"逆转";

3. OpenAI已协助Retro用GPT-4b micro优化蛋白质与重编程因子,实验室中干细胞标记表达量提升50倍,目前Retro计划募资10亿美元与Bezos支持的Altos Labs竞争。

https://mp.weixin.qq.com/s/v_zIMteqIl0ra3MMGSrBXA

九、 生物学ChatGPT时刻,Evo构建首个AI生成的「基因组」

1. Arc研究所和斯坦福大学团队利用Evo模型构建全球首个AI生成的功能性噬菌体基因组,开启生成式基因设计时代;

2. 研究团队开发专门注释pipeline识别全部11个噬菌体基因,对Evo模型进行监督微调,所有功能性基因组携带67-392个新突变;

3. 实验验证了AI设计的基因组能够感染特定宿主菌株,部分基因组甚至整合了远缘噬菌体的蛋白质并保持功能,展示了AI协调复杂突变的能力。

https://mp.weixin.qq.com/s/ZmfpjiyFJlKyQ06MY8aKag

报告观点

十、 OpenAI Codex 「7大核心用法、6条最佳实践首次公开」

1. OpenAI公开Codex在其团队内部7种核心应用场景:代码理解、重构迁移、性能优化、提升测试覆盖率、加速开发、保持工作心流和探索构思;

2. 技术团队用Codex快速理解陌生代码、批量修改多文件、优化性能瓶颈、生成单元测试、搭建样板代码和捕获未完成工作,提高效率和代码质量;

3. 公开6条最佳实践:先用"提问模式"分析后再生成代码、迭代改进开发环境、构建详细提示、将任务队列作为待办清单、维护AGENTS.md提供上下文和利用"N选最佳"提升输出质量。

https://mp.weixin.qq.com/s/4gaXUnWhpSBV5wAQBXUPkQ


人工智能学院     地址:山东省潍坊市寿光市金光街1299号 E17楼

邮编:262700