生成式AI
一、 Chrome 迎来大更新,刚刚登顶 App Store 的 AI 直接用
1. Chrome自2008年发布以来进行最大更新,将Gemini AI助手集成到浏览器右上角,支持跨标签页对话和内容总结;
2. 浏览器地址栏升级为"Omnibox全能框",可根据页面内容智能推荐问题,并支持直接在地址栏开启AI模式进行复杂查询;
3. 新版Chrome还利用Gemini Nano增强安全保护,可识别有害网站、自动管理垃圾通知,以及一键修复泄露密码,已向美国用户开放。
https://mp.weixin.qq.com/s/2LtnbHh769lYBPdibzmsvg
二、 Notion 3.0 版本正式上线,全面进入AI Agent 时代
1. Notion创始人Ivan Zhao宣布Notion 3.0发布,引入Agent功能,可自主执行所有Notion操作,时隔7年的重大更新;
2. Agent能自主工作长达20分钟,可跨工具完成复杂任务,如整合多渠道客户反馈、更新知识库、生成入职计划等;
3. 新版本引入高度个性化的"记忆库",即将推出的"自定义Agent"功能还将支持自动运行和团队共享,创建专属AI团队成员。
https://mp.weixin.qq.com/s/kmDuhAxqd1Pk-bz963QL5Q
三、 一站式工作台「混元3D Studio」,整合生产全流程
1. 腾讯发布面向3D设计专业人士的混元3D Studio,利用AI技术整合3D资产生产全流程,将生产周期从"天"级缩短到"分钟"级;
2. 工作台提供概念设计、几何建模、组件拆分、低模拓扑、贴图、绑骨蒙皮、动画等全方位3D创作管线,支持Q版、低多边形等多种风格;
3. 平台搭载业界领先的混元3D 3.0模型,具备分割生成、UV展开、材质编辑等创新功能,已集成于混元3D AI创作引擎并面向用户开放。
https://mp.weixin.qq.com/s/V0jgyRCIaWRUgtpNtLoyaA
四、 通义万相全新动作生成模型Wan2.2-Animate正式开源
1. 阿里云开源通义万相全新动作生成模型Wan2.2-Animate,支持驱动人物、动漫形象和动物照片,可用于短视频创作等领域;
2. 模型升级自Animate Anyone,提供角色模仿(复制动作和表情)和角色扮演(替换原视频角色)两种模式,人物一致性和生成质量大幅提升;
3. 研发团队构建了涵盖说话、面部表情和身体动作的大规模数据集,通过骨骼信号、隐式特征和光照融合LoRA技术,在主观评测中超越Runway Act-two等闭源模型。
https://mp.weixin.qq.com/s/WpZIY0vjYeyygFy3mbSs_w
五、 Luma AI 推出 Ray3,首个推理视频模型,电影级 HDR
1. Luma AI发布Ray3,全球首个推理视频模型,将AI视频从实验性生成推进到专业可用,支持复杂多步动作的理解与推理;
2. Ray3提供精细控制功能,允许在画面上直接涂鸦或标注引导演员动作和镜头运动,Draft Mode仅用20秒即可生成预览,成本仅为最终渲染的1/5;
3. 模型支持保真运动、物理模拟、复杂人群、光照交互和高度写实细节,并原生支持10、12、16-bit HDR视频输出,可轻松融入专业后期制作流程。
https://mp.weixin.qq.com/s/qef0-0R-sRK86TTt3wsjMw
六、 ElevenLabs 发布 Studio 3.0:一站式 AI 音频视频编辑器
1. ElevenLabs推出Studio 3.0,将旁白、音乐、音效、字幕和视频编辑整合到一条时间线,让创作者只需一个工具完成专业作品;
2. 新版本支持从10,000+AI声音中选择、自动生成专属配乐、文本提示生成音效、语音校正和隔离、一键多语言字幕等功能;
3. 该工具适用于视频创作者、播客主、有声书作者和AI电影人,所有功能也可通过API调用,支持集成到大规模工作流或应用中。
https://mp.weixin.qq.com/s/4E-ME_oV22W4E_oEUeq5Xg
七、 小米正式开源原生端到端语音模型Xiaomi-MiMo-Audio
1. 小米开源首个原生端到端语音模型Xiaomi-MiMo-Audio,参数规模70亿,预训练数据超1亿小时,在多项测试超越同参数量开源模型与闭源模型;
2. 该模型具备自然对话、音频字幕、长时间音频理解等多种能力,首次在语音领域实现基于ICL的少样本泛化,并展现语音转换、风格迁移等涌现能力;
3. 研发团队推出MiMo-Audio-Tokenizer无损压缩模型和混合思考模式,在MMSU、MMAU等基准测试实现SOTA,可用于语音续写、语音编辑和音频理解。
https://mp.weixin.qq.com/s/akG2o6UN45yKnmQrYdQXdg
前沿科技
八、 「逆龄大脑药」首次人体试验!奥特曼押注RTR242实验药
1. Sam Altman投资的长寿公司Retro Biosciences宣布年底在澳大利亚启动实验药RTR242的首次人体试验,该药可激活衰老细胞的自噬系统;
2. Retro的使命是清理大脑中堆积的变异蛋白和损伤分子,以延长人类10年健康寿命,不同于传统阿尔茨海默药物的"拖慢"策略,直接瞄准"逆转";
3. OpenAI已协助Retro用GPT-4b micro优化蛋白质与重编程因子,实验室中干细胞标记表达量提升50倍,目前Retro计划募资10亿美元与Bezos支持的Altos Labs竞争。
https://mp.weixin.qq.com/s/v_zIMteqIl0ra3MMGSrBXA
九、 生物学ChatGPT时刻,Evo构建首个AI生成的「基因组」
1. Arc研究所和斯坦福大学团队利用Evo模型构建全球首个AI生成的功能性噬菌体基因组,开启生成式基因设计时代;
2. 研究团队开发专门注释pipeline识别全部11个噬菌体基因,对Evo模型进行监督微调,所有功能性基因组携带67-392个新突变;
3. 实验验证了AI设计的基因组能够感染特定宿主菌株,部分基因组甚至整合了远缘噬菌体的蛋白质并保持功能,展示了AI协调复杂突变的能力。
https://mp.weixin.qq.com/s/ZmfpjiyFJlKyQ06MY8aKag
报告观点
十、 OpenAI Codex 「7大核心用法、6条最佳实践首次公开」
1. OpenAI公开Codex在其团队内部7种核心应用场景:代码理解、重构迁移、性能优化、提升测试覆盖率、加速开发、保持工作心流和探索构思;
2. 技术团队用Codex快速理解陌生代码、批量修改多文件、优化性能瓶颈、生成单元测试、搭建样板代码和捕获未完成工作,提高效率和代码质量;
3. 公开6条最佳实践:先用"提问模式"分析后再生成代码、迭代改进开发环境、构建详细提示、将任务队列作为待办清单、维护AGENTS.md提供上下文和利用"N选最佳"提升输出质量。
https://mp.weixin.qq.com/s/4gaXUnWhpSBV5wAQBXUPkQ