人工智能学院欢迎您!

当前位置: 首页   >   AI速递   >   正文

AI速递0910

作者:    信息来源:    发布时间: 2025-09-10

生成式AI

一、 Altman亲自发博客点赞,OpenAI这两大杰出人才究竟是谁?

1. OpenAI CEO Sam Altman在博客中特别介绍了两位幕后核心研究员Jakub PachockiSzymon Sidor,称他们是"完美互补的传奇搭档"

2. Pachocki作为首席科学家负责制定公司宏观研究路线图,曾领导GPT-4预训练工作,并入选今年《时代》杂志百大AI人物;

3. 两人在2023OpenAI"宫斗"事件中发挥关键作用,他们的辞职威胁成为员工大规模抗议的导火索,最终促使董事会妥协迎回Altman

https://mp.weixin.qq.com/s/zV3CYpWMY_8ZUfcv8VVyKA

二、 Vidu Q1上线「参考生图」功能,人物、背景、道具随意组合

1. 国产AI工具Vidu Q1推出"参考生图"功能,能同时处理7张参考图,在一致性、真实性、美学等方面超越Flux Kontext,媲美谷歌Nano Banana

2. Vidu Q1在主体一致性方面表现出色,能精准还原人物特征、细节和服饰,同时支持换装、换背景、换道具等多种创意应用,满足电商、广告等行业需求;

3. Vidu专注"一致性"赛道,从"参考生视频""参考生图",实现了多模态可控,将AI从娱乐工具转变为规模化落地的生产力工具,效率提升90%

https://mp.weixin.qq.com/s/Blyk_UT5jLueRmvg3KsH9A

三、 阿里发布最新语音识别模型Qwen3-ASR-Flash,能识别rap

1. 阿里发布语音识别模型Qwen3-ASR-Flash,支持11种语言和多种口音,能自动分辨语种、过滤噪声,并通过添加上下文信息定制识别结果;

2. 在各项基准测试中,该模型识别错误率明显低于谷歌Gemini-2.5-ProOpenAI GPT-4o-Transcribe等竞品,尤其在方言、多语种、关键信息和歌词识别方面表现突出;

3. 实测表明,即使在连续多种噪音、电竞解说、英文说唱、方言混杂等复杂场景中,模型仍能精准识别,歌词识别错误率低于8%

https://mp.weixin.qq.com/s/9Dv1mkJrlSAc7yxBSTA7VA

四、 百度发布深度思考模型文心大模型X1.1,迭代式混合强化框架

1. 百度在Wave Summit大会上发布文心大模型X1.1深度思考模型,相比X1版本事实性能力提升34.8%,指令遵循能力提升12.5%,智能体能力提升9.6%

2. 该模型在多项基准测试中超越DeepSeek-R1-0528,效果与GPT-5Gemini 2.5 Pro基本持平,主要采用迭代式混合强化学习框架提升效果;

3. 基于文心X1.1技术,百度推出剧本驱动多模协同数字人,同时发布飞桨3.2版本及文心快码3.5S,目前百度45%新增代码由AI生成。

https://mp.weixin.qq.com/s/hPUkm3oe2dRptFpmc4xc8Q

五、 豆包·图像创作模型 Seedream 4.0 上线,支持 4K 多模态生图

1. 豆包·图像创作模型Seedream 4.0上线,支持4K高清多模态生图、多图融合、参考生图等功能,对标谷歌Nano Banana

2. Seedream 4.0在主体一致性方面表现突出,支持多种创意玩法:火柴人姿势转专业摄影、多人物合影、场景拼装、产品展示,尤其在亚洲人脸识别和中文文字呈现方面更有优势;

3. 该模型采用"生成和编辑任务统一"的工作方式,通过联合训练和多模态感知,实现秒级4K出图,能自动补充知识和背景逻辑。

https://mp.weixin.qq.com/s/LKUIrgQcX63Tggb3GzU4Jw

六、 AI编程赛道整合加速,全球首家破百亿美金AI编程企业诞生

1. AI编程独角兽Cognition获超4亿美元融资,投后估值达102亿美元,超越Anysphere成为全球AI编程赛道估值最高企业;

2. 该公司由华裔工程师Scott WuSteven HaoWalden Yan共同创立,创始人均为国际信息学奥林匹克金牌得主,融资由Peter Thiel旗下基金领投;

3. Cognition在收购Windsurf后,年化收入从7300万美元翻倍增长,同时获得高盛、花旗等大客户,但也因要求"996"级工作强度引发争议。

https://mp.weixin.qq.com/s/kw7YExlD_92_w91s6_4aZQ

前沿科技

七、 一款名为Sam的养老机器人,18岁女孩创业产品,2天卖爆

1. 18岁女孩Audrey Lo和同龄朋友创业打造养老机器人Sam,上线两天因预订量过大导致网站崩溃,多家养老院提出批量订购需求;

2. Sam24小时守护为核心,能自动检测老人跌倒并发送紧急警报,提醒服药、记录日历事项,还能与老人进行自然对话陪伴;

3. 这已是Audrey Lo的第三次创业,她13岁时筹集35000美元创建电竞社区,16岁时创办写作公司月入3万美元,现就读宾夕法尼亚大学。

https://mp.weixin.qq.com/s/g9qWUnbvlNd4t0-jgJ99bw

八、 麻省理工AI放王炸!无需说话、秒懂你的想法,外挂AI大脑

1. 麻省理工学院推出非侵入式可穿戴无声语音交互AI设备AlterEgo,通过捕捉神经肌肉信号实现无声沟通,用户只需内心发声即可与设备交互;

2. 设备采用精确传感器放置在面部和颈部关键区域,以250Hz采样并24倍放大信号,经多重滤波和算法处理后,神经网络能实现92%的词准确率;

3. AlterEgo可通过骨传导耳机将AI处理结果以声音反馈给用户,形成闭环交互,特别适合因喉部疾病失去发声能力的残疾人使用。

https://mp.weixin.qq.com/s/1Blq-kIdSq20ynd6Fdcddg

报告观点

九、 对话经济周期大师:AI 创造万亿价值,但人们或因它而"变穷"

1. 经济周期大师拉斯·特维德认为AI对社会创造的价值已是其成本的10倍,但这些价值未被GDP统计捕捉,反而因替代人力而可能导致GDP统计值下降;

2. 他预测到2050年,全球将有41亿智能机器人,其有效劳动力将是人类的6倍,真正的风险是"目标之死"——人类如何在机器高效世界中找到生活意义;

3. 未来AI时代,能源成为关键挑战,每个提示词消耗的能量已是一年前的50倍,美国预计AI工厂建设将需要相当于100座核反应堆的电力。

https://mp.weixin.qq.com/s/4dIYGBWMFwyKyZPbKDlN5w

十、 大模型需要什么芯片?Transformer发明人之一的最新预测

1. 谷歌Gemini工程副总裁、Transformer发明人Noam ShazeerHot Chips大会预测大模型将需要更高计算能力、更大内存容量、更高内存带宽和网络带宽;

2. 模型训练目前已从2015年的32GPU扩展到数十万块GPU规模,专家预计未来五年AI基础设施支出将达3-4万亿美元;

3. 芯片创新领域出现多种解决方案:HBM容量和带宽持续增加、内存层次结构应运而生、新型网络技术如UALinkCPO光学交换机降低功耗增加带宽。

https://mp.weixin.qq.com/s/r0XHWD6ie8jB14crNna5HQ


人工智能学院     地址:山东省潍坊市寿光市金光街1299号 E17楼

邮编:262700