每日更新

本周AI大事:索拉2开启“梦想时代”,马斯克的机器人学功夫

1. 关键工具:Sora 2 视频生成模型发布:造梦者已准备就绪,AI 将帮助您实现英雄梦想 新闻:OpenAI 推出了 Sora 2 视频生成模型,并通过介绍视频展示了其强大的功能。 Sora 2 提高了视频真实感、图像质量和一致性,提供音频和视频同步,还允许用户通过自己的肖像生成嘉宾视频。 OpenAI还同时推出了一款由Sora 2型号支持的iOS应用程序,该应用程序将AI视频创作功能与TikTok风格的视频源集成在一起,供用户发现和生成内容。 Sora 的“客串”功能允许用户上传个人肖像以在生成的视频中显示。这个有趣的功能已经产生了大量的 Sora 2 视频,并在网上疯传。目前,Sora Model还处于邀请阶段,邀请码陆续放出。
评测:有了Sora 2,你可以“旅行”到进入大片世界,一秒成为主角。前提是……首先,你要有邀请码。 2. AI技术及产品发布:从代码到功夫,从云端到桌面:《诸神之战》大模型比各大景区更有活力 1. 新闻:Anthropic发布了Claude Sonnet 4.5。官方称,他拥有编程、智能人工智能和计算机操作方面的技能,并且具有很强的推理和工具使用能力。在SWE-bench Verified编程基准测试中,该模型获得了77.2%的最高分,并且在并行测试中能够达到82.0%。他们在“电脑操作”任务中也取得了最高分61.4%。与行业领先的模型相比,Claude Sonnet 4.5 对于创建代理工作流程(例如财务分析和代理工具的使用)而言极具成本效益。当前用户评论 一般认为用户界面运行良好,可让您测试以下功能的极限:空2里有各种奇怪又复杂的文字。 Claude Sonnet 4.5 在速度和价格方面都有显着改进。 Sonnet 4 的性能与 Claude 4.1 Opus 的价格相当,但价格仍然是 GLM-4.6 的 8 倍。睿评:性能与高端版相同,但价格简直是“中档”。唯一担心的是隔壁的大型国产车型可能会便宜八倍。 2、新闻:智普AI推出GLM-4.6。 GLM-4.6 是 GLM-4.5 的改进版本,支持更长的上下文(最多 200,000 个令牌),提高了编码和推理性能,并减少了实际应用中的令牌消耗。此更新的重点是改进代理工作流程功能。它在终端台架测试中得分为 40.5%,在 GPQA 测试中得分为 81.0%,在 HLE 测试中得分为 17.2%,在 SWE 台架验证中得分为 68%。即使在最好的型号中,它也具有出色的盈利能力。 GLM-4.6采用开放模型权重,用户可通过Zhipu轻颜平台和HuggingFace。尖锐点评:承诺增量、降价、淘汰国外同行。 3. 新闻:DeepSeek 发布 DeepSeek-V3.2-Experimental。该模型基于DeepSeek-V3.1-Terminus开发,引入了“深度搜索稀疏注意力”(DSA)机制。这显着减少了长上下文场景的训练和推理的计算量,同时保证了与上一代模型相同的质量。根据DeepSeek-V3.2-Exp白皮书,DSA的细粒度稀疏注意力机制使得注意力复杂度接近线性而不是二次,因此上下文很长。您将能够以低成本处理查询并保证结果的质量。这也使得 DeepSeek 将 API 推理的成本降低了一半。芮平:“能见度低”并不重要。重要的是,通过使用这种方法,你可以通过深度搜索直接将你的API价格降低一半。 4.新闻:腾讯重新租赁浑源图像3.0。它是一个开源加权混合专家 (MoE) Vincent 图模型,具有 800 亿个参数,每个代币有 130 亿个激活参数。这种强大的多模态模型在自回归框架下集成了多模态理解和图像生成,并产生了显着的结果。混元生图3.0超越首届冠军NanoBanana,登顶LMArena总榜和闻生图特别榜榜首。腾讯混元透露了Hugging Face的重量并发布了技术报告。芮平:我无意中获得了全球开源文圣图第一名。 5、消息:阿里云同易千文Qwen3系列机型已上线并开放新一代多模态机型Qwen3-VL-30B-A3B-Thinking和Qwen3-VL-30B-A3B-Instruct。 Qwen3-VL 是一个多模态视觉语言模型系列,它建立在以前的版本之上,在视觉理解方面提供了显着的改进,同时保持了强大的纯文本专业性停止能力。点评:曾几何时,鹅厂登顶,随后阿里同益推出新品,国民大模“斗仙”登场。 6. 新闻:Hume AI 推出 Octave 2,一种转换模型下一代文本转语音版本,具有低延迟(<200 毫秒)和深刻的情感理解,将多语言支持扩展到 11 种语言。用户可以使用Hume平台,并可以通过API预览试用版。锐评:AI声音也能理解情绪,所以未来可能无法赢得争论。 7. 消息:俄罗斯人工智能研究机构AI-Forever开源了其基于文本的视频模型Kandinsky 5.0 T2V Lite。该模型拥有 20 亿个参数,提供最先进的轻量级开源解决方案,用于生成 5-10 秒的 AI 视频。 Kandinsky 5.0 T2V Lite 包括针对不同时间段和流程进行优化的多个变体。相关代码步骤发布在GitHub平台上形式,模型权重可以通过HuggingFace获得。点评:俄罗斯老兵Ap大温暖、轻量化的开源视频模型让休闲游戏玩家领略AI大片。 8. 新闻:ServiceNow SLAM 实验室发布了开源加权多模态推理模型 Aprilel-1.5-15B-Thinker。这增加了基于之前四月系列的文本模型的图像推理功能。报告显示性能可与许多大型系统相媲美,并且模型权重和演示现在可以在 Hugging Face 上找到。点评:阿普尔展现了“小人物”中蕴藏着大智慧,擅长治疗多种“参数性焦虑症”。 9. 新闻:Liquid AI 推出 LFM2-Audio-1.5B,这是一种基于端到端音频语言的模型,专为低于 100 毫秒的响应延迟而设计。 LFM2-Audio-1.5B 支持轻量级实时助手,可以立即理解并生成模拟语音和文本。用户可以体验到demo版本通过官方平台发布,模型权重发布在HuggingFace上。睿平:反应速度比你还快的AI语音助手出现了,响应时间小于100毫秒。 10. 消息:Perplexity 的智能浏览器 Comet 现已可供免费下载。 Comet 的研究导向界面与 Perplexity 的问答引擎深度集成,并内置引文和快速捕获等工具,被定位为首款“适合您”的搜索和场景创建人工智能浏览器。 Comet 的付费版本还增加了团队协作和高级功能。官网详细介绍了型号特性、平台支持以及下载安装链接。 Rui 的评论:Comet 希望您完全忘记传统的搜索框添加,直接在浏览器中输入您的问题。 11、新闻:挪威浏览器公司Opera推出AI Neon浏览器,声称这是一款“为行动而生”的代理辅助智能浏览器。霓虹灯对索姆开放e 用户每月 19.90 美元,其他人可以请求加入候补名单。随着Comet和Neon的相继发布,AI浏览器领域的竞争更加激烈。点评:AI浏览器大战愈演愈烈,Neon主攻高端游戏。 12. 新闻:Google 发布了 Jules 工具包和相关 API,以扩展其独立调度代理 Jules 的集成功能。 Jules API 基于三个基本概念:源、会话和活动。通过配置以上三项,Jules 可以根据您现有的代码库和 CI 流程规划多步编程任务、调用工具模块并执行命令行操作。 Google 为 Jules API 提供了完整的演示案例和技术文档。批判性评论:谷歌为程序员配备了人工智能“工具箱”。 13.新闻:Gemini 取代 Google Assistant 成为 Google Nest 和 Google Home 设备上的默认语音助手。本次更新与Google Home深度集成全新改进的 Gemini for Home 应用程序,将 Gemini 功能引入设备设置、控制和自动化流程,包括支持连续对话的 Gemini Live 付费版本。谷歌目前正在通过“抢先体验”计划推出相关功能。官员们表示,该举措将为过去十年发布的旧设备带来智能和自动化功能。 RevCritical使命:谷歌终于决定让老牌助手退休,让Gemini完全接管智能家居。 14. 新闻:谷歌为其 Snapseed 照片编辑应用程序的设备添加了交互式图像分割功能。用户可以通过完全本地化的“点和段”交互方式在 Snapseed 移动应用中实现快速的图像裁剪和编辑功能。谷歌研究博客详细介绍了该模型的架构和用户体验,将其定位为创作者的原生视觉实用程序。犀利的评论:“魔法触手可及“ps”已成为现实,P图党的好消息即将到来。 15、新闻:谷歌正在推出新的Gemini人工智能模型,旨在通过浏览器进行网络导航和交互。这使得AI代理能够在最初为人类而不是机器人设计的用户界面中执行操作。该模型被称为Gemini 2.5 Computer Use,使用“视觉推理和理解能力”来分析用户请求并完成相应的任务,例如 填写并提交表格。芮平:人工智能也学会了通过互联网“冲浪”来完成任务。后备军。将来,他们可能比你更擅长上网。 16、新闻:10月4日,特斯拉官方账号@TeslaAI发布了一段人形机器人特斯拉擎天柱学习功夫的视频。当被问及擎天柱的“战斗”是远程控制还是人工智能驱动时,马斯克 Platform X 帖子的评论部分澄清:“这不是远程,而是人工智能。”
批判性评论:其他 c公司的人工智能还在画画写诗,但马斯克的机器人已经开始练习咏春拳了。 3. 投资信息AI tigation:从“关键词焦虑”到“从单个例子​​中推论”,AI研究正在向“思考自己”方向发展 1. 新闻:谷歌研究团队提出了一种协作图像生成工作流程,允许用户使用受限编辑和结构化输入迭代“协作引导”模型,从而减少迭代调整关键词的工作量。相关研究文章《Preference》提出了强化学习代理 PASTA 的概念,它可以优化 Vincentian 图像交互过程,提高生成图像任务的可控性和作者满意度。这仍处于研究阶段,但将有助于提高谷歌图像工具生态系统内的编辑能力。锐评:谷歌这项新研究旨在治愈大多数人的“即时单词焦虑”托尔。 2. 新闻:麻省理工学院林肯实验室宣布推出 TX-GAIN,这是世界上最强大的大学人工智能超级计算机。新系统针对生成式人工智能工作负载进行了优化,旨在加速从生物防御到材料发现等领域的研究。这套学术计算系统拥有 600 个 GPU,虽然规模不如科技巨头的数据中心,但其计算能力仍达到 2 exaflops,使其成为 TOP500 超级计算机之一。芮点评:麻省理工学院也开始将其计算能力用于科学研究。 3. 消息:Meta、Mira Québec AI 研究院、蒙特利尔大学和普林斯顿大学联合提出元认知重用机制。简而言之,就是让模型能够自行探索和总结解决问题的思路,将常用的推理套路提炼成更简洁的“行为”,并存储在“行为手册”中。如果再次出现类似的问题,模型可以直接从t调用相应的行为他无需再次绕过手册。实验结果表明,该机制通过行为条件推理、行为引导自我提升、行为条件监测微调三个应用场景,在MATH、AIME等数学基准测试中实现了显着优化。在保持准确性的同时,将推理令牌的使用量减少高达 46%。芮平:说白了,就是让AI学会“举一反三”,把解决问题的套路储存在小本子里,下次可以直接从作业里抄下来。 4. AI 商业与政策动态:算力、资本与版权的博弈:AI 巨头的下一场战争在幕后打响 1. 新闻:OpenAI 与 AMD 签署数百万美元股权交易。在过去 12 个月中,OpenAI 通过风险投资交易筹集了约 470 亿美元,估值达到约 5000 亿美元。今年以来,OpenAI 已签署了价值高达约 1 万亿美元的交易,以获得运行人工智能模型的计算能力。交易方包括 AMD、Nvidia、Oracle、CoreWeave 等。这些公司的利润也与OpenAI未来的盈利能力挂钩。该交易使 OpenAI 在未来 10 年内获得超过 20 吉瓦的计算能力。这大约相当于20个核反应堆的产量。 OpenAI高管估计,按照目前的电价,每千兆瓦的AI算力将花费约500亿美元。芮平:OpenAI正在购买算力或者试图购买算力。 2. 新闻:OpenAI最大的开发者大会DevDay于10月6日在旧金山梅森堡举行。在简报中,我们介绍并演示了Apps SDK(软件开发框架),这是一个为ChatGPT构建应用程序的框架,AgentKit支持创建AI代理,而ChatKit则允许您可以轻松整合 ChatGPT 的聊天功能。芮点评:OpenAI希望通过大会上推出的三款套餐,吸引开发者从中赚钱。 3. 新闻:OpenAI宣布三星和SK集团加入“Stargate”项目,以更广泛地设计其在韩国的AI数据中心。 OpenAI表示,两家韩国公司的参与将加速全球AI基础设施的建设,并补充甲骨文、软银等公司此前的数据中心合作建设计划。此次合作不仅将扩大存储芯片的供应,还将增加韩国AI数据中心的容量,不仅可以支持全球AI计算能力,而且可以适应韩国自身的AI发展战略。此外,OpenAI还宣布与Digital Agency达成战略合作,以加速与政府机构的生成式人工智能应用。批判性评论:这就像聚集来自全力以赴,组队并一起比赛,赢得“算力地下城”。 4、消息:外媒援引知情人士消息透露,Elon Mus 旗下的人工智能初创公司 xAI 已融资 200 亿美元(约合人民币 1424 亿元),英伟达本轮融资股权投资额达 20 亿美元(约合人民币 142 亿元)。知情人士表示,xAI 的新融资包括股权和债务,将帮助该公司建设大型数据中心。据说和Colossus 2中将使用的Nvidia GPU有关。 瑞平先生:主要目标似乎是吸引卖“铲子”的NVIDIA给团队。 5.新闻:Meta宣布从12月开始将利用用户与其人工智能助手之间的聊天记录来个性化信息流、短视频、群组和广告内容,排除敏感话题。欧盟、英国和南方韩国已暂停实施、引用监管要求。此举凸显了人工智能助手交互数据与核心广告系统之间更紧密的集成。瑞平:Meta 会默默记录你对 AI 说的所有“内幕话”,并将其转化为精准投放的广告。 6、消息:欧盟委员会宣布一项10亿欧元(约合11亿美元)的计划,旨在减少欧盟对其他国家技术的依赖,促进人工智能技术在关键行业的广泛应用。欧盟执行机构的“应用人工智能”战略基于今年4月发布的行动计划。该计划旨在减轻初创公司的监管负担和成本压力,这些初创公司努力遵守去年八月生效的具有里程碑意义的人工智能规则。批评评论:由于担心落后,欧盟在人工智能方面投入了 10 亿欧元。 7、新闻:美国商务部提出的“50%规则”可能会影响人工智能公司依靠受版权保护的材料进行培训。据报道,该法案将要求公司在超过 50% 的培训数据内容受版权保护的情况下披露或获得许可。这可以显着提高专有模型训练数据的透明度,并鼓励人工智能供应商更多地使用许可的语料库。芮平:依靠“免费卖淫”版权内容培养模特的日子可能已经结束了。 8. 新闻:环球音乐和华纳音乐加入谷歌、Spotify 和 AFI 与一家新公司签署授权协议,这家新公司可能会重塑人工智能时代的音乐产业。小额支付模式与流媒体类似,据报道双方也讨论过类似问题。该协议有望规范音乐生成工具学习数据的授权以及输出内容的版权管理。芮成钢评论:音乐巨头正在排队收取版权费。 9. 新闻:OpenAI 增加版权在好莱坞对该平台上使用的大量未经授权的角色和受版权保护的材料表示强烈抗议后,持有人控制了 Sora 2 的角色使用。 OpenAI将为电影制片厂提供详细的IP或角色控制机制,并探索授权IP的营销框架。据报道,迪士尼选择退出合作计划。具体实施计划仍在完善中。该功能的操作系统和政策细节。锐评:这个操作有点尴尬:一边用别人的IP玩游戏,一边给好莱坞大佬提供“版权锁定”功能。 10.新闻:OpenAI通过其官方新闻账号回应了马斯克最新伪装成诉讼的骚扰策略。 OpenAI 表示,它不需要也不想要任何人的商业秘密。 OpenAI 保护其员工,并且不会被马斯克恐吓的企图吓倒。芮点评:继OpenAI爆料之后,Kouma再次面临难题。 5.AI视角ve:我可以画“表面”,但不能画“骨头”。 AI“奇幻”危机新闻超越现实:当前AI视频模型是否具备物理推理能力?答案是否定的。一项新的具有里程碑意义的研究发现,Vincent视频系统的动作物理推理性能各不相同,视频真实感的提高速度比对现实世界的深入理解要快得多。这对人工智能的安全性和可靠性构成了重大隐患。让我们以典型的“I See 3”错误案例(“错误”总是指无法正确完成任务)为例,然后打开煤气灯。当我让他们通过点燃纸张来模拟燃烧纸张时,他们 12 次中有 9 次失败了。当我被要求解决一个简单的迷宫时,我 12 次失败了 10 次。当我被要求弹出带标签的气泡来对数字进行排序时,我 12 次中失败了 11 次。可以说,AI图像生成模型无法再现物理现实,与大规模语言模型的“幻觉”现象如出一辙。它仅根据统计数据模拟现实,没有现实依据。为了解决人工智能视频可靠性的缺点,可能有必要开发基于现实世界基础的人工智能模型。 Rui 的评论:我认为我的体育老师教了我 AI 视频模型的物理知识。 (辰辰)

你可能也会喜欢...

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注