Codex 一天内密集更新:Sites、Python SDK、62 应用插件和 Goal 模式
OpenAI 在同一天围绕 Codex 发布了多项更新,从编程工具向全能工作平台演进的意图明显。Sites 功能让 Codex 能将想法直接生成为可分享的交互式网站,类似 Claude Design 但多了部署和分享链接能力,目前仅限企业版和团队版。Python SDK(pip install openai-codex)允许开发者将 Codex 嵌入自己的应用和工作流,可复用 Codex 登录态。角色插件覆盖销售、数据分析、创意制作、产品设计、股权投资 6 个岗位,集成 62 个应用和 110 个技能,一键安装无需编程。此外 Goal 指令功能引入结果、验证、约束、边界、迭代和阻塞条件六要素,让 Agent 能自主执行多步骤长任务。多位博主实测确认 Sites 的网页设计质量很高,但 Pro 用户暂时无法使用。
来源:
- @OpenAI: https://x.com/OpenAI/status/2061887650391625870
- @vista8: https://x.com/vista8/status/2061875079630496169
- @op7418: https://x.com/op7418/status/2062005183090233773
- @Gorden_Sun: https://x.com/Gorden_Sun/status/2062126358378242240
- @vista8: https://x.com/vista8/status/2062189983096557995
微软 Build 2026:Surface RTX Spark 开发机和 OpenClaw 进入 Windows 生态
微软在 Build 2026 上发布了 Surface RTX Spark Dev Box,这是一款类似 Mac mini 的小型开发机,搭载英伟达 RTX Spark 芯片和 128GB 内存,算力达 1 petaflop,可在本地运行 1200 亿参数大模型。3D 打印阳极氧化铝机身,预装 Windows 11 Pro 及 VS Code、GitHub Copilot、WSL 等开发工具,分析师预计售价 3000-3500 美元。同时微软宣布将 OpenClaw 引入 Windows 生态系统,使用 MXC 安全容器技术使其原生运行,并发布基于 OpenClaw 的 Microsoft Scout——一个能连接 Teams、Outlook、OneDrive、SharePoint 的"始终在线"个人 AI Agent。微软将 Defender、Entra、Intune 企业安全栈接入 OpenClaw,弥补了其企业落地的安全短板,并承诺将策略控制能力贡献回上游开源项目。
来源:
- @xiaohu: https://x.com/xiaohu/status/2061974218875805789
- @xiaohu: https://x.com/xiaohu/status/2061967776831639677
字节跳动同日三线齐发:豆包推出专业版、Seed 开源 TaskMem、Kimi Code 加入 Goal 模式
字节跳动在 6 月 3 日有多项动作。豆包宣布即将推出专业版,涵盖软件开发、数据分析、专业设计、流程自动化、金融分析、科学研究等场景,同时承诺现有免费功能不变,并否认了"降低基础功能逼迫付费"的传言。字节 Seed 团队开源了 TaskMem,基于 Qwen3-VL-30B-A3B 训练,采用两阶段方法让多模态 Agent 在视频/环境流中学会判断"什么值得被记住"。第一阶段用 RL 训练记忆生成策略,第二阶段训练仅 2048 个参数的 adapter 偏置记忆焦点。实验显示在 VideoMME、EgoTempo 等基准上准确率提升 5-7 个百分点。Kimi Code 0.8.0 则新增了实验性 goal 模式,支持需要多轮处理周期的长任务。
来源:
- @MaxForAI: https://x.com/MaxForAI/status/2062134453154254937
- @MaxForAI: https://x.com/MaxForAI/status/2062041409595863097
- @MaxForAI: https://x.com/MaxForAI/status/2062019642961645642
Windsurf 告别,转型为 Devin Desktop
Windsurf 正式宣布停止运营,创始人 Jeff Raspe 宣布将其转型为 Devin Desktop。这是继 Cognition 收购 Windsurf 之后的产品方向调整,意味着这个曾经的 AI 编程助手品牌将被整合进 Devin 产品线。多位博主对此进行了转发和评论。
来源:
Hermes Agent 发布桌面客户端,Nous Research 推出 Nous Portal
Nous Research 发布了 Hermes Agent 的桌面端应用 Hermes Desktop,此前曾在黄仁勋 GTC 主题演讲中首次演示,现已开放公开预览。同时 Nous Research 还推出了 Nous Portal,作为驱动 Hermes Agent 的新方式。Hermes Agent 从命令行工具向 GUI 客户端演进的趋势明显,有博主指出"Agent 的主流是 GUI 了",并将其与 Codex App、Cursor 等并列为当前 GUI Agent 的主要选项。
来源:
- @NousResearch: https://x.com/NousResearch/status/2061843507417944552
- @NousResearch: https://x.com/NousResearch/status/2061973480527036681
- @dotey: https://x.com/dotey/status/2061851653095985399
- @op7418: https://x.com/op7418/status/2062002323786985825
GPT-image2 提示词范式转变:短关键词优于长说明书
VSC 社区知名创作者 @MANISH1027512 发布了一篇关于 GPT-image2 提示词方法论的详细分析,核心观点是生图的重心已经改变。与过去 Nano Banana Pro 擅长吃结构化长提示词不同,GPT-image2 更像一个拥有巨大视觉素材库和强默认审美的图像引擎,几个高密度关键词就能触发完整风格——例如"CCD"自动拉出闪光和廉价数码感,"90s anime"补上赛璐璐和色块。长提示词反而容易变成噪音导致画面混乱。社区共识是"先用少量关键词召唤画面,再逐步加控制,先抓风格再修细节"。OpenAI 官方 prompting guide 也印证了这一点。这也意味着"反推提示词"的价值应从 1:1 复刻转向提炼母体风格和核心触发词。
来源:
- @MANISH1027512: https://x.com/MANISH1027512/status/2062186498389401783
斯坦福研究:大模型不怕脏数据,小模型才怕
博主 @vista8 分享了斯坦福大学研究团队的一篇论文发现,与直觉相反,把未过滤的 Common Crawl 数据喂给大模型,在计算量足够大时效果反而比清洗后的数据更好。在 15M 小模型上过滤数据全面领先,但当模型规模达到 330M 和 1B 时情况完全反转,未过滤版本在充分训练后超越了所有过滤版本。研究者认为模型参数量足够大时,有足够空间把垃圾和有用信息隔离开。这对大规模预训练的数据策略有直接参考价值。
来源:
Codex 使用技巧:额度翻倍、Goal 指令和远程控制
多位博主分享了 Codex 的实用技巧。关于额度管理,Codex 和 Claude Code 的额度是 5 小时滚动窗口制,窗口从发第一条消息时开始计时,因此可以提前发一句话激活窗口,让重置时间落在真正干活的中间。@vista8 整理了 Goal 指令的六要素模板(结果、验证、约束、边界、迭代和阻塞条件),并分享了用 plan 模式让 AI 反问自己来收敛 Goal 的技巧。此外 Codex 还支持一台电脑远程控制另一台电脑的 Codex 工作,在设置中添加远程设备即可。有博主反馈已不间断连续使用 Codex 11 天,最长单次任务跑了 8 小时。
来源:
- @cellinlab: https://x.com/cellinlab/status/2062109934423101599
- @vista8: https://x.com/vista8/status/2062189983096557995
- @vista8: https://x.com/vista8/status/2062167253911511418
- @vista8: https://x.com/vista8/status/2062019519787503712
统计: 扫描时间线条数=360 命中的博主数=51 命中的推文总数=237 加权推文分=199.95 原创推文数=143 RT 推文数=37 抓取尝试次数=2 边界覆盖状态=tail_confidently_crossed_target_boundary