Codex 周四更新:锁屏远程控制、Appshots、/goal 正式上线
OpenAI 发布 Codex 周四更新,包含四项重要功能。最受关注的是锁屏远程控制:用户可以通过手机远程操控锁屏状态下的 Mac,使用苹果官方 Authorization Plug-in 机制,四层安全设计包括极短授权窗口、自动遮蔽显示器、检测本地输入立即锁屏。其次是 Appshots 功能,Mac 上按两次 Command 键即可将当前窗口的截图和文本内容(包括屏幕外的部分)发送给 Codex。/goal 模式从实验功能正式上线,给 Codex 一个目标后可持续工作数小时甚至数天,支持暂停、编辑和 side chat。此外还推出了高级标注模式,可在 Codex 内置浏览器中直接拖拽调整页面元素并留批注。团队插件共享和 Analytics 面板升级也同步发布。
来源:
- @OpenAIDevs: https://x.com/OpenAIDevs/status/2057530207976989179
- @OpenAIDevs: https://x.com/OpenAIDevs/status/2057536706778378692
- @dotey: https://x.com/dotey/status/2057556752888222025
- @op7418: https://x.com/op7418/status/2057678002675413057
- @xiaohu: https://x.com/xiaohu/status/2057560537215725653
- @imwsl90: https://x.com/imwsl90/status/2057699137114808530
DeepSeek V4-Pro 宣布永久降价,Harness 团队大规模招人
DeepSeek 官方宣布 V4-Pro 模型 API 价格调整:5月31日 2.5 折优惠结束后,正式定价为原价的四分之一,调整后每百万 token 输入 3 元人民币、输出 6 元人民币。多位博主指出这比同等水平的其他模型便宜约 3 倍。同时,DeepSeek Harness 团队开放招聘,包括研发工程师、产品经理和研究员职位,全职实习均可,地点限北京。有博主分析,考虑到 Agent Harness 概念尚新,只要近期深度使用 Claude Code 和 Codex 并有自己认知的从业者都有机会。
来源:
- @MaxForAI: https://x.com/MaxForAI/status/2057805496846045270
- @oran_ge: https://x.com/oran_ge/status/2057809279839785278
- @dotey: https://x.com/dotey/status/2057835713442230638
- @AlchainHust: https://x.com/AlchainHust/status/2057779175155732613
Qwen 3.7-Max 发布,在多项评测中超越 GPT-5.5 和 Opus 4.7
阿里发布 Qwen 3.7-Max 模型。在一个真实的智能体任务测试中(编写会玩俄罗斯方块并自我训练的机器人),Qwen 3.7-Max 训练成本 $1.32 性能提升 +56%,优于 Claude Opus 4.7($12.15, +28%)和 GPT-5.5($2.85, +7%)。在 Arena 全球大模型盲测总榜中,Qwen 3.7-Max 超过 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,位列国产模型第一。该模型支持 preserve_thinking 参数,可保留前序轮次思维内容以增强 Agent 决策一致性。有博主实测在 Claude Code 下能长时间工作,但指出需要更精准的提示词。
来源:
- @MaxForAI: https://x.com/MaxForAI/status/2057737919314714693
- @LufzzLiz: https://x.com/LufzzLiz/status/2057766954442899627
- @AlchainHust: https://x.com/AlchainHust/status/2057688964388225235
PwC 论文:Grep 在 Agent 检索场景中击败向量检索
PwC 发表了一篇论文「Is Grep All You Need?」,在 LongMemEval 上测试了 116 个长对话记忆问题。研究比较了 grep 字面搜索和 vector retrieval 向量检索在不同 Agent 运行外壳(Chronos、Claude Code、Codex CLI、Gemini CLI)中的表现。结果是:在主实验的 inline 模式中,grep 在每一个 harness-model 组合里都赢了向量检索。原因是很多 Agent 任务本质上是证据定位(找函数名、文件路径、报错字符串等),embedding 的语义宽容反而会带来噪音。论文提醒做 Agent 的人:不要一上来就默认每个严肃 Agent stack 都应该接 vector DB,先问清楚 Agent 到底在做什么。
来源:
Cloudflare CEO 发文详解:裁掉 20% 员工,AI 替代的是"衡量者"
Cloudflare CEO Matthew Prince 在《华尔街日报》发表专栏《我是怎么选择用 AI 替换哪些员工的》。Cloudflare 刚裁掉约 1100 人(16 年来首次大规模裁员),同时今年招了 1111 名实习生(收到近 100 万份申请,录取率千分之一)。Prince 引用德鲁克的分类法把员工分为三类:建造者(builder)、销售者(seller)和衡量者(measurer)。AI 不动前两类——工程师效率翻十倍有多少招多少,销售也安全因为人愿意跟懂需求的人打交道。被替代的是"衡量者":内部审计、财务、合规、中层管理、运营、市场。Cloudflare 现在转向全业务持续审计,中层管理者被大幅裁减,因为 AI 让每个经理可以管更多人。本季亏损 6200 万美元,遣散重组花费 1.4-1.5 亿美元,股价一度跌超 20%。
来源:
- @dotey: https://x.com/dotey/status/2057641537719226585
- @dotey: https://x.com/dotey/status/2057641534225346990
微软收回内部 Claude Code 许可证,要求工程师转向 Copilot CLI
据 The Verge 报道,微软开始大规模收回内部员工的 Claude Code 许可证,要求开发者转向自家的 GitHub Copilot CLI。微软去年 12 月开始在内部推广 Claude Code,鼓励非技术岗位尝试用 AI 写代码,半年下来 Claude Code 在内部非常受欢迎。但这反而成了问题:它让微软自家刚推出的 GitHub Copilot CLI 显得尴尬。负责 Windows、Microsoft 365、Outlook、Teams 和 Surface 的团队已要求工程师在 6 月底前完成迁移。知情人士透露,背后有成本考量——每个 Claude Code 的 license 费用都是交给竞争对手 Anthropic 的。被要求迁移的工程师对此并不情愿。
来源:
SpaceX Starship V3 首飞因液压销故障中止,计划次日重试
SpaceX 进行 Starship V3 首飞倒计时,但因固定塔臂的液压销未能缩回而中止。Elon Musk 表示如果当晚能修复,将于次日中部时间 5:30 再次尝试发射。这是 Starship 的第十二次飞行测试。Musk 同时转发了 SpaceX 现在发射的火箭数量超过全球其他国家总和的消息,以及关于卫星数据中心、Starlink 月球覆盖等进展。
来源:
- @elonmusk: https://x.com/elonmusk/status/2057609682865254695
- @elonmusk: https://x.com/elonmusk/status/2057594680284430428
小红书开放 Skill 上传;Open Design 支持多项目管理和 Handoff
小红书现在可以直接上传 Skill,有博主评价这是"很大的事件",目前为邀请制。同时,Open Design 宣布多项目管理和 Handoff 给 Cursor/Claude Code 的能力即将上线,用户可以并行管理多个设计项目,并将设计原型转给 Claude Code、Cursor 继续落地生产。Open Design 还正式支持 18+ 多语言,来自全球近 20 个国家的开发者和用户在使用。
来源:
- @op7418: https://x.com/op7418/status/2057711810728559034
- @tuturetom: https://x.com/tuturetom/status/2057666633716380044
- @tuturetom: https://x.com/tuturetom/status/2057667453006561463
开源动态:Mega-ASR 噪声识别、Google AX 分布式 Agent 基础设施、飞书 Bridge
三个值得关注的开源项目。南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,基于 Qwen3-ASR 构建,专攻真实世界烂音频(远场、混响、回声、电流声等),在跨语言测试中词错率大幅领先(中文声说英文 3.19 vs CosyVoice2 的 17.10),1.7B 参数可在消费级硬件推理,Apache 2.0 许可。Google 开源 AX,为分布式 Agent 设计的状态管理、失败恢复和跨进程调度基础设施,原生适配 K8s 部署,目标成为 Agent 领域的 Kubernetes。Zara 开源了飞书 Bridge 工具,一条命令即可将本地 Claude Code 变成飞书机器人,支持可交互卡片、图片文件直接显示和全量搜索。
来源:
- @MaxForAI: https://x.com/MaxForAI/status/2057743732171272205
- @Gorden_Sun: https://x.com/Gorden_Sun/status/2057720476714336287
- @vista8: https://x.com/vista8/status/2057751033615700128
统计: 扫描时间线条数=360 命中的博主数=36 命中的推文总数=246 加权推文分=200.25 原创推文数=117 RT 推文数=42 抓取尝试次数=2 边界覆盖状态=tail_confidently_crossed_target_boundary