OpenAI 发布三款 GPT 实时语音模型
多位博主提到 OpenAI 在 Realtime API 中一次性上线了三款语音模型。主角 GPT-Realtime-2 首次将 GPT-5 级推理能力注入语音模型,上代上下文窗口从 32K 扩展到 128K,支持并行工具调用和执行过程的语音播报;GPT-Realtime-Translate 走 voice-to-voice 路线,支持 70+ 输入语言和 13 种输出语言的实时翻译;GPT-Realtime-Whisper 则是流式语音转文字模型,边说边出字。主模型在 Big Bench Audio 测试中从上代 81.4% 升至 96.6%,多轮指令跟随从 34.7% 升至 48.5%。定价方面,主模型每百万音频输入 token 32 美元(缓存 0.40 美元),输出 token 64 美元;翻译和转写分别按分钟计费约 0.034 和 0.017 美元。
来源:
- @xiaohu: https://x.com/xiaohu/status/2052646097525555626 | https://x.com/xiaohu/status/2052646102835532181 | https://x.com/xiaohu/status/2052646105096298733
- @OpenAIDevs: https://x.com/OpenAIDevs/status/2052440907933474954
- @sama: https://x.com/sama/status/2052462271667028211 | https://x.com/sama/status/2052558319940944256
- @dotey: https://x.com/dotey/status/2052440968863887715
- @LufzzLiz: https://x.com/LufzzLiz/status/2052533468417159498
Codex for Chrome 插件正式开放
多位博主提到 OpenAI 为 Codex 推出了 Chrome 扩展,可在浏览器中直接操控已登录的网页,后台并行处理多个标签页而不影响用户当前浏览。它通过写代码和运行代码来操作页面,可以同时调用现成插件和需要登录的网站,支持 macOS 和 Windows,但香港等部分节点不支持,Chrome 需设为默认浏览器才能完整走完引导流程。除了 Chrome 外,任何基于 Chromium 的浏览器均可使用该插件,安装后会单独开一个标签组来工作,用户可以在浏览器标签组界面中找到它正在控制的网页。
来源:
- @xiaohu: https://x.com/xiaohu/status/2052564516362498321 | https://x.com/xiaohu/status/2052564521060028917
- @OpenAIDevs: https://x.com/OpenAIDevs/status/2052481136971125158
- @vista8: https://x.com/vista8/status/2052647425832329358
- @cellinlab: https://x.com/cellinlab/status/2052565321857253773 | https://x.com/cellinlab/status/2052566272232067450
- @op7418: https://x.com/op7418/status/2052576841656099037
Nous Research 发布 Hermes Agent v0.13.0
有博主提到 Nous Research 发布了 Hermes Agent v0.13.0,代号为 "The Tenacity Release",可通过 `hermes update` 命令更新,同时支持西班牙语。ComfyUI 已集成进 Hermes Agent 的 skill 体系,开发者可通过自然语言描述让 Agent 调用 ComfyUI 进行生图;另有 Autobrowse 集成案例展示了如何通过两次迭代将任务耗时从 102 秒缩短。
来源:
- @NousResearch: https://x.com/NousResearch/status/2052493732205744303 | https://x.com/NousResearch/status/2052532078722363803
OpenAI 发布官方命令行工具 openai-cli
有博主提到 OpenAI 上线了官方命令行工具 openai-cli,项目开源于 GitHub(openai/openai-cli),采用 Apache 2.0 协议,可通过 Homebrew 或 Go 安装。核心能力包括:调用 Responses API 并支持所有云端内置工具(网页搜索、代码解释器、文件检索、图像生成等),输出支持 JSON/YAML/JSONL 等 Unix 风格结构化格式并可配合 GJSON 语法抽取字段,图像生成、编辑、语音转录、TTS 均可用一行命令完成,还支持创建 project 和配发 API key。文件传参使用 `@ file.ext` 语法,与 curl 习惯一致,二进制内容可用 `@data://` 显式 base64 编码。发布者将其定性为轻量级 passion project,主要面向 Agent 使用场景。
来源:
Google 发布轻量 Fitbit 运动手环
有博主提到 Google 推出了一款无屏幕 Fitbit 运动手环,整机仅重 5 克,可连续佩戴一周无需充电(5 分钟即可回充一整天电量),支持心率、心律(带房颤警报)、血氧、皮肤温度、睡眠分期、心率变异性及运动数据全自动识别,50 米防水。硬件定价 99 美元(一次性),可选订阅 9.99 美元/月,比 Whoop 年费便宜一半多,比 Oura 硬件便宜三分之二。真正的卖点是搭配 Gemini 驱动的 Google Health Coach,可根据睡眠和运动数据提供定制建议,例如拍摄健身房器械照片即可生成训练计划。
来源:
- @xiaohu: https://x.com/xiaohu/status/2052584541387444496 | https://x.com/xiaohu/status/2052584543618732442 | https://x.com/xiaohu/status/2052584546223419454
《GEO红皮书》免费发布
有博主提到 2025 年初发布的《GEO白皮书》每天仍有数百人访问,但这一年行业乱象丛生——黑帽 GEO 盛行、垃圾服务商割韭菜、虚假承诺满天飞,央视 315 也对此点名批评。姚老师和该博主近期基于国内外前沿论文、生成式 AI 法规及互联网广告法、一年实战踩坑经验,整理出 10 万字《GEO红皮书》,旨在让行业回归理性,内容包括拆解常见黑帽 GEO 手段、甄别服务商水平的方法以及 GEO 风险自查清单,现免费发布。
来源:
AIHOT 免费开放:AI 热点监控加码
有博主提到此前为公司内部开发的 AI 热点监控网站 AIHOT 即日起免费向所有人开放,Skill、RSS 和 API 也同步全量免费开放。该工具从 168 个精选数据源中抓取内容,通过 AI 计算流水线打分后将高价值信息推送给用户,并附带 AI 日报功能帮助用户快速了解 AI 资讯。当天又上线了更新日志页面和分类筛选功能,移动端适配也在推进中。
来源:
- @Khazix0918: https://x.com/Khazix0918/status/2052607019019079768 | https://x.com/Khazix0918/status/2052726850431148059
- @Khazix0918: https://x.com/Khazix0918/status/2052638450181124284 | https://x.com/Khazix0918/status/2052663200810991715
Sam Altman 谈语音交互趋势
有博主提到 Sam Altman 在推文中表示,年轻人似乎更倾向于用语音与 AI 互动,而中老年人更喜欢打字,他很好奇这个偏好会否随时间改变。同日他提到 GPT-Realtime-2 登陆 API 是一个相当大的进步,团队也正在改善语音在 ChatGPT 对话中的体验。Altman 还分享了一张照片并感慨,帮助软件开发者像宝可梦进化成超级英雄一样,比试图取代他们要有趣得多,他引用自己早年的观点并感叹如今一个真正优秀的人能创造出惊人的成果。
来源:
- @sama: https://x.com/sama/status/2052462271667028211 | https://x.com/sama/status/2052485051812909530
统计
- 扫描时间线条数:240
- 命中博主数:25
- 命中推文总数:136
- 加权推文分:101.95
- 原创推文数:67
- RT 推文数:39
- 抓取尝试次数:1
- 边界覆盖状态:完整(Following 时间线尾部已明确越过昨日边界)
邮件发送失败:CloudFront 403 Request blocked