AI工具大爆发：这周的模型降价升级都在卷什么

2025年10月18日 · 1828 字 · 4 分钟 · AI工具 Claude OpenAI 视频生成开源模型

10-18本周AI技术周报封面

这一周，AI圈最热闹的关键词大概就是"降价"了。

Anthropic推出的Claude Haiku 4.5，以三分之一的成本和两倍的速度，达到了与Sonnet 4相当的编程能力。GitHub Copilot、OpenRouter等平台已经同步上线。对开发者来说，这意味着更低的使用门槛和更高的性能，真正的"又快又便宜"。

OpenAI也没闲着，发布了基于GPT-5的搜索模型API，价格直降60%，每千次调用10美元，还支持按域名过滤结果。虽然有人觉得还是有点贵，但相比之前的定价，这已经是大幅让利了。

这些降价动作背后，折射出的是AI行业从"技术军备竞赛"向"商业化落地"的转变。当模型性能逐渐趋同，成本与体验成为了新的战场。

如果说降价是AI圈的"明线"，那"加量不加价"就是这周的"暗线"。

谷歌的Veo 3.1视频生成模型正式上线Flow平台，向Gemini API、Vertex AI与Gemini应用全面开放。这次升级不仅能生成自带音效的视频，叙事控制能力也大幅提升，纹理渲染更加逼真。

最良心的是，3.1版本与3.0的API价格完全一致——这在AI圈简直是良心中的良心。毕竟，在这个"人人都想赚快钱"的时代，能做到"加量不加价"的公司并不多。

另一个值得关注的是NotebookLM的视频概览功能更新。新增了六种由Nano Banana提供配图支持的视觉风格，彻底告别了以往固定主体动态颜色的限制。虽然目前仅支持Pro用户，但官方表示未来会逐步覆盖全体用户。

在海外大厂"卷"降价的同时，国产AI也没闲着，而且走的是另一条路——开源。

阿里这周动作频频。先是推出了Qoder CLI，这是一款多智能体编程引擎，支持Windows与macOS一键安装，搭载的是与IDE同款的编程Agent能力。紧接着，又开源了Qwen3-VL的4B和8B版本，显存占用更低，功能却完整保留。

更夸张的是，官方测试数据显示，Qwen3-VL在STEM、VQA、OCR、视频理解等多项测试中，超过了Gemini 2.5 Flash Lite和GPT-5 Nano，有些表现甚至能媲美Qwen2.5-VL-72B。这种"小模型打败大模型"的故事，在国产AI圈正在成为常态。

另一个值得关注的是Nanonets开源的OCR 2系列模型，专注于将图像文档转换为结构化Markdown，并支持视觉问答功能。基于Qwen2-VL微调而来，3B版本在超过300万页的混合文档上进行训练，覆盖了论文、财报、合同、病历、税表、收据、手写及多语种材料。

这周还有两条消息，技术含量不算最高，但话题性十足。

一是微软发布了首款自研图像生成模型MAI-Image-1，目前在LMArena竞技场上排名第九。虽然只能在LMArena上使用，但官方表示后续会优先面向Copilot和Bing Image Creator中提供。微软终于不再只做"接入方"，而是开始做"生产方"了。

二是OpenAI CEO Sam Altman在推特上宣布，未来几周将推出一个新版GPT，回复更加人性化，就像你的朋友那样。更劲爆的是，12月将推出更全面的年龄限制，允许GPT在验证成年身份的情况下提供"涩涩内容"。

好家伙，第一生产力来了。

回头看这一周的AI圈，你会发现一个有趣的现象：大家都在"卷"，但卷的方向变了。

以前是卷参数、卷性能、卷Benchmark；现在是卷价格、卷体验、卷开源。当AI不再只是实验室里的"黑科技"，而开始进入普通人的日常工作流，这个行业才真正走向成熟。

或许这才是AI的意义：不是让少数人用上最强的工具，而是让更多人用上够用的工具。

相关链接：