AI Infra Brief｜物理 AI 资本涌入与推理速度新纪录（2026.02.27）

2026 年 2 月 27 日，AI 基础设施领域迎来"Agent 自主化"与"沙箱隔离"的重要进展。Perplexity Computer 和 Cursor Agents 让每个 Agent 拥有独立计算环境，30% 的 Cursor 内部 PR 现已由自主 Agent 创建。同时，Qwen 3.5 Medium 开源模型发布，35B 模型每 Token 仅激活 3B 参数。Union.ai 和 Encord 共融资近亿美元，聚焦物理 AI 数据基础设施。

🧭 核心速览

💻 Perplexity Computer：19 模型编排 Agent 系统

🤖 Cursor Agents：30% 内部 PR 由自主 Agent 创建

🧠 Qwen 3.5 Medium 开源：35B 激活 3B 参数

🎮 Claude Code 推出远程控制功能

💰 Union.ai 完成 3810 万美元 A 轮融资

🤖 Encord 获得 6000 万美元 C 轮融资

⚡ Mercury 2 达到 1000 tokens/秒推理速度

📡 Qualcomm 展示 AI 原生 6G 技术

算力与云基础设施

💰 Union.ai：3810 万美元 A 轮推动 AI 开发平台商业化

根据 Union 官方博客报道，Union.ai 完成 3810 万美元 A 轮融资，用于商业化 Union 2.0 平台。该平台基于 Flyte 构建，提供纯 Python 编写、动态工作流和容错管道，支持训练、推理和可观测性。

Union 2.0 的核心价值在于整合端到端 AI 开发流程，通过动态工作流和崩溃恢复能力提升 AI 基础设施的可靠性。

🤖 Encord：6000 万美元 C 轮扩展物理 AI 数据基础设施

根据 PR Newswire 报道，Encord 获得 6000 万美元 C 轮融资，用于扩展物理 AI 的数据基础设施。平台管理多模态传感器数据，覆盖机器人和自主系统的全生命周期。

物理 AI 的兴起催生了对专用数据基础设施的需求，Encord 的融资显示投资者正将目光从通用 AI 转向具身智能和机器人领域。

🔧 ElastixAI：FPGA 推理平台挑战 GPU

根据 Engineering 报道，ElastixAI 推出基于 FPGA 的推理平台，作为数据中心生成式 AI 工作负载的 GPU 替代方案，强调通过 FPGA 并行性提升效率。

FPGA 的可编程特性使其在特定工作负载下可能提供比 GPU 更高的能效比，为推理基础设施提供了多元化选择。

🌐 VAST Data：AI 操作系统统一存储与调度

根据 SiliconAngle 报道，VAST Data 发布其 AI 操作系统，统一存储、全球文件系统和索引，以及 GPU 感知调度器，定位为从云到边缘的基础平台。

VAST Data 的 AI OS 试图在存储和计算之间建立更紧密的协同，为 AI 工作负载提供端到端优化的基础设施。

💻 Dell：AI 服务器积压订单达 220 亿美元

根据 Markets 报道，Dell 的 AI 服务器积压订单约为 220 亿美元，同时 ISG 收入同比增长 32%。这一数据反映了企业对 AI 硬件的持续强劲需求。

模型推理与优化

🚀 NVIDIA：TensorRT-LLM AutoDeploy 缩短优化周期

根据 NVIDIA 官方 X 账号消息，NVIDIA 强调 TensorRT-LLM AutoDeploy 可将优化周期从数周压缩至数天。

AutoDeploy 的核心价值在于降低推理优化的工程门槛，使更多团队能够快速部署高性能推理服务。

⚡ InceptionLabsAI：Mercury 2 达到 1000 tokens/秒

根据 X 平台讨论，InceptionLabsAI 的 Mercury 2 — 一个基于扩散的非自回归 LLM — 声称在 Blackwell 上达到约 1000 tokens/秒，提示了一种与传统自回归解码不同的加速路径。

扩散模型在文本生成领域的应用仍在探索阶段，Mercury 2 的性能表明非自回归方法可能在推理速度上具备优势。

智能体基础设施与开发工具

💻 Perplexity Computer：19 模型编排的 Agent 系统

根据 Perplexity 官方消息，Perplexity Computer 是一个多模型 Agent 系统，包含 19 个 AI 模型、多个并行子代理和一个编排器，实现零标签页切换的自主工作流。Claude Opus 4.6 作为核心推理引擎，负责将子任务路由到不同模型并编排多个 Agent。

Perplexity Computer 的核心特性包括：多模型动态路由（每个子任务自动分配给最适合的模型）、沙箱执行（每个任务在隔离的虚拟环境中运行）、持久化记忆与连接器（跨会话记忆过去工作，连接数百个外部服务），以及基于用量的计费模式（Max 订阅者每月 10,000 积分）。

🤖 Cursor Agents：每个 Agent 拥有独立虚拟机

根据 Cursor 官方消息，超过 30% 的 Cursor 内部合并 PR 现在由在云沙箱中自主运行的 Agent 创建，这一能力现已向所有用户开放。每个云 Agent 都获得自己的独立虚拟机，配备完整的开发环境，能够与它们构建的软件交互，并生成视频、截图和日志等产出物来验证工作。

Cursor Agents 的关键特性包括：在隔离 VM 中并行执行（每个 Agent 独立运行，消除资源冲突）、自验证输出（Agent 不仅编写代码，还在沙箱中构建、运行并与软件交互，迭代直到输出被验证）、多平台访问（可从桌面应用、Web、移动端、Slack 和 GitHub 触发），以及远程桌面控制（可直接控制 Agent 的 VM 桌面）。

🧠 Qwen 3.5 Medium：35B 模型仅激活 3B 参数

根据 Qwen 团队官方消息，阿里 Qwen 团队发布了 Qwen 3.5 Medium 系列 — 四个模型（35B-A3B、122B-A10B、27B 和 Flash），其中 35B 模型每 Token 仅激活 3B 参数，性能却超越上一代 235B 旗舰模型。

核心特性包括：混合 Gated DeltaNet + MoE 架构、100 万 Token 上下文、原生多模态。27B 密集模型在 SWE-bench 上与 GPT-5 mini 打平，122B-A10B 在工具使用基准测试中表现优异。Flash API 价格为每百万输入 Token 0.10 美元，内置工具调用。所有模型均为开源权重，采用 Apache 2.0 许可证。

🎮 Claude Code：推出远程控制功能

根据 Anthropic 官方消息，Claude Code 现在提供远程控制功能，让您可以从手机、平板或任何浏览器继续本地编码会话。只需运行 /remote-control 命令并扫描二维码即可。所有内容仍在您的机器上运行（没有任何内容移动到云端），对话在所有连接的设备间保持同步。目前该功能在 Pro 和 Max 计划上提供研究预览版。

📚 Simon Willison：发布智能体工程模式指南

根据 Simon Willison 个人博客，他开始发布《智能体工程模式》，这是一份面向开发者的不断增长的指南，帮助开发者从 Claude Code 和 OpenAI Codex 等编码 Agent 中获得最佳结果。前两章涵盖为什么现在编写代码本质上很便宜，以及红/绿 TDD 如何帮助 Agent 产生更可靠的输出。他计划每周添加 1-2 章。值得注意的是，每个字都是他亲自撰写，而非 LLM 生成。

🔒 Google：限制 Pro/Ultra 订阅者使用 OpenClaw

根据社区消息，Google 正在打击使用 OpenClaw 等第三方工具将 Antigravity Token 导入外部应用的 AI Pro/Ultra 订阅者，这实际上将每月 249 美元的订阅转变为无限 API 访问。Google 表示这是为了保护服务质量免受"恶意使用"的影响。

数据路径与企业级部署

📋 Capxel：LLM-LD 开放标准让网站可被 AI 读取

根据 MarTech Series 报道，Capxel 提出 LLM-LD 开放标准，通过 .well-known 索引和结构化实体使网站可被 AI 读取，包含三个合规级别，据报道已有 100+ 网站上线。

LLM-LD 试图解决 AI Agent 访问 Web 内容的结构化问题，类似于 sitemap 对爬虫的作用，但针对 LLM 进行了优化。

🛣️ Path：AI 原生软件平台统一应用开发

根据 Yahoo Finance 报道，Path 推出 AI 原生软件平台，用于在统一环境中构建和演进应用。

🛡️ NeuralTrust：入选 Gartner 守护代理市场指南

根据 Morningstar 报道，NeuralTrust 被 Gartner《守护代理市场指南》收录，涵盖 LLM 应用和代理的运行时保护、自动红队测试、评估和可观测性。

守护代理（Guardian Agents）成为 LLM 安全的新范式，通过专门的安全代理监控和防护 AI 系统的运行时行为。

☁️ Solo.io：Kagent 框架将 Agent 视为 K8s 一等公民

根据 Virtualization Review 报道，Solo.io 概述使用 kagent 框架和 agentgateway 将代理和技能视为 Kubernetes 一等资源，实现可治理的连接。

将 Agent 映射为 K8s 资源，意味着企业可以用管理容器的方式管理 AI Agent，为大规模 Agent 部署提供治理能力。

🗄️ MongoDB：定位核心 AI 数据层

根据 Seeking Alpha 报道，MongoDB 被定位为核心 AI 数据层，伴随 Atlas 增长。

通信与边缘计算

📡 Qualcomm：展示 AI 原生 6G 愿景

根据 RCR Wireless 报道，Qualcomm 在 MWC 巴塞罗那展示 6G 技术演示 — 包括 Giga-MIMO、子带全双工、上下文感知通信和分布式 AI 服务 — 将 6G 定义为 AI 原生。

Qualcomm 的 6G 愿景显示，下一代移动网络将从"连接设备"演进到"连接智能"，AI 将成为网络协议栈的内生部分。

🏢 HCLTech：MWC 展示 AI 原生电信未来

根据 Newswire 报道，HCLTech 在 MWC 展示智能体欺诈管理、AI 驱动 OSS 和 AIOps。

📶 Capgemini：AI-RAN 将 5G 转为实时边缘增长平台

根据 Capgemini 官方网站报道，Capgemini 描述 AI-RAN 如何在 NVIDIA 加速硬件上将 5G 基础设施转变为实时边缘增长平台。

AI-RAN（AI Radio Access Network）代表电信运营商的 AI 转型路径，通过 AI 优化无线接入网，提升网络效率和边缘计算能力。

市场与产业动态

💰 The Tomorrow Company：构建 AI 原生金融基础设施层

根据 Morningstar 报道，The Tomorrow Company 宣布计划构建 AI 原生金融基础设施层，结合以太坊上的代币化碳资产与智能引擎。

📊 Prompt 生成工具市场：2031 年达 10.18 亿美元

根据 PR Newswire 报道，Prompt 生成工具市场预测显示，将从 2024 年的 4.56 亿美元增长到 2031 年的 10.18 亿美元，CAGR 为 12%。

⚡ WFR：发布 AI 基础设施电力排名

根据 Markets 报道，WFR 发布 AI 基础设施电力排名报告。

社区动态

👥 Block 裁员辩论：AI 工具与生产力提升

根据 Hacker News 讨论，Block 裁员引发辩论，讨论将裁员与"智能工具"和 AI 增强生产力联系起来。

AI 工具对企业组织结构的影响正在显现，一方面提升个人生产力，另一方面可能减少对人力需求的依赖。

🏆 r/LocalLLM：自托管排行榜整合消费硬件基准

根据 Reddit 报道，r/LocalLLM 自托管排行榜整合消费硬件基准，包括高 TPS Apple Silicon 运行数据。

💚 Open Source Endowment：69.3 万美元基金支持关键开源软件

根据 Reddit 报道，Open Source Endowment 启动 69.3 万美元基金，支持包括 AI 工具在内的关键开源软件。

🔍 Infra Insights

本日核心趋势：Agent 获得独立沙箱、模型架构追求效率、资本转向物理 AI。

Perplexity Computer 和 Cursor Agents 让每个 Agent 拥有独立虚拟机，30% 的 Cursor 内部 PR 现由自主 Agent 创建 — 沙箱隔离正在解决 Agent 安全性和可信度的核心难题。Qwen 3.5 Medium 的"35B 激活 3B"设计和 Mercury 2 的 1000 tokens/秒，指向同一方向：从盲目扩大参数规模转向精细化激活和非自回归解码。

Union.ai 和 Encord 的近亿美元融资显示，资本正从通用 LLM 流向物理 AI 和机器人等垂直领域。Google 限制 OpenClaw 使用的举动，则暗示新兴的 AI 基础设施栈正在与现有平台控制权发生摩擦。