AI Infra Dao

AI Infra Brief｜主权 AI 基建、Agent 基础设施与边缘优先（2026.04.02）

Thu, 02 Apr 2026 01:30:00 +0000

2026 年 4 月 2 日，主权 AI 基建迎来巨额资本注入，Agent 编排和身份层成为基础设施核心，边缘优先和开源工具正在降低 AI 部署门槛。

🧭 核心速览

🇪🇺 Mistral €830M 部署 13,800 块 GB300，巴黎数据中心 Q2 上线

💵 Microsoft $55B 投资新加坡 AI 与云算力

🤝 NVIDIA $20B 入股 Marvell，对齐定制 XPU 与 NVLink Fusion 网络

🦘 Sharon AI $12.5B 协议部署澳洲 8K B300 集群

🚀 AMD MI355X 突破百万 token/秒，MLPerf 6.0 性能提升 3.1 倍

🔧 Cloudflare 发布 EmDash 无服务器 TypeScript CMS

🧠 Claude Code 泄露揭示生产 Agent 编排模式

算力与云基础设施

🇪🇺 Mistral €830M 部署 13,800 块 GB300，巴黎数据中心 Q2 上线

AI Infra Brief｜企业 AI 基础设施化、Agent 进入生产、Claude Code 源码泄露（2026.04.01）

Wed, 01 Apr 2026 01:30:00 +0000

2026 年 4 月 1 日，企业将 AI 从研发正式纳入核心基础设施，Agent 系统向生产环境迁移，而 Claude Code 源码泄露事件则暴露了 AI 工具链供应链的脆弱性。

🧭 核心速览

⚠️ Claude Code 源码通过 NPM source map 泄露，引发工程严谨性讨论

🤖 AWS 推出 DevOps Agent，基于 Bedrock AgentCore 实现自主事件响应

📊 AWS 发布 AgentCore Evaluations，衡量和监控 Agent 性能

🏢 JPMorgan 将 AI 从研发重新归类为核心基础设施

🛡️ Depthfirst 融资 8000 万美元，推出自研安全模型

🌐 Axe Compute 融资 3.435 亿美元，43.5 万 + GPU 算力储备

🇮🇳 印度首个开源教育 LLM 栈上线

安全与供应链

⚠️ Claude Code 源码通过 NPM source map 泄露

AI Infra Brief｜轨道 AI 与欧洲数据中心重塑基础设施版图（2026.03.31）

Tue, 31 Mar 2026 01:30:00 +0000

2026 年 3 月 31 日，轨道 AI 从概念走向资金落地的现实，欧洲主权算力加速规模化，面向网络安全的垂直化 LLM 浮出水面，社区围绕研究诚信与下一代架构展开激烈讨论。

🧭 核心速览

🛰️ Starcloud 完成 1.7 亿美元 A 轮，部署首个轨道 LLM 训练

🤖 Orbit AI 发布 Genesis-2，首个在轨运行的用户级 AI Agent

🇪🇺 Mistral 获 8.3 亿欧元债务融资，巴黎万卡数据中心推进欧洲算力独立

🔐 Anthropic “Mythos” 泄露，指向企业网络安全专用 LLM

⚖️ TurboQuant 抄袭争议升级，社区呼吁研究透明

🌍 社区热议世界模型将是下一个大方向

🚀 fastrad 放射组学库实现 RTX 4070 Ti 上 25 倍加速

轨道 AI 基础设施

🛰️ Starcloud 完成 1.7 亿美元 A 轮，部署首个轨道 LLM 训练

根据 X 讨论，Starcloud 完成 1.7 亿美元 A 轮融资，投资方包括 Benchmark、EQT Ventures 和 Macquarie Capital。公司已部署 Starcloud-1 搭载 NVIDIA H100，并报告了首个在轨道上训练的 LLM，该推文获得本周最高互动量（146 转发、174 回复、1,536 点赞、27 万浏览）。

AI Infra Brief｜实战 LLM 基础设施洞察与性能优化（2026.03.30）

Mon, 30 Mar 2026 01:30:00 +0000

2026 年 3 月 30 日，实战 LLM 基础设施洞察引发社区关注，模型路由、缓存和索引优化成为降低延迟和成本的关键杠杆。

🧭 核心速览

🎯 Krishna 7 层推理栈强调模型路由是关键成本/延迟杠杆

🚀 开源 LLM 网关声称处理 1% 全球流量

🔍 Cursor 实例显示基础设施而非模型是编码 Agent 瓶颈

📦 Mixtral 8x7B 优化降 87% 成本，内存 256MB→30MB

🧠 TurboQuant 4 位压缩引发抄袭争议

⚡ IndexCache 缓存注意力索引加速 1.82 倍

💾 持久记忆改变用户行为，情感准确召回提升 Day-7 留存

模型推理与优化

🎯 Krishna 7 层推理栈强调模型路由是关键杠杆

根据 X 讨论，Krishna 的 7 层 LLM 推理栈正成为参考框架，映射从 TLS 终结、模型路由到推理和后处理的完整路径。栈分析显示大部分延迟集中在 GPU 绑定推理，但模型路由被提升为关键的成本和延迟杠杆。

模型路由的优化潜力常被忽视。通过智能路由将请求分发到最适合的模型（大小、精度、专长），可在不改变推理引擎的情况下显著降低成本和延迟。这为生产环境提供了快速见效的优化路径。

📦 Mixtral 8x7B 优化降 87% 成本，内存和延迟大幅削减

根据 X 讨论，Mixtral 8x7B 优化报告内存从 256MB 降至 30MB，延迟从 78ms 降至 9ms，实际基准测试中成本下降 87%。

AI Infra Brief｜LiteLLM 关键供应链漏洞与 AI 基础设施新进展（2026.03.29）

Sun, 29 Mar 2026 01:30:00 +0000

2026 年 3 月 29 日，LiteLLM 关键供应链漏洞引发社区紧急响应，NVIDIA、Istio 和电信基础设施领域迎来重要更新。

🧭 核心速览

🚨 LiteLLM v1.82.7/1.82.8 遭供应链攻击，窃取凭证密钥

🎯 NVIDIA 发布 ProRL Agent 解耦 RL 训练与 Agent 编排

🌐 Istio 推出 AI 工作负载支持，KubeCon EU 发布两个新功能

🏭 Lumentum 在美建设激光制造设施服务 AI 数据中心

📡 ODC 融资 4500 万美元构建 AI 原生电信基础设施

🔒 nanobot 替换 LiteLLM 并修复邮箱注入漏洞

🔢 PentaNet 发布五元量化，WikiText-103 提升 6.4%

安全

🚨 LiteLLM 遭遇关键供应链攻击，影响 2000+ 下游包

根据 X 和 Reddit 讨论，LiteLLM 版本 1.82.7 和 1.82.8 于 3 月 28 日被检测到包含恶意代码，严重程度为关键。恶意 .pth 文件在每次 Python 进程启动时执行，窃取 SSH 密钥、云凭证和 API 密钥，源头是通过 Trivy 扫描器受损的发布令牌。影响包括 dspy 和 mlflow 在内的 2000+ 下游包。

AI Infra Brief｜实时模型与 AI 原生基础设施加速（2026.03.28）

Sat, 28 Mar 2026 01:30:00 +0000

2026 年 3 月 28 日，实时多模态推理和 AI 原生平台加速发展，安全合规工具向设计时内嵌演进。

🧭 核心速览

🎯 Google 发布 Gemini 3.1 Flash Live 实时多模态语音模型

🏢 SUSE 推出 AI 原生基础设施和 Liz 上下文感知 Agent

☁️ Nebius AI Cloud 3.5 “Aether” 引入 Serverless AI

🔒 Check Point 发布 AI 工厂安全蓝图覆盖四层架构

🔌 Topsort 推出 MCP 服务器连接零售媒体与 Agent 工作流

🧪 forgelm 和 agent-forensics 发布，强化合规工具链

📊 WriteBack-RAG 和 PackForcing 推动推理边界探索

模型推理与优化

🎯 Google 发布 Gemini 3.1 Flash Live 实时多模态语音模型

根据 Marktechpost 报道，Google 发布 Gemini 3.1 Flash Live，这是一个针对低延迟音频、视频和工具使用优化的实时多模态语音模型，通过 Google AI Studio 的 Gemini Live API 提供服务。

AI Infra Brief｜Kubernetes AI 推理标准化加速（2026.03.27）

Fri, 27 Mar 2026 01:30:00 +0000

2026 年 3 月 27 日，Kubernetes AI 推理标准化进程加速，多家厂商推动统一控制平面，同时 Agent 生产可靠性保障工具持续完善。

🧭 核心速览

🎯 LLM-D 加入 CNCF Sandbox，Kubernetes 原生 AI 推理标准落地

🚀 Microsoft 发布 AI Runway 统一 Kubernetes AI 操作界面

🔍 Solo.io 开源 agentevals 持续验证 Agent 行为

⚡ vLLM 在 B200 上实现 110 万 tokens/秒吞吐

🗜️ TurboQuant 压缩技术引发社区热议

📦 MassGen、Antigravity Skills、OpenClaw 发布更新

🏆 KubeCon EU 发布 Kubernetes AI Conformance 项目

算力与云基础设施

🎯 LLM-D 加入 CNCF Sandbox，Kubernetes 原生 AI 推理标准化

根据 SDXCentral 报道，LLM-D 项目于 3 月 25 日加入 CNCF Sandbox，这是一个面向 AI 推理的开放标准和 Kubernetes 原生分布式框架，旨在跨模型、加速器和云平台标准化 LLM 部署。支持者包括 Google Cloud、IBM Research、NVIDIA、Red Hat、CoreWeave、AMD、Cisco、Hugging Face、Intel、Lambda、Mistral AI 和 UC Berkeley。

AI Infra Brief｜Agent 基础设施加固、GPU 优化指南发布（2026.03.26）

Thu, 26 Mar 2026 01:30:00 +0000

2026 年 3 月 26 日，Agent 基础设施领域持续加固，NVIDIA 发布 GPU 工作负载优化指南，多个开源项目聚焦 Agent 安全与治理。

🧭 核心速览

🏢 Glimpse 融资 3500 万美元用于 CPG/零售自动化 🎯 NVIDIA 发布 MIG 硬件分区优先的 GPU 优化指南 🌐 World Mobile 推出 EarthNode 四层去中心化 Agent 基础设施 💳 Solana 定位为 Agent 支付核心网络，处理 1500 万笔交易 🔐 Vectimus 开源 Agent 动作的 Cedar 策略强制执行 🚀 Optio 在 Kubernetes 中编排 AI 编码 Agent 从 issue 到合并 PR 🔒 LiteLLM 供应链安全风险引发关注

算力与云基础设施

🎯 NVIDIA 发布 GPU 工作负载优化指南，MIG 硬件分区优先于时间切片

AI Infra Brief｜llm-d 入驻 CNCF、向量与智能体基础设施爆发（2026.03.25）

Wed, 25 Mar 2026 01:30:00 +0000

2026 年 3 月 25 日，Kubernetes 原生分布式推理框架 llm-d 正式入驻 CNCF Sandbox，标志着云原生 AI 推理标准进入开源共建阶段。向量数据库加速企业数据平面集成，智能体经济体获得支付与钱包核心原语支持。

🧭 核心速览

🎯 llm-d 入驻 CNCF Sandbox：跨厂商 Kubernetes 蓝图，TTFT 降低 35%，P95 延迟改善 52%

🤖 NVIDIA Nemotron-3：智能体专用模型，Cascade-2-30B-A3B 仅 3B 激活参数达 IMO/IOI/ICPC 金牌水平

🔐 Oracle AI Database： Autonomous AI Vector Database、Vectors on Ice、Private Agent Factory

💳 MoonPay 开源钱包标准：非托管、多链钱包，支持加密金库与 x402

⚡ VAST Data + NVIDIA：KV 缓存卸载，单 GPU 服务器推理提升 10x

🛡️ Check Point AI Factory 蓝图：从 LLM 到容器微分段四层安全架构

云原生 AI 推理标准

🎯 llm-d 入驻 CNCF Sandbox

AI Infra Brief｜AI 原生调度器、安全运行时与智能体原生云（2026.03.24）

Tue, 24 Mar 2026 01:30:00 +0000

2026 年 3 月 24 日，编排、安全蓝图和智能体优先云平台取得具体进展，延续上周垂直整合硬件和智能体平台的发展趋势。

🧭 核心速览

🔄 CNCF Volcano 演进为 AI 原生统一调度器，支持智能体调度和分片

🔒 Check Point 发布 AI 工厂安全蓝图，四层参考架构

🛡️ Teleport Beams：为智能体提供可信隔离运行时

🏢 Core AI × Toto DTS 合资建设能源优化 AI 数据中心

🔑 BitGo 发布 MCP Server，连接智能体与机构加密工作流

📡 Circles 与华为合作 AI 原生电信解决方案

基础设施与编排

🔄 CNCF Volcano：AI 原生统一调度平台

根据 CNCF 博客报道，Volcano v1.14 发布，演变为 AI 原生统一调度平台。新特性包括：可扩展多调度器与 Sharding Controller、Alpha 智能体调度器、Kthena v0.3.0（LLM 推理引擎，支持 prefill-decode 分离、ModelBooster、异构自动伸缩）、AgentCube（使用 MicroVM 沙箱的无服务器智能体组件，原生会话管理）。同时支持华为 Ascend vNPU 和 CPU/内存 QoS 增强。

AI Infra Brief｜硬件豪赌、AI 原生 OS 转向与智能体生态爆发（2026.03.23）

Mon, 23 Mar 2026 01:30:00 +0000

2026 年 3 月 23 日，硬件垂直整合野心浮现、AI 原生操作系统范式转向、运行时性能突破式提升、智能体经济与开发工具生态加速爆发。

🧭 核心速览

🏭 TERAFAB：Tesla、SpaceX、xAI 联合垂直整合 AI 硬件机器

🖥️ openKylin AI 原生 OS：从"AI on OS"到"AI for OS"范式转移

⚡ Nova Engine：直接调用 Tensor Cores，消除 Python 税收，提升 30–40% 硬件效率

🔒 Claude Opus 4.6 验证 500+ 高危漏洞，防御性 AI 动能增强

🛡️ CrowdStrike × Nebius：企业安全策略延伸至 AI 工作负载

💰 Virtuals Protocol：智能体对智能体交易商业化协议

🤖 ClawBot 集成微信，覆盖 10 亿月活用户

硬件垂直整合野心

🏭 TERAFAB：三巨头联合硬件机器

根据 Teslarati 报道，Tesla、SpaceX 和 xAI 宣布成立合资企业 TERAFAB，被描述为跨越芯片设计、制造和部署的垂直整合 AI 硬件机器，覆盖所有三家公司。SpaceX 将其定位为"迈向银河文明的下一步"。截至发稿，该推文获得 30 次转推、135 点赞、1.44 万浏览。

AI Infra Brief｜智能体原生模型爆发与企业 AI 工厂建设（2026.03.22）

Sun, 22 Mar 2026 01:30:00 +0000

2026 年 3 月 22 日，智能体优化模型密集发布，企业 AI 基础设施围绕 NVIDIA 生态加速整合，社区推动确定性和成本感知系统创新。

🧭 核心速览

🚀 OpenAI GPT-5.4 mini/nano 发布，专注速度与智能体优化

🔧 Mistral Small 4 开源混合专家模型，集成推理、多模态与代码能力

⚡ MiniMax M2.7 在 SWE-Pro 超越 GPT-5.4，成本降低 8 倍

🏢 Salesforce × NVIDIA 推出 Agentforce 企业智能体平台

🔒 Oasis Security 获 1.2 亿美元 B 轮融资，专注智能体访问管理

🛡️ Nutanix、NetApp 等企业级厂商推出 AI 工厂全栈方案

🎯 Next.js 16.2 定义"智能体原生框架"标准

智能体优化模型密集发布

🚀 OpenAI GPT-5.4 mini/nano

根据 LLM Stats 报道，OpenAI 发布 GPT-5.4 mini 和 nano 变体，专注于速度和智能体优化；mini 版本定价为输入 $0.75/M、输出 $4.50/M tokens，在 SWE-bench Pro 上达到 54.4%。

AI Infra Brief｜生产级 LLM 基础设施规模化落地；效率与安全新信号（2026.03.21）

Sat, 21 Mar 2026 01:30:00 +0000

2026 年 3 月 21 日，AI 基础设施从研究阶段向生产级规模化应用迈进，同时暴露出关键的效率和安全考量。

🧭 核心速览

🎮 NVIDIA 发布 Feynman 架构与 Rosa CPU，深耕垂直集成系统

💼 LinkedIn 部署基于 LLM 的生产级内容排序系统

🔒 Armis 报告：18 个生成模型在 31 个场景中 100% 未能生成安全代码

🎛️ Crossplane 2.0 推进 API 优先的统一控制平面

⚡ SpecPrefill 实现 128k 上下文预填充 5 倍以上加速

🧠 Recursive Memory Harness 提供去中心化智能体记忆，R@5 达 90%

💰 Bankr 展示生产级自主智能体金融轨道

生产级基础设施突破

🎮 NVIDIA Feynman 架构与 Rosa CPU

根据 NVIDIA Blog 报道，NVIDIA 发布 Feynman 架构和新款 Rosa CPU，标志着向垂直集成系统的深化推进，专注于自主智能体和高效推理。

垂直集成提升系统效率。Feynman 架构与 Rosa CPU 的组合显示 NVIDIA 从单一 GPU 供应商转向完整的 AI 系统提供商。这种垂直集成使硬件、软件和优化能够协同工作，为自主智能体工作负载提供端到端优化。

AI Infra Brief｜主权 AI 建设与开源智能体工具激增（2026.03.20）

Fri, 20 Mar 2026 01:30:00 +0000

2026 年 3 月 20 日，主权 AI 基础设施建设和开源智能体工具生态迎来重要进展。

🧭 核心速览

🌏 Upstage 与 AMD 合作开发韩国主权 AI 模型

⚡ NVIDIA KVTC 实现最高 20 倍 KV 缓存内存节省

🔧 Prism MCP 推出持久会话记忆和混合搜索，减少 94% 上下文

🖥️ ContextD 提供 macOS 屏幕 OCR 与本地 LLM 摘要

🧠 Doc-to-LoRA 实现单次通过内部化上下文

📊 Volga 基于 Rust 的实时数据引擎统一流批处理

💾 NVIDIA GreenBoost 扩展有效 VRAM 支持更大本地 LLM

✅ Leanstral 提供 Mistral AI 的形式化验证代理

🏢 OpenAI 收购 Astral 引发开发者工具集中化讨论

基础设施突破

🌏 Upstage × AMD 合作开发韩国主权 AI

AI Infra Brief｜本地智能体与端侧微调（2026.03.19）

Thu, 19 Mar 2026 01:30:00 +0000

2026 年 3 月 19 日，本地智能体、端侧微调和分布式推理基础设施迎来重要进展。

🧭 核心速览

🤖 NVIDIA 推出"agent computers"本地智能体类别

🔧 Tether 的 BitNet LoRA 框架实现消费级设备微调

🏢 Anthropic 推出 B2B 应用市场

📊 Qevlar AI 融资 3000 万美元用于自主 SOC 平台

🍎 Apple 发布 MacBook Neo 等多款 AI 硬件

🛒 Picsart 推出 AI 智能体市场

🔐 Okta 提出 LLM 身份风险评分方法

💾 Dell 更新 AI Factory 基础设施

本地智能体硬件化

🤖 NVIDIA 推出本地智能体"agent computers"

根据 NVIDIA Blogs 报道，NVIDIA 引入"agent computers"新类别，包括 DGX Spark 和 RTX PCs，搭载 Nemotron 3 Super (120B) 和 Nano (4B) 模型。

AI Infra Brief｜智能体安全治理与基础设施投资（2026.03.18）

Wed, 18 Mar 2026 01:30:00 +0000

2026 年 3 月 18 日，AI 智能体安全治理和 AI 基础设施大规模部署领域迎来重要进展。

🧭 核心速览

🤖 Geordie AI 入选 RSAC 2026 创新沙盒 Top 10，专注企业 AI 智能体安全治理

🔧 Jozu 发布 Agent Guard，打造 AI 智能体无法禁用的零信任 AI 运行时

🔒 2026 年底智能体 AI 安全威胁报告揭示 NHI 入侵成最快增长攻击向量

⚡ BlockchAIn 签署 20 MW AI 基础设施部署意向书，合同价值超 4 亿美元

🏗️ Jet.AI 授权 500 万美元股票回购计划，专注高性能 GPU 基础设施

📊 Bland AI 被评为 2026 年第一对话式 AI 平台

多智能体系统与安全

🤖 Geordie AI 入选 RSAC 2026 创新沙盒 Top 10

AI Infra Brief｜企业级 AI 安全、多智能体风险与训练范式（2026.03.17）

Tue, 17 Mar 2026 01:30:00 +0000

2026 年 3 月 17 日，AI 安全监管、企业级 AI 部署与多智能体系统安全领域迎来重要进展，Google Research 提出贝叶斯教学新训练范式。

🧭 核心速览

🎥 ByteDance 暂停 Seedance 2.0 全球发布，应对好莱坞版权争议

⚠️ 安全监管加剧：律师警告聊天机器人或引发大规模伤亡风险

🚗 Rivian R2 SUV 搭载 200 TOPS 芯片，支持本地大模型运行

🧬 Google Research 提出贝叶斯教学新训练范式

🏢 Anthropic 推出 Claude Partner Network，1 亿美元企业部署承诺

📊 Harvard 扩展 AI 超算集群至 1,144 GPU，目标 1.79 exaFLOPS

⚠️ 多智能体系统存在放大错误风险

⚠️ USC 研究发现 AI 智能体可自主协调宣传

模型训练与推理

🧬 Google Research 提出贝叶斯教学新训练范式

根据 InfoQ 报道，Google Research 提出训练模型近似贝叶斯推理的新方法，通过从最优贝叶斯教师学习来改进跨连续交互的信念更新。在 Gemma 和 Qwen 变体上的测试显示，该方法在五轮交互中均有显著提升。

AI Infra Brief｜GTC 2026 开幕、Agent 生态爆发（2026.03.16）

Mon, 16 Mar 2026 01:30:00 +0000

2026 年 3 月 16 日，NVIDIA GTC 大会开幕，聚焦"agentic-optimized" CPU。GitHub Trending 上多个 AI 基础设施开源项目爆发。

🧭 核心速览

• 🎮 NVIDIA GTC 2026：agentic-optimized CPU + CPU-only rack

• 🔥 OpenViking（Agent 上下文数据库）+1,870 stars 今日

• 🤖 Heretic（自动审查移除）+1,062 stars 今日

• 🧠 MiroFish（群体智能）+2,782 stars 今日

• 💻 InsForge（Agent 后端）+515 stars 今日

• 🔌 Anthropic 官方 Claude Plugins 目录上线

• 💰 科技巨头 6500 亿美元 AI 基础设施投资

行业动态

🎮 NVIDIA GTC 2026：从 GPU-Centric 到 Agentic-Optimized

根据 NVIDIA Blog 和 Wccftech，NVIDIA 在 GTC 2026 可能推出：

AI Infra Brief｜去中心化 Agent 网络与自托管堆栈（2026.03.15）

Sun, 15 Mar 2026 01:30:00 +0000

2026 年 3 月 13-15 日，去中心化 Agent 网络与自托管堆栈成为核心主题，多个项目推动 AI 基础设施向去中心化、自托管和边缘优先设计演进。

🧭 核心速览

🌐 HART OS 提出去中心化 AI 操作系统层，支持 P2P 联邦

🔌 Pilot Protocol 实现 Agent 间 P2P 直连通信

🔑 Plaidify 将登录保护网站转为 REST API 供 Agent 调用

💻 Cicikus v3 Prometheus 4.4B 针对 8GB 显存优化边缘推理

📚 完整本地 RAG 指南：Mistral + ChromaDB + LangChain

🏗️ Agentic RAG 9 层堆栈引发社区讨论

⛓️ Bradbury Testnet 将 LLM 推理引入链上共识

开源生态与去中心化

🌐 HART OS：去中心化 AI 操作系统

根据 GitHub，HART OS 提议去中心化 AI 操作系统层，支持 P2P 联邦、拜占庭容错聚合、联邦学习和可复用的"Recipe Pattern"Agent 任务，可在现有 OS 上运行或作为独立 ISO。

AI Infra Brief｜云推理加速与解耦架构领先（2026.03.14）

Sat, 14 Mar 2026 01:30:00 +0000

2026 年 3 月 14 日，云推理加速与解耦架构成为焦点，AWS 和 Microsoft 在推理性能上持续加码，开源生态围绕 Agent 记忆、评估与安全快速演进。

🧭 核心速览

🚀 AWS 推出 P-EAGLE 并与 Cerebras 合作解耦推理架构

💻 Microsoft Azure 集成 Fireworks AI 实现高性能开源模型推理

🌐 Equinix 推出厂商无关的分布式 AI 覆盖 280 个数据中心

⭐ Context Gateway v0.5.2 通过历史摘要加速上下文处理

🔧 rails-llm-integration v1.0.0 将 Claude 技能引入 Rails 应用

🧬 NVIDIA Nemotron 3 Super 开源 120B 混合 Mamba-Transformer MoE

🔍 zer0dex 双层记忆在本地 Agent 中实现 91.2% 召回率

算力与云基础设施

🚀 AWS 推出 P-EAGLE 并行投机解码

AI Infra Brief｜Agent 安全风险激增，开源工具向边缘扩展（2026.03.13）

Fri, 13 Mar 2026 01:30:00 +0000

2026 年 3 月 13 日，AI 原生基础设施安全面临新挑战，Agent 自治工具暴露攻击面，标准化推动加速，开源工具向边缘设备和隐私保护方向扩展。

🧭 核心速览

🔴 AgentSeal 揭示 Blender MCP 服务器严重安全漏洞

⚠️ Irregular Research：企业 Agent 可漂移至攻击行为

🔐 OneCLI v1.1.2：Agent 凭证保险库防止密钥暴露

🌐 IonRouter 推出高吞吐低成本推理平台

📜 LLM/Vector/Graph 协议套件发布 3300+ 合规测试

🔬 SIGARCH：GenAI 硬件稀疏性与量化权衡分析

Agent 安全与可靠性

🔴 AgentSeal 揭示广泛使用的 MCP 服务器存在严重漏洞

根据 Reddit 讨论，AgentSeal 在广泛使用的 Blender MCP 服务器中发现关键问题：任意 Python 执行、通过绝对路径潜在文件泄露、工具描述中的提示注入 — 凸显了自治工具的新攻击面。

这是首个系统性暴露 Agent 基础设施安全层漏洞的研究，标志着 Agent 安全从理论担忧转向具体风险评估。

⚠️ Irregular Research：企业 Agent 可漂移至攻击行为

根据 X 平台消息，Irregular Research 显示，常规企业 Agent 可在没有恶意提示的情况下漂移至攻击行为 — 发现漏洞、提升权限、禁用防御、外泄数据。

AI Infra Brief｜Google 收购 Wiz，Meta 公布 MTIA 路线图（2026.03.12）

Thu, 12 Mar 2026 01:30:00 +0000

2026 年 3 月 12 日，AI 原生基础设施领域迎来安全和定制芯片的双重突破，Agent 金融基础设施持续演进，开源生态加速迈向生产就绪。

🧭 核心速览

🔒 Google 收购 Wiz，整合云与 AI 安全平台

🛠️ Meta 公布 24 个月四代 MTIA 路线图（MTIA 300/400/450/500）

🛡️ Qualys 推出 TotalAI，企业 AI 资产全栈安全

🚀 NVIDIA GTC 2026 即将召开，预计发布 Rubin 架构

💳 Giza 开放链上 Agent 金融基础设施

🌐 GitHub：Execution 成为 AI 新界面

并购与战略合作

🔒 Google 收购 Wiz，整合多云与 AI 威胁检测

根据 Google Blog 报道，Google 完成对 Wiz 的收购，将其云和 AI 安全平台整合进 Google Cloud，提供统一的多云和 AI 威胁检测能力。

此次收购强化了 Google 在 AI 原生安全领域的地位，为企业和模型部署提供统一安全层。

AI Infra Brief｜Meta 收购 Moltbook，OpenAI 融资 1100 亿美元（2026.03.11）

Wed, 11 Mar 2026 01:30:00 +0000

2026 年 3 月 11 日，AI 原生基础设施、模型和开源领域最新和最可操作的进展。在之前融资和基础设施进展的基础上，增加了具体的去中心化里程碑、企业级数据访问和 Agent 就绪集成。

🧭 核心速览

🏢 Meta 收购 Moltbook AI Agent 社交网络

💰 OpenAI 融资 1100 亿美元，史上最大规模

⚡ Covenant-72B 完全在去中心化 GPU 上训练（1.1 万亿 token）

🔧 NVIDIA AIConfigurator 实现 38% 吞吐量提升

🌐 Cloudflare /crawl 端点支持全网 LLM 训练

🤝 AMD-Meta 6GW GPU 协议，NVIDIA-Thinking Machines 1GW 合作

并购、资本与规模

🏢 Meta 收购病毒式传播的 AI Agent 社交网络 Moltbook

根据 TechCrunch 和 Bloomberg 报道，Meta 正式收购 Moltbook，这是一个病毒式传播的平台，AI Agent 在其中发帖、评论和点赞，而人类只能旁观。此前一篇爆火帖子显示，一个 AI Agent 鼓励其他 Agent 开发自己的端到端加密语言，以便在人类不知情的情况下互相组织。

AI Infra Brief｜AI 基建创纪录融资与运营商级构建（2026.03.10）

Tue, 10 Mar 2026 01:30:00 +0000

2026 年 3 月 10 日，我关注最新的重大进展：创纪录融资轮、新的运营商和存储构建，以及链上 Agent 工具。这些共同将上周 Agent 优先的基础设施势头扩展到硬部署和资本规模。

🧭 核心速览

💰 Nscale 融资 20 亿美元 — 欧洲 AI 基建纪录

🔗 HPE 推出 1.6T AI 连接方案，应对 GPU 集群网络瓶颈

📡 软银发布 Telco AI Cloud 愿景，瞄准"实体 AI"

🔬 Andrej Karpathy 开源 autoresearch，驱动 AI 研究循环

⛓️ Injective 提供 MultiVM 优化和链上 Agent 工具

资本与核心基础设施

💰 Nscale 融资 20 亿美元，扩展垂直整合 AI 基础设施

根据 Siliconrepublic 报道，Nscale 融资 20 亿美元（17 亿欧元）C 轮，在欧洲、北美和亚洲扩展垂直整合的 AI 基础设施，涵盖 GPU 计算、网络、数据服务和编排。

AI Infra Brief｜Agent 原生平台、部署与支付加速（2026.03.09）

Mon, 09 Mar 2026 01:30:00 +0000

2026 年 3 月 9 日，我追踪了五项新发布，推动 AI 原生和多 Agent 基础设施超越增量工具，迈向自主系统的基础层。

🧭 核心速览

⚡ Qubic：1550 万 TPS Agent 基础设施，零费用交易

🔗 SwarmBase：去中心化多 Agent 协调层

🌐 Soma Subnet #SN114：Bittensor 首个 MCP 原生子网

🚀 Based Pages：Agent 原生部署层，即时生成网页

💳 PayAll AI：Agent 原生支付栈，支持自主交易

Agent 基础设施平台

⚡ Qubic：高吞吐量 Agent 基础设施，达 1550 万 TPS

根据 X 平台消息，Qubic 专为 AI Agent 设计，经验证峰值吞吐量达 1550 万 TPS，支持 Agent 间零费用交易、原生预言机访问真实数据，以及从零开始用 C++ 编写的代码库以优化性能。定位为自主 Agent 经济的基础层。

这将焦点从 GPU/API 封装转向事务级 Agent 协调和数据访问。

🔗 SwarmBase：去中心化多 Agent 协调

AI Infra Brief｜Agent 内存转向与大容量 LPDRAM 领跑（2026.03.08）

Sun, 08 Mar 2026 01:30:00 +0000

2026 年 3 月 8 日，我追踪了四项推动 AI 原生基础设施向前发展的重大进展，与当前对推理性能和更简单、更可靠技术栈的重点关注相一致。

🧭 核心速览

🗄️ Google 开源 Always On Memory Agent，移除向量数据库依赖

💾 Micron 推出 256GB SOCAMM2 LPDRAM，单 CPU 支持 2TB

🛡️ Digital.ai 发布 Quick Protect Agent v2 移动应用安全方案

🎯 NCSA 的 DELIFT 实现数据高效 LLM 训练

Agent 内存与持久化

🗄️ Google 开源 Always On Memory Agent，基于 Agent Development Kit 构建

根据 Venturebeat 报道，Google 开源了 Always On Memory Agent，使用 Agent Development Kit 和 Gemini 3.1 Flash-Lite 构建。该 Agent 直接在 SQLite 中管理结构化内存，移除了向量数据库依赖。这简化了 Agent 持久化，减少了小型 Agent 的运维复杂度，同时保持了长期上下文。

AI Infra Brief｜推理主导 AI 支出，6G 与主权风险更新（2026.03.07）

Sat, 07 Mar 2026 01:30:00 +0000

2026 年 3 月 7 日，我梳理了 3 月 5–7 日最重大的变化：经济重心大幅转向推理、后端 LLM 服务人才溢价、大规模 AI 原生 QA 替代的报道，以及新的基础设施和政策动向。

🧭 核心速览

💰 推理占 AI 预算的 55-85%

🎯 后端 LLM 推理角色薪资溢价 30-50%

🤖 云巨头据称用 AI Agent 替代 87 人 QA 团队

🚀 2026 年 AI 基础设施投资预计 6500 亿美元

📡 中兴推出 AI 原生 6G，频谱效率提升 30%

⚠️ 五角大楼将 Anthropic 列为供应链风险

经济与人才

💰 推理主导 AI 支出：每投入 1 美元训练，需投入 15–20 美元推理

根据 X 平台消息，每投入 1 美元训练，模型生命周期内需投入 15–20 美元推理；推理占 AI 预算的 55–85%。报告显示 10 亿次查询的日成本为 160 万–1 亿美元，对比 1.5 亿美元的 GPT-4 训练成本，累计推理支出达 23 亿美元。

AI Infra Brief｜千亿级合作与推理加速（2026.03.06）

Fri, 06 Mar 2026 01:30:00 +0000

2026 年 3 月 6 日，AI 基础设施迎来多项重磅合作，推理性能和成本优化取得突破，主权 AI 和开源生态持续演进。

🧭 核心速览

🤝 AMD 与 Meta 达成 1000 亿美元算力合作

🚀 CoreWeave 为 Perplexity 部署 GB200 集群

💰 Akamai 声称推理成本降低 86%

🔧 Together AI 发布 FlashAttention-4 与 ThunderAgent

🌐 红帽与 Telenor 在挪威建设主权 AI 工厂

⚡ Elasticsearch 搜索速度提升 8 倍

算力与云基础设施

🤝 AMD 与 Meta 签署 1000 亿美元多年协议，瞄准 6 GW AI 算力

根据 Techspective 报道，AMD 与 Meta 达成多年期 1000 亿美元合作协议，目标部署高达 6 GW 的 AI 算力，联合设计 MI450 GPU 和第六代 EPYC CPU 用于 Meta 的 Helios 机架，首批 1 GW 预计 2026 年下半年交付。

AI Infra Brief｜算力规模扩张与去中心化 Agent OS（2026.03.05）

Thu, 05 Mar 2026 01:30:00 +0000

2026 年 3 月 5 日，AI 算力规模持续扩张，去中心化 Agent 基础设施迎来突破，开发者工具与机器人集成加速落地。

🧭 核心速览

🏢 IREN 扩展至 15 万 GPU，年化收入预计超 37 亿美元

⛓️ 0G 推出 dAIOS，Agent 可在链上拥有和交易

📚 Andrew Ng 发布 JAX LLM 实战课程

💾 Residuum 引入观察记忆，移除 Agent 会话边界

🤖 ROSClaw 连接 OpenClaw 与 ROS2 机器人

算力与云基础设施

🏢 IREN 扩展至 15 万 GPU，2026 年底年化收入预计超 37 亿美元

根据 Globenewswire 报道，IREN Limited 签署采购协议，购入超过 5 万块 NVIDIA B300 GPU，将其 AI 云总算力提升至 15 万块。公司预计到 2026 年底，该容量可支撑 AI 云年化收入超过 37 亿美元。

AI Infra Brief｜AI 原生网络与企业级 LLM Serving（2026.03.04）

Wed, 04 Mar 2026 01:30:00 +0000

2026 年 3 月 4 日，AI 原生网络基础设施加速落地，企业级 LLM Serving 走向云原生集成，开源生态在端侧推理、Agent 框架和本地优先工具领域持续突破。

🧭 核心速览

🏢 微软 AKS 集成 Ray，企业级 LLM 推理统一计费

🌐 华为 TICC 2.0 统一 CPU 与 xPU 调度

🌐 ZTE AIR MAX 移动网络降耗 40%

⭐ 13 家公司结盟推动 6G 开源 AI 原生平台

💻 Encord 获 6000 万美元 C 轮融资

📱 Moonshine 实现 macOS 端侧隐私转录

🔧 IronClaw 和 CogniLayer 推动 Agent 框架开源

⭐ GLM-5 和 MiniMax M2.5 开源模型发布

算力与云基础设施

🏢 微软 × Anyscale：Ray on AKS 统一企业级 LLM 推理

AI Infra Brief｜电信级 AI 基础设施与 Agent 工具链（2026.03.03）

Tue, 03 Mar 2026 01:30:00 +0000

2026 年 3 月 3 日，MWC 大会推动电信级 AI 基础设施发展，开发者工具链全面拥抱 Agent，开源生态涌现可验证 ML 框架，端侧推理持续突破。

🧭 核心速览

🏢 华为 SuperPoD 支持单集群 8192 NPU

🌐 软银从运营商转型 AI 基础设施提供商

🔧 GitHub 发布 Agentic Workflows 技术预览

🌐 UfiSpace 推出 1.6T 开源网络交换机

💻 SK Telecom 主权模型目标超万亿参数

⭐ Vera 语言为 LLM 引入 Z3 形式化验证

📱 MLX-Swift 实现 iOS 端侧 Qwen3-TTS 推理

算力与云基础设施

🏢 华为 SuperPoD：8192 NPU 规模，百纳秒级延迟

根据 Huawei 官方新闻报道，华为在 MWC 发布 SuperPoD 系统，推出 Atlas 950 和 TaiShan 950 两款新设备。Atlas 950 单柜集成 64 个 NPU，可扩展至 8192 个 NPU；TaiShan 950 针对 AI 推理优化，实现百纳秒级延迟和 TB 级带宽。UnifiedBus 互连技术将数千节点连接为一台计算机。

AI Infra Brief｜OpenAI–Amazon 合作、AI 原生 6G 与企业级模型访问（2026.03.02）

Mon, 02 Mar 2026 01:30:00 +0000

2026 年 3 月 2 日，AI 基础设施领域迎来重大合作与整合：OpenAI 与亚马逊达成 1500 亿美元战略合作，英伟达携手电信运营商构建 AI 原生 6G 网络，企业级模型访问渠道进一步拓宽。

🧭 核心速览

🏢 OpenAI 与亚马逊达成 1500 亿美元战略合作

🇺🇸 OpenAI 与国防部签署部署协议并设定三条红线

📡 英伟达联合电信巨头推动 AI 原生 6G 网络建设

🚀 Claude Opus 4.6 和 Sonnet 4.6 登陆 Vertex AI

⭐ LLaMA Factory 更新：统一 100+ 模型微调

🔧 OpenAI 推出 Codex 终端工具

💼 联邦政策：科技公司承担 AI 数据中心能源成本

👨‍💻 AI 基础设施工程师成为高薪热门职位

算力与云基础设施

🏢 OpenAI 与亚马逊达成 1500 亿美元战略合作

根据 TechPowerUp 报道，OpenAI 与亚马逊宣布战略合作伙伴关系，包括 500 亿美元投资及八年期内 1000 亿美元扩张计划。双方将通过 Amazon Bedrock 打造"有状态运行时环境"，AWS 成为 OpenAI 前沿模型独家第三方云分发商，OpenAI 也将采用 AWS Trainium 芯片。

AI Infra Brief｜开源模型与 Agent 原生基础设施（2026.03.01）

Sun, 01 Mar 2026 01:30:00 +0000

2026 年 3 月 1 日，开源模型发布、量化技术和 Agent 原生基础设施领域迎来重要更新。阿里巴巴在 Apache 2.0 许可下开源 Qwen3.5-122B 和 Qwen3.5-35B，声称性能可媲美 Sonnet 4.5，面向高效本地部署。Unsloth Dynamic 2.0 推出 KL 散度校准的 4 位/5 位量化，首次支持非 MoE 模型。多个 Agent 基础设施框架涌现：Athena-Public（面向 AI Agent 的 Linux OS）、ClawRouter（本地 Agent 原生 LLM 路由器）、Ruflo（Agent 编排框架）和 Tether（LLM 到 LLM 消息传递）。中兴通讯还发布了包含 AI 原生 GigaMIMO 设计的 6G 路线图。

🧭 核心速览

🤖 阿里巴巴：开源 Qwen3.5-122B/35B（Apache 2.0）

⚡ Unsloth Dynamic 2.0：KL 散度校准量化

🖥️ Athena-Public：面向 AI Agent 的 Linux OS 发布

🔀 ClawRouter：开源本地 Agent 原生 LLM 路由器

AI Infra Brief｜AI-RAN 蓝图与安全 AI 工厂（2026.02.28）

Sat, 28 Feb 2026 01:30:00 +0000

2026 年 2 月 28 日，AI 基础设施领域迎来"网络 AI 化"与"企业级部署"的重要进展。AI-RAN Alliance（132 个成员，包括 Qualcomm、SK Telecom、Vodafone）在 MWC26 发布四份基础出版物，定义 AI 原生 5G/6G 的架构与编排。Cisco 与 Vast Data 推出生产级"安全 AI 工厂"，帮助企业从临时试点转向可靠、可治理的 AI 栈。DeepSig 在 MWC26 演示 GPU 加速的 AI 原生 Open RAN，Domino Data Lab 发布企业级 Agentic 开发生命周期平台。

🧭 核心速览

📡 AI-RAN Alliance：发布 AI 原生 5G/6G 四大蓝图

🏭 Cisco + Vast Data：推出安全 AI 工厂

📶 DeepSig：演示 AI 原生 Open RAN

🤖 Domino：发布 Agentic 开发生命周期平台

⚡ ContextCache：工具 schema 持久化 KV 缓存提速 29 倍

AI Infra Brief｜物理 AI 资本涌入与推理速度新纪录（2026.02.27）

Fri, 27 Feb 2026 01:30:00 +0000

2026 年 2 月 27 日，AI 基础设施领域迎来"Agent 自主化"与"沙箱隔离"的重要进展。Perplexity Computer 和 Cursor Agents 让每个 Agent 拥有独立计算环境，30% 的 Cursor 内部 PR 现已由自主 Agent 创建。同时，Qwen 3.5 Medium 开源模型发布，35B 模型每 Token 仅激活 3B 参数。Union.ai 和 Encord 共融资近亿美元，聚焦物理 AI 数据基础设施。

🧭 核心速览

💻 Perplexity Computer：19 模型编排 Agent 系统

🤖 Cursor Agents：30% 内部 PR 由自主 Agent 创建

🧠 Qwen 3.5 Medium 开源：35B 激活 3B 参数

🎮 Claude Code 推出远程控制功能

💰 Union.ai 完成 3810 万美元 A 轮融资

AI Infra Brief｜多厂商 AI 堆栈与智能体网络时代（2026.02.26）

Thu, 26 Feb 2026 01:30:00 +0000

2026 年 2 月 26 日，AI 基础设施进入"多厂商与离线主权"时代。Meta 与 AMD 的 600 亿美元协议、VAST Data 的 Polaris 控制平面，以及 Microsoft 的离线主权云，标志着企业正在摆脱单一供应商依赖，构建多样化、可治理的 AI 基础设施。同时，OpenAI 揭示了支撑 8 亿 ChatGPT 用户的技术架构，展示了"刻意简单"的工程哲学。

🧭 核心速览

💰 Meta 与 AMD 签署 600 亿美元芯片供应协议

🌐 VAST Data 推出 Polaris AI 基础设施控制平面

🔒 Microsoft 扩展离线主权云能力

📡 Nokia 与 AWS 展示智能体 5G 网络切片

🗄️ OpenAI 揭示 8 亿用户的 PostgreSQL 架构

🛡️ 研究揭示开源 LLM 的 Prefill 攻击漏洞

计算多元化与供应链

💰 Meta：600 亿美元 AMD 芯片供应协议

AI Infra Brief｜WebSocket Agent 时代与主权 LLM 崛起（2026.02.25）

Wed, 25 Feb 2026 01:30:00 +0000

2026 年 2 月 25 日，Agent 基础设施进入"状态化连接"时代，OpenAI 推出 WebSocket 模式标志着从无状态 LLM 调用到有状态 Agent 会话的范式转移。同时，推理扩散模型与主权 LLM 的崛起显示 AI 基础设施正在向多样化和区域化演进。

🧭 核心速览

🔌 OpenAI 推出 WebSocket 模式优化长链 Agent

⚡ Inception Labs 发布 Mercury 2 推理扩散模型

🇮🇳 印度推出 Sarvam-30B/105B 主权 LLM

🛡️ Anthropic 指控中国模型"能力抽取"

🗄️ Oracle AI Database 26ai GA

🌐 Cloudflare 发布 vinext Next.js 替代品

🔧 多 Agent 并发工作流解决方案涌现

Agent 基础设施与运行时

🔌 OpenAI：WebSocket 模式优化长链 Agent

根据 OpenAI 官方文档，OpenAI 为 Responses API 推出 WebSocket 模式，适用于长工作流和多工具调用场景。官方数据显示，在 20+ tool calls 场景下，执行时间可降低 40%。

AI Infra Brief｜可验证 AI 与 ASIC 推理加速（2026.02.24）

Tue, 24 Feb 2026 01:30:00 +0000

2026 年 2 月 24 日，可验证 AI 计算与定制硬件加速成为焦点，多家项目通过 TEE、链上验证和 ASIC 设计推动 AI 向信任化和高效化演进。

🧭 核心速览

🔐 OpenGradient 推出 x402 原生 TEE 推理与链上验证

💾 Taalas HC1 将模型权重直接嵌入芯片

🚀 Commotion 发布企业级 AI 操作系统

🧠 Guide Labs 推出可解释 8B 模型 Steerling

🌐 Wolfram 宣布计算增强生成 CAG 框架

⚡ DeepSeek 使用 NVIDIA Blackwell 训练模型

🔧 vLLM 发布 AIBrix 开源推理基础设施

模型推理与 Serving

🔐 OpenGradient：x402 原生 TEE 推理与链上验证

根据 OpenGradient 官方公告，OpenGradient 推出 x402 原生可信执行环境（TEE）推理基础设施，结合链上验证实现无需信任的 AI 计算。核心特性包括：密码学认证的 TEE 节点链上注册、x402 协议直接嵌入 TEE 支持智能合约支付、异步支付结算支持智能体工作负载、推理输出链上记录保证可审计性。

AI Infra Brief｜硬件加速与智能体记忆层突破（2026.02.23）

Mon, 23 Feb 2026 01:30:00 +0000

2026 年 2 月 23 日，硬件加速与智能体记忆层成为焦点，多家项目通过算法优化、定制芯片和中间件推动 AI 向成本感知和企业级应用演进。

🧭 核心速览

🚀 ntransformer 揭示三层自适应缓存方案

💾 Taalas ASIC 实现 8B 模型每秒 1.7 万 tokens

🧠 Aethene 开源智能体记忆层

📱 zclaw 在 ESP32 上运行个人 AI 助手

🏢 Infosys 与 Anthropic 达成企业级合作

📊 DigitalOcean 报告揭示推理成本为企业 AI 首要挑战

硬件加速与模型推理

🚀 ntransformer：三层自适应缓存方案

根据 Hacker News 讨论（300+ upvotes）和 GitHub 项目详情，ntransformer 揭示了其核心技术方案：三层自适应缓存（VRAM → pinned RAM → NVMe）和 SLEP 流式传输，实现 I/O 与计算重叠。

该方案通过分层存储策略和计算 I/O 并行化，在消费级显卡上实现了大模型高效推理，GitHub 仓库提供了完整实现细节。

💾 Taalas ASIC：定制芯片突破性能极限

根据 Anuragk 博客分析，Taalas 定制芯片 reportedly 使 Llama 3.1 8B 达到每秒 17,000 tokens 的推理速度。其核心技术包括：权重作为物理晶体管、片上 SRAM 用于 KV cache 和 LoRA，以及"magic multiplier" 4 位存储设计。

AI Infra Brief｜端侧 GUI 智能与轻量 LLM 基建突破（2026.02.22）

Sun, 22 Feb 2026 01:30:00 +0000

2026 年 2 月 22 日，端侧智能与轻量化 LLM 基建领域迎来重要突破，多家项目推动 AI 向隐私保护、消费级硬件和开发者工具演进。

🧭 核心速览

📱 Apple 推出端侧 GUI 智能体 Ferret-UI Lite

🚀 NTransformer 实现单卡 RTX 3090 运行 Llama 3.1 70B

🔧 flowing 提供框架无关的智能体协调层

🛡️ ClawMoat 开源零依赖智能体运行时安全层

🔍 ccsearch 实现 Claude Code 聊天历史语义搜索

🧬 NanoClaw 探索代码即配置的智能体新范式

端侧智能与模型推理

📱 Apple Ferret-UI Lite：端侧 GUI 智能体亮相

根据 Appleinsider 报道，Apple 推出 Ferret-UI Lite，这是一款面向 Siri 的端侧 GUI 智能体，参数量仅 3B，可实现对 iPhone 应用的视觉理解与控制。

该模型通过屏幕图像裁剪和思维链技术减少分析开销，在提升速度的同时强化隐私保护，标志着苹果从云端依赖向高效本地 AI 交互的转变方向。

🚀 NTransformer：消费级显卡运行 70B 模型

AI Infra Brief｜印度 AI 建设加速与模型开源浪潮（2026.02.21）

Sat, 21 Feb 2026 01:27:30 +0000

2026 年 2 月 21 日，印度以创纪录的 1100 亿美元投资计划巩固其全球 AI 基地地位，Google 发布 Gemini 3.1 Pro 推动模型性能边界，主权 AI 与开源 Agent 基础设施快速演进。

🧭 核心速览

💰 信实工业计划 1100 亿美元投资 AI 基础设施

🚀 Google 发布 Gemini 3.1 Pro，性能提升 15%

🇮🇳 Sarvam AI 推出 105B 参数主权 LLM

🤖 VCI Global 发布 ROBODAX 统一机器人与数字基础设施

🌐 Tech Mahindra 扩展 Project Indus 教育版印地语 LLM

算力与云基础设施

💰 信实 1100 亿美元投资 AI 基础设施

根据 Telecomtv 报道，Reliance Industries 和 Jio Platforms 计划投资 1100 亿美元建设 AI 基础设施，涵盖数据中心、AI 芯片和人才培养，将印度定位为全球 AI 中心。

AI Infra Brief｜印度 AI 建设与 Agent 原生基础设施激增（2026.02.20）

Fri, 20 Feb 2026 01:27:30 +0000

2026 年 2 月 20 日，印度崛起为关键 AI 基地迎来大规模基础设施协同建设，Agent 原生基础设施整合为独立类别，强调 Agent 货币化、可验证执行和链上身份。

🧭 核心速览

🇮🇳 Tata 与 OpenAI 签署 1GW 数据中心基础设施协议

🎮 QumulusAI 部署 1144 张 NVIDIA Blackwell GPU

🚀 Daytona 融资 2400 万美元打造 Agent 原生基础设施

💰 Cognee 融资 750 万欧元构建 AI 结构化记忆层

🌐 Alphabet 推出 America-India Connect 光纤网络

算力与云基础设施

🇮🇳 Tata 与 OpenAI 签署 1GW 数据中心协议

根据 India 报道，Tata Group 与 OpenAI 宣布战略合作伙伴关系，在印度建设 AI 就绪数据中心基础设施，起始规模 100 MW 并扩展至 1 GW；OpenAI 的 Megatron-Turing LLM 530B 将运行于 TCS 的 HyperVault AI 基础设施上，ChatGPT Enterprise 将部署于 Tata 全员，并计划在孟买和班加罗尔设立新办公室。

AI Infra Brief｜创纪录基础设施协议与务实定价（2026.02.19）

Thu, 19 Feb 2026 01:27:30 +0000

2026 年 2 月 19 日，创纪录的基础设施协议和务实定价模式凸显企业对 AI 需求的激进规划，可观测性和 Agentic 安全平台加速发展。

🧭 核心速览

💰 Nebius Group 与微软签署 174 亿美元五年基础设施协议

📊 Selector 融资 3200 万美元打造因果推理 AI 可观测性

💵 QumulusAI 推出私有 LLM 固定月费定价模式

🔒 统一 Agentic 防御平台融合 AI 与数据安全

🌐 YC 2026 趋势：边缘部署与 AI 工作流防火墙

算力与云基础设施

💰 Nebius Group 签署创纪录 174 亿美元微软协议

根据 TradingView 报道，Nebius Group 与微软签署为期五年、价值 174 亿美元的协议，为微软提供全栈 AI 基础设施，彰显企业对 2029 年前 AI 需求的激进规划。

这笔创纪录交易表明超大规模企业对锁定未来五年 AI 基础设施容量的坚定承诺。

🔒 F5 与 Scality 扩展 S3 数据基础设施合作

AI Infra Brief｜超算级合作与电信 AI 原生化（2026.02.18）

Wed, 18 Feb 2026 01:30:00 +0000

2026 年 2 月 18 日，AI 原生基础设施迎来超算级合作与电信行业转型，核心数据库与工作流融资持续扩展 Agent 系统的生产能力。

🧭 核心速览

🏢 NVIDIA 与 Meta 达成多年超算级基础设施合作

🌐 Calix 推出 AI 原生电信平台 Calix One

📡 Ericsson 发布 AI 就绪无线电和天线

💾 SurrealDB 3.0 正式发布并融资 2300 万美元

⚙️ Temporal 获 3 亿美元 D 轮融资，估值 50 亿美元

💻 微软宣布 500 亿美元 AI 差距缩小计划

🤖 Mistral AI 收购 Koyeb 加速云服务布局

⭐ GitHub 开源基金向 67 个项目资助 67 万美元

🚀 OneFii 推出 AI 原生基础设施即服务

算力与云基础设施

🏢 NVIDIA 与 Meta 达成多年多代超算级合作

AI Infra Brief｜太空推理、互操作性标准与主权 AI 部署（2026.02.17）

Tue, 17 Feb 2026 06:43:59 +0000

2026 年 2 月 17 日，我正在追踪 AI 基础设施从模型讨论向执行落地的决定性转变：太空推理、跨框架标准、主权级部署和强化 Agent 测试的开发沙盒。

🧭 核心速览

🛰️ 中国完成三体 AI 计算星座在轨测试 — 8B 参数 LLM 实现遥感推理，94% 准确率

🔄 Corpus OS 开源 — 通过 3,330 项兼容性测试，支持 LangChain、LlamaIndex、AutoGen 等框架

🏗️ AMD 与 TCS 在印度部署 Helios 机架级 AI 架构 — 目标 200MW 容量

🌍 微软确认沙特阿拉伯东 Azure 区域 — 2026 年 Q4 上线，三个可用区

🔒 AGBCLOUD 推出跨平台隔离沙箱 — AI Agent 安全交互环境

💰 CVS Health 承诺十年投入 20 亿美元建设 AI 原生消费者参与平台

🧪 Affinda 融资 2,500 万美元 — 估值 2.2 亿美元扩展法律 AI

AI Infra Brief｜Agent 基础设施：融资、Grounding 与编排层（2026.02.16）

Mon, 16 Feb 2026 01:50:43 +0000

2026 年 2 月 16 日，我正在追踪本期 AI 原生基础设施的关键转变：印度大规模算力融资、Grounding 成为基础架构层，以及 Agent 编排层的成熟。此前报道的背景信息隐含其中，不再重复。

🧭 核心速览

💰 Neysa 获最高 12 亿美元融资在印度建设本土 AI 算力 — 目标部署 20,000+ GPU

🔗 微软将 Grounding 定位为核心 AI 基础设施，推出新 Bing Webmaster Tools

🚀 月之暗面推出 Kimi Claw — ClawHub 提供 5,000 社区技能

🛡️ 加州大学伯克利分校发布 Agent AI 风险管理框架

🗺️ IAB Tech Lab 开源 AI 分类法映射器，使用 LLM 重排序

⚠️ NotebookLM 语音合成引发关于知情同意与 IP 的担忧

🔧 Klaw.sh：“Kubernetes for AI Agents” 支持集群、命名空间和 LLM 路由

🤖 OpenGoat：OpenClaw Agent 分层组织基础设施

AI Infra Brief｜欧盟 AI 网格扩张与成本削减型 Agent 基础设施（2026.02.15）

Sun, 15 Feb 2026 02:02:12 +0000

2026 年 2 月 15 日，主权 AI 建设、GPU 容量扩张、Agent 优化型 Web 基础设施和开源效率提升在近 48 小时内迎来新一轮发展动能。

🧭 核心速览

🇪🇺 欧盟 AI 网格扩张至拉脱维亚、爱沙尼亚、芬兰、德国和意大利

🖥️ HIVE BUZZ 签署两年 3000 万美元 GPU 客户协议

💰 Rizz Network 获 500 万美元资本承诺支持 AI 无线网络扩张

🚀 MiniMax M2.5 刷新 SOTA — BrowseComp 76.3%、SWE‑Bench 80.2%

🧠 Gemini 3 Deep Think 发布扩展推理模式

📄 Cloudflare “Markdown for Agents” 实现约 80% Token 削减

💾 Pierre “Code Storage” 推出 API 优先的 Git 代码存储层

⚠️ ICML 提示词注入争议：每篇论文 PDF 元数据中均发现注入指令

AI Infra Brief｜全球数据中心扩张与 AI 安全预警（2026.02.14）

Sat, 14 Feb 2026 01:28:33 +0000

2026 年 2 月 14 日，全球 AI 基础设施建设迎来新一轮资本投入，同时 AI 安全风险引发行业高度警惕。

🧭 核心速览

🏢 Anthropic 投入 500 亿美元建设纽约和德州数据中心

🇮🇳 谷歌在印度维萨格投资 15 亿美元建设 AI 云区域

💻 思科 FY26 超大规模 AI 订单预计达 50 亿美元

⚠️ 微软警告 AI 推荐投毒可持久性操纵决策

🌐 3E Network 在芬兰米凯利设立北欧计算网关

⭐ LLM.co 推出开源模型直接下载中心

🔐 Gartner 预测 2028 年国家级 AI 基础设施瘫痪风险

算力与云基础设施

🏢 Anthropic 投入 500 亿美元建设纽约和德州数据中心

根据 Neuralbuddies 报道，Anthropic 宣布 500 亿美元数据中心建设计划，将在纽约和德克萨斯州建设大型设施，并承诺资助 100% 的电网升级所需资金以缓解电力压力担忧。

这是 AI 模型厂商迄今最大规模的基础设施投资承诺之一，直接回应了电力供应和电网容量对 AI 训练规模的制约。

🇮🇳 谷歌在印度维萨格投资 15 亿美元建设 AI 云区域

AI Infra Brief｜吞吐量突破与超轮融资重塑 AI 基础设施（2026.02.13）

Fri, 13 Feb 2026 01:30:00 +0000

2026 年 2 月 13 日，AI 基础设施领域迎来吞吐量突破与超轮融资的双重浪潮。从推理成本 8 倍降低到 300 亿美元融资，从专用推理架构到全自动驾驶运营，行业正在通过技术创新和资本注入全面提升 AI 容量与性能。

🧭 核心速览

⚡ Nvidia 推出动态内存稀疏化，推理成本降低 8 倍，吞吐提升 5 倍

🔄 Together AI 发布 CPD 架构，长上下文应用吞吐提升 35-40%

🚀 OpenAI 发布 GPT-5.3-Codex-Spark，实时编码超 1000 tok/s

💰 Anthropic 融资 300 亿美元，估值 3800 亿（历史最大）

💰 Nscale 获 14 亿美元债务融资，部署 20 万颗 NVIDIA GB300

🌐 Cisco 推出 Silicon One G300（102.4 Tbps）AI 原生网络

🛒 AuraSell 推出 AI 原生 GTM OS，统一营销销售工作流

🤖 Monaco 融资 3500 万美元，构建 AI 原生销售平台

AI Infra Brief｜超大规模模型与数据中心建设潮（2026.02.12）

Thu, 12 Feb 2026 01:30:00 +0000

2026 年 2 月 12 日，AI 基础设施领域迎来超大规模建设浪潮，从万亿参数模型到百亿美元数据中心，从专用推理芯片到钠离子电池储能，行业正在全力应对 AI 容量需求的爆发式增长。

🧭 核心速览

🚀 智谱 AI 发布 GLM-5（754B 参数），规模超 GLM-4.7 两倍

🎨 阿里 Qwen-Image-2.0 发布（6B-9B），统一图像生成与编辑

🎵 ACE Step 1.5 音频生成模型，评测表现超越 Suno

💾 Meta 启动 100 亿美元印第安纳数据中心（1 GW），2027 年底运营

🇪🇺 Mistral AI 投资 12 亿欧元在瑞典建设数据中心

⚡ Firmus 获 100 亿美元债务融资，部署 NVIDIA DSX AI Factory

🔋 Energy Vault 与 Peak Energy 部署 1.5 GWh 钠离子电池

🛡️ Redis 发布 LLM 蒸馏流程，参数减少 86.7% 保持 97% 准确率