指令集自由如何重构AI算力边界

第五届RISC-V中国峰会于7/16-19号在上海张江科学会堂举办，咱就是说这峰会都办到家门口了，不去学习一下，简直是辜负了处在宇宙中心张江这么好的地理位置。今年的峰会实在过于热闹，在18号晚上结束时，偶遇包云岗老师，包老师分享了一个数据，今年持电子票证核验入场的人数达到了3000人，远超去年的2000人。而我也是从上科大的第一届追到了如今的第五届峰会。

相比RISC-V的生态建设、嵌入式系统、EDA等领域，我今年更加的关注高性能计算。原因是就在几年前，很多业内人士对RISC-V登上高性能计算的舞台都持否定态度，当然，理由有很多，比如指令密度低、编译器的调优差、微架构设计（包括高频、宽发射、深度乱序执行、复杂的分支预测等等）难以匹敌x86/ARM等等。但随着RISC-V在近3年内的野蛮生长，事情已经开始起了一些变化。

AI的快速发展，也让算力在追赶其步伐时显得捉襟见肘，AI计算的架构也陷入了困局。就在一个月前，Andrej Karpathy 在 YC AI Startup School 活动中发表了约 40 分钟的演讲（Youtubu有链接：https://www.youtube.com/watch?v=LCEmiRjPEtQ）。Andrej在演讲中分享了他的观点，即软件正在再次经历变革，我们已经进入了软件 3.0时代，从人工编写指令的软件 1.0，到以神经网络权重为核心的软件 2.0，再到由 LLM 开启的软件 3.0。在这个时代，自然语言成为新的编程接口，而模型则完成剩下的工作。

软件的变革对硬件也构成了挑战，当大型语言模型成为编程接口，自然语言提示开始取代传统代码，这场软件层面的革命性跃迁，正在对硬件架构发起终极拷问，当算法以月为单位迭代，硬件能否摆脱以年为单位更新的桎梏？

回答这个问题之前，我们也来梳理一下硬件的变革：

Hardware 1.0：CPU主导的通用计算时代，AMD和Intel的x86用摩尔定律统治了30年；

Hardware 2.0：GPU借深度学习浪潮崛起，CUDA生态筑起护城河；

Hardware 3.0：大模型催生领域专用架构（DSA）爆发，却陷入效率与通用性不可兼得的泥潭。

硬件的问题有很多，我们先说GPGPU。从能效的角度看，以某头部企业的GPU为例，还是有很多不尽如人意的地方。比如受限于堆叠技术和功耗控制，单颗GPU能搭载的HBM容量通常有限。再比如为了管理上万个线程，H100中约29.7%的晶体管面积用于指令发射槽、线程调度器及分支预测单元。DRAM访问延迟高达上百个周期，GPU在运行GPT-3时，绝大部分时间在等待数据。这些都构成了SIMT架构的隐形之税。假设将来GPT-5日活用户达10亿，年推理成本将达几百亿美元。另一方面，大模型了推动领域专用架构（DSA）的爆发，但指令集封闭会导致图灵不完备，向量单元弱化，比如TPU仅支持有限精度，算法迭代即需重构芯片，甚至导致某些芯片量产即淘汰。

除了架构层面，工艺的红利也在消退，靠制程升级填补架构缺陷的时代的基本成为历史，堆砌晶体管和计算核的暴力美学也即将走进尽头。

不过从RISC-V峰会高性能计算分论坛上各位行业专家分享的最新成果来看，RISC-V向高性能场景的突破已是大势所趋。这么讲的原因不仅仅是因为英伟达宣布将CUDA Toolkit、900+核心库全面适配RISC-V，打通GPU与RISC-V的异构计算链路等生态方面的利好消息，更是因为我看到了一些在底层指令集上的技术创新和突破。

整体来说可以分为两个方面，一方面是开源优势，包括：

模块化指令集：通过RVV向量扩展、V扩展实现AI专用指令定制，避免ASIC的僵化。

图灵完备性保障：标量核处理控制流，向量引擎加速数据搬运，张量单元专注矩阵计算，三者硬化解耦。

生态裂变加速：LLVM对RISC-V支持度非常高，PyTorch 3.0原生适配RVV指令，开发者迁移成本趋近于零。

另一方面是我学到的新的概念方法，虚拟指令集（VISA，Virtual Instruction Set Architecture）。

从峰会的分享中，我看到RISC-V指令集结合RVV向量扩展已经开始成为AI计算架构领域的最佳选择。这么说的本质在于其通过开放指令集生态解决了传统架构的核心矛盾，即在保持硬件计算效率的同时满足算法快速迭代的通用性需求。开放的图灵完备指令集允许深度定制AI专用扩展，如动态稀疏计算指令，突破x86/ARM的指令僵化限制。RVV可变长向量天然匹配张量计算的维度多样性，实测向量单元利用率达远超固定向量架构。

硬件级SIMD并行与内存访问优化则从源头消除GPU线程调度冗余。技术适配性上，RVV向量操作可直接映射张量计算范式，单指令完成矩阵分块流水作业，其向量掩码机制更硬化解码稀疏模式，零值跳过效率超软件方案数倍。生态层面，LLVM/GCC全栈支持使编译优化保留率得以提升，PyTorch等框架原生适配将模型迁移工作量压缩80%以上，彻底规避传统DSA的生态碎片化风险。当然以上分析并非仅仅存在于理论层面，奕行智能杨宜博士在峰会上的分享中已经用实践印证了这一路径的可行性，其基于RVV扩展的VISA架构在在大模型中已经实现了超越GPU的性能，证明RISC-V+RVV能以硅片级的可重构性化解AI计算的经典悖论。

另一个我比较感兴趣的技术点则是RISC-V + VISA的双融合AI计算架构，解剖其虚拟层，可以分为软件和硬件两部分。

软件栈：AI框架 → 计算图优化 → VISA算子 → RVV微指令

硬件层：标量核（VISA调度） → 向量引擎（数据搬运） → 张量核（密集计算）

奕行智能的VISA架构通过软硬协同设计实现了AI计算效率与通用性的革命性平衡，其核心在于将标量引擎、向量引擎与张量引擎三级异构单元通过VISA深度解耦。标量引擎作为指挥中枢运行RISC-V基础指令，通过硬件级VISA调度器实现宏指令乱序发射。张量引擎专攻4D矩阵运算，以DSA极致优化计算密度。而向量引擎则基于RVV扩展执行细粒度微指令，在图灵完备性保障下完成数据搬运、稀疏加速等底层操作。

这种架构的本质创新在于构建了"虚拟-物理"双层指令集桥梁，VISA层将AI算子（如Transformer块）抽象为粗粒度宏指令，编译器仅需关注算子级编程。标量核通过微码引擎将VISA宏指令动态编译为RVV微操作序列，支持乱序发射与流水掩盖。在张量引擎中通过循环展开/流水掩盖实现近100%单元利用率。

这样的设计可以解决三大行业痼疾：其一，VISA中间层隔离硬件迭代与软件生态，算法升级时仅需重定义宏指令微码，避免传统DSA的芯片淘汰；其二，RVV原生支持向量掩码与Gather/Scatter操作，使MoE稀疏模型计算效率提升；其三，编译路径从Tensor到SIMD的陡降被VISA缓冲层柔化，保留一定的优化空间，而传统方案则会损失该部分性能。这种以指令集虚拟化置换硬件僵化的方法，正是应对算法月级迭代与芯片年級更新矛盾的极优答案。

芯片圈正被RISC-V炸出深水炸弹。VISA架构实测能把构建AI编程模型的复杂性大幅降低，大模型推理直接踹飞GPU的延迟墙，秘诀就是通过软硬协同产物的虚拟指令技术把硬件榨到极致，标量核当指挥家，张量单元疯狂算数，向量引擎搞搬运，流水线塞得满满当当。近存计算与零碎访问优化更合力击穿内存墙，数据搬运功耗大幅度下降。当GPT-5训练烧钱奔着百亿去，死守GPU就是给达子交智商税，而玩透指令集自由的玩家，早让芯片学会了自我进化。算力战争的下半场，开放指令集不容忽视。

当GPT-5的训练成本如达摩克利斯之剑高悬百亿美元门槛之上，算力军备竞赛的本质已昭然若揭。企业要么在GPU的旧秩序中继续支付三重隐形税，为冗余的SIMT线程管理买单，为内存墙导致的算力闲置买单，更为算法迭代引发的硬件淘汰周期买单。要么拥抱指令集自由，通过RISC-V的虚拟化层将算法灵魂注入可进化的硬件当中。这不仅是技术路径的选择，更是文明演进的分野。当摩尔定律在物理极限前崩塌，当Chiplet在热力学熵增中挣扎，开放指令集构建的动态可重构架构，能让芯片突破静态电路的宿命，在算法永无止境的进化浪潮中，成为承载智能的永生载体。

历史证明，算力民主化终将瓦解技术霸权。RISC-V用指令集开放重构芯片进化链，其本质是让算力回归工具本质，即更好的服务于AI相关技术的涌现，而非禁锢于架构熵增。尽管通过这次RISC-V峰会学习到的内容，让我更加的看好RISC-V的未来，但这场指令集的间的战争也不过刚刚开始。

或许这个问题也抛给读者，如果大模型的训练烧钱以百亿美元为单位，你赌GPU还是赌指令集自由？