2025年6月28日,龙芯在发布会上正式宣布了未来三代GPGPU显卡的技术和产品规划。龙芯的GPU发展历程始于2016年,最初是为了与龙芯CPU配套,解决进口GPU芯片供货不稳定的问题。
经过多年的技术积累和迭代升级,龙芯GPU已经从最初的入门级产品发展到如今具备通用计算和AI加速能力的GPGPU产品,并逐步向高端高性能领域迈进。
▌龙芯GPU发展历程回顾
龙芯的GPU项目始于2016年,当时的主要目标是解决进口低端GPU芯片供货不稳定以及嵌入式GPU不适合桌面市场的问题。
龙芯希望通过自主研发GPU,实现与龙芯CPU的配套,形成系统优势,降低系统成本。2017年,龙芯开始进行图形算法调研;2018年完成总体架构设计,并开展结构模拟器设计;2019年完成模拟器验证,转入逻辑与结构设计阶段。
2020年,龙芯首款GPU——LG100诞生,应用于龙芯2K2000处理器和龙芯7A2000桥片,其性能接近AMD R5 230,标志着龙芯完成了GPU结构设计与验证的全套工作。此后,龙芯不断对GPU进行迭代升级:2021年的LG110在相同面积下算力性能提升了一倍;2022年的LG120进一步提高了光栅化精度,优化了图形与算法。
龙芯的GPU设计完全从零开始自主研发,没有依赖境外IP,也没有历史包袱,技术上直接进入了统一渲染流水线架构。虽然初期仅能支持OpenGL 2.1和OpenGL ES 2.0,但已经能够基本满足现代桌面应用的显示需求,可靠性和兼容性也得到了市场验证。迄今为止,LG100系列的出货规模已经超过了百万颗。
2021年,在LG100系列持续迭代的同时,龙芯启动了第二代LG200的调研与整体设计。这一次,龙芯调整了GPU设计思路,从统一渲染架构进步到通用计算架构,将以往以图形处理为中心的设计转变为以计算为中心的设计。
经过漫长而复杂的设计、验证、迭代和磨合,加上配套驱动开发,直到2024年,LG200才最终完工,并应用于此次发布的龙芯2K3000/3B6000M。集成于该系列处理器的LG200 GPU图形性能有了成倍的提高,像素填充率从2GP/s提高到4GP/s,纹理填充率从2GT/s提高到8GT/s,还支持OpenGL 3.3、OpenGL ES 3.1和OpenCL 1.1。LG200还初步支持通用计算加速和AI加速,运行目标识别等AI任务和大语言模型都没有问题,这可以说是龙芯的第一款GPGPU产品。官方宣称,在900MHz频率下,LG200的FP16单精度浮点性能为230.4 GFlops(2304亿次每秒),INT8整数性能为7.2 TOPS(7.2万亿次每秒)。实际上,其频率最高可以达到2.2-2.5GHz,适当开放频率后,FP16浮点和INT8整数性能分别可以达到256 GFlops和8 TOPS。
▌未来三代GPGPU规划
龙芯未来的GPGPU发展将分为三步走,并开启一个全新的龙芯9A系列,也可以称为LG300系列。龙芯GPGPU的架构设计看起来与NVIDIA的颇为相似,也是分为多个图形处理集群(GPC),彼此通过L1N网络互连。
所有GPC加上二级缓存,通过L2N网络连接各个顶层模块,包括内存控制器、指令处理器、显示控制器、视频编解码控制器和PCIe控制器。不同硅片之间还可以通过LCL龙链进行互连,大大扩充芯片规模和性能。GPC内部由一条GP图形流水线、多个SP流处理器组成,而每个流处理器包括一个纹理单元、多个矢量单元,每个矢量单元又包括16个FP16单精度浮点单元、1个FP32双精度浮点单元和1个Tensor张量单元。每个单元的性能指标也都已经确定。
龙芯GPGPU虽然自研,但并不封闭,其原则是兼容主流、拥抱开源。作为一套加速计算平台,龙芯GPGPU将具备全方位的能力。在计算API方面,龙芯GPGPU不仅支持传统的OpenCL,还提出了兼容CUDA(暂不清楚具体实现方式),可支撑训练、推理、微调等全场景AI,覆盖云侧、边缘侧和端侧全领域。此外,图形API将紧跟OpenGL和Vulkan两大行业主流,视频编解码加速支持也将逐渐覆盖更多格式。
龙芯9A1000:已经进入设计尾声阶段,即将完成流片,预计2026年推出。这将是龙芯首款GPGPU专用芯片,通过它初步走通和验证设计思路,可用于独立显卡和AI加速卡。其定位较低,成本也较低,性能大致相当于AMD 7年前的入门显卡RX 550,但已经支持曲面细分和计算着色器等特性,不过图形API仅支持到OpenGL 4.0(RX 550支持OpenGL 4.6)。该芯片还集成了视频编解码模块,支持最常见的H.264和H.265格式。在AI推理性能方面,预计在INT8整数格式下可达到32-40 TOPS。
龙芯9A2000:计划于2027年推出,将达到主流性能水平,实现完整功能,可用于桌面和服务器。通过架构优化和堆料双管齐下,龙芯将大力提升性能单位比,整体性能可提升大约4倍。例如,FP16浮点性能可达到5 TFlops,INT8整数性能可达到160 TOPS。此外,该芯片还将首次支持双硅片互连,性能可再翻一倍,达到同工艺下的国际先进水平。在图形API方面,龙芯9A2000终于可以支持到OpenGL 4.6,张量单元将支持包括BF16在内的更多数据格式,并加入虚拟化支持。
龙芯9A3000:暂无具体时间表,但其目标是首次冲击高端高性能市场。该芯片的工艺将与龙芯CPU一样演进到xnm,频率有望大幅提升,性能将再次实现3-5倍的跃升。
龙芯表示,未来将继续优化架构,全面实现基本功能,然后扩展功能和性能,全面优化挖潜,逐步实现图形流水线和计算性能的可扩展,大力提高能效比和单位面积性能。龙芯的“先通后专”发展路线意味着先做好通用的GPU,再做好专用的GPGPU,尤其是在AI方面。现阶段,龙芯主要面向端侧的AI推理,满足日常应用需求。至于云侧的AI训练,目前仍由AI加速卡承担,龙芯暂时不考虑涉足该领域。
龙芯的GPU发展路线图显示,其未来产品将逐步支持OpenGL 3.2/4.0、OpenCL 3.0(尽管该标准已基本被市场淘汰),并加入新的Vulkan 1.1。至于DirectX,由于其为封闭标准,纯自研的国产GPU暂时还无法支持,除非购买Imagination PowerVR之类的国外IP授权。