龙芯发布未来三代GPGPU显卡规划: 从入门级到高端高性能, 全面兼容CUDA

栏目分类

新闻动态: 韦德官网介绍; 产品展示; 新闻动态

热点资讯

最美新时代革命军人风采丨冲锋在前的“阵地铁人”

2025年理财避坑第一课: 这4类产品正在坑你的钱!

喀纳斯有民宿挂牌价涨到4000元/晚？当地市监局：民宿价格由

你的位置：韦德官网 > 新闻动态 > 龙芯发布未来三代GPGPU显卡规划: 从入门级到高端高性能, 全面兼容CUDA

龙芯发布未来三代GPGPU显卡规划: 从入门级到高端高性能, 全面兼容CUDA

发布日期：2025-07-05 17:12 点击次数：71

2025年6月28日，龙芯在发布会上正式宣布了未来三代GPGPU显卡的技术和产品规划。龙芯的GPU发展历程始于2016年，最初是为了与龙芯CPU配套，解决进口GPU芯片供货不稳定的问题。

经过多年的技术积累和迭代升级，龙芯GPU已经从最初的入门级产品发展到如今具备通用计算和AI加速能力的GPGPU产品，并逐步向高端高性能领域迈进。

▌龙芯GPU发展历程回顾

龙芯的GPU项目始于2016年，当时的主要目标是解决进口低端GPU芯片供货不稳定以及嵌入式GPU不适合桌面市场的问题。

龙芯希望通过自主研发GPU，实现与龙芯CPU的配套，形成系统优势，降低系统成本。2017年，龙芯开始进行图形算法调研；2018年完成总体架构设计，并开展结构模拟器设计；2019年完成模拟器验证，转入逻辑与结构设计阶段。

2020年，龙芯首款GPU——LG100诞生，应用于龙芯2K2000处理器和龙芯7A2000桥片，其性能接近AMD R5 230，标志着龙芯完成了GPU结构设计与验证的全套工作。此后，龙芯不断对GPU进行迭代升级：2021年的LG110在相同面积下算力性能提升了一倍；2022年的LG120进一步提高了光栅化精度，优化了图形与算法。

龙芯的GPU设计完全从零开始自主研发，没有依赖境外IP，也没有历史包袱，技术上直接进入了统一渲染流水线架构。虽然初期仅能支持OpenGL 2.1和OpenGL ES 2.0，但已经能够基本满足现代桌面应用的显示需求，可靠性和兼容性也得到了市场验证。迄今为止，LG100系列的出货规模已经超过了百万颗。

2021年，在LG100系列持续迭代的同时，龙芯启动了第二代LG200的调研与整体设计。这一次，龙芯调整了GPU设计思路，从统一渲染架构进步到通用计算架构，将以往以图形处理为中心的设计转变为以计算为中心的设计。

经过漫长而复杂的设计、验证、迭代和磨合，加上配套驱动开发，直到2024年，LG200才最终完工，并应用于此次发布的龙芯2K3000/3B6000M。集成于该系列处理器的LG200 GPU图形性能有了成倍的提高，像素填充率从2GP/s提高到4GP/s，纹理填充率从2GT/s提高到8GT/s，还支持OpenGL 3.3、OpenGL ES 3.1和OpenCL 1.1。LG200还初步支持通用计算加速和AI加速，运行目标识别等AI任务和大语言模型都没有问题，这可以说是龙芯的第一款GPGPU产品。官方宣称，在900MHz频率下，LG200的FP16单精度浮点性能为230.4 GFlops（2304亿次每秒），INT8整数性能为7.2 TOPS（7.2万亿次每秒）。实际上，其频率最高可以达到2.2-2.5GHz，适当开放频率后，FP16浮点和INT8整数性能分别可以达到256 GFlops和8 TOPS。

▌未来三代GPGPU规划

龙芯未来的GPGPU发展将分为三步走，并开启一个全新的龙芯9A系列，也可以称为LG300系列。龙芯GPGPU的架构设计看起来与NVIDIA的颇为相似，也是分为多个图形处理集群（GPC），彼此通过L1N网络互连。

所有GPC加上二级缓存，通过L2N网络连接各个顶层模块，包括内存控制器、指令处理器、显示控制器、视频编解码控制器和PCIe控制器。不同硅片之间还可以通过LCL龙链进行互连，大大扩充芯片规模和性能。GPC内部由一条GP图形流水线、多个SP流处理器组成，而每个流处理器包括一个纹理单元、多个矢量单元，每个矢量单元又包括16个FP16单精度浮点单元、1个FP32双精度浮点单元和1个Tensor张量单元。每个单元的性能指标也都已经确定。

龙芯GPGPU虽然自研，但并不封闭，其原则是兼容主流、拥抱开源。作为一套加速计算平台，龙芯GPGPU将具备全方位的能力。在计算API方面，龙芯GPGPU不仅支持传统的OpenCL，还提出了兼容CUDA（暂不清楚具体实现方式），可支撑训练、推理、微调等全场景AI，覆盖云侧、边缘侧和端侧全领域。此外，图形API将紧跟OpenGL和Vulkan两大行业主流，视频编解码加速支持也将逐渐覆盖更多格式。

龙芯9A1000：已经进入设计尾声阶段，即将完成流片，预计2026年推出。这将是龙芯首款GPGPU专用芯片，通过它初步走通和验证设计思路，可用于独立显卡和AI加速卡。其定位较低，成本也较低，性能大致相当于AMD 7年前的入门显卡RX 550，但已经支持曲面细分和计算着色器等特性，不过图形API仅支持到OpenGL 4.0（RX 550支持OpenGL 4.6）。该芯片还集成了视频编解码模块，支持最常见的H.264和H.265格式。在AI推理性能方面，预计在INT8整数格式下可达到32-40 TOPS。

龙芯9A2000：计划于2027年推出，将达到主流性能水平，实现完整功能，可用于桌面和服务器。通过架构优化和堆料双管齐下，龙芯将大力提升性能单位比，整体性能可提升大约4倍。例如，FP16浮点性能可达到5 TFlops，INT8整数性能可达到160 TOPS。此外，该芯片还将首次支持双硅片互连，性能可再翻一倍，达到同工艺下的国际先进水平。在图形API方面，龙芯9A2000终于可以支持到OpenGL 4.6，张量单元将支持包括BF16在内的更多数据格式，并加入虚拟化支持。

龙芯9A3000：暂无具体时间表，但其目标是首次冲击高端高性能市场。该芯片的工艺将与龙芯CPU一样演进到xnm，频率有望大幅提升，性能将再次实现3-5倍的跃升。

龙芯表示，未来将继续优化架构，全面实现基本功能，然后扩展功能和性能，全面优化挖潜，逐步实现图形流水线和计算性能的可扩展，大力提高能效比和单位面积性能。龙芯的“先通后专”发展路线意味着先做好通用的GPU，再做好专用的GPGPU，尤其是在AI方面。现阶段，龙芯主要面向端侧的AI推理，满足日常应用需求。至于云侧的AI训练，目前仍由AI加速卡承担，龙芯暂时不考虑涉足该领域。

龙芯的GPU发展路线图显示，其未来产品将逐步支持OpenGL 3.2/4.0、OpenCL 3.0（尽管该标准已基本被市场淘汰），并加入新的Vulkan 1.1。至于DirectX，由于其为封闭标准，纯自研的国产GPU暂时还无法支持，除非购买Imagination PowerVR之类的国外IP授权。

上一篇：5月21日起，济南公交568路、K85路优化调整部分运行路段

下一篇：喀纳斯有民宿挂牌价涨到4000元/晚？当地市监局：民宿价格由市场调节决定，会做价格引导工作

韦德 官网

韦德官网