龙芯开源社区

 找回密码
 注册新用户(newuser)
查看: 3735|回复: 5

3A2000,3B2000在2015年底应该会露面吧?

[复制链接]
发表于 2015-5-28 19:39:38 | 显示全部楼层 |阅读模式
本帖最后由 sdzgll2g 于 2015-8-20 10:45 编辑

好久没关注龙芯了,最近看到说龙芯新一代处理器核GS464E研制成功,可喜可贺,随即在知网上下了一篇关于龙芯GS464E处理器核的论文,叫《龙芯GS464E处理器核架构设计》,里面谈到一些数据令人对采用新架构的龙芯产品充满期待,结合另一篇论文《龙芯指令系统融合技术》,比较期待两件事,
1、龙芯3A2000和3B2000的实际性能表现
2、如果采用3A2000和3B2000来模拟运行X86(ARM)系统或者软件的表现
------------------------
摘点论文资料过过瘾:
多年来, 龙芯高性能处理器芯片一直采用龙芯 2F  芯片设计的 GS464 处理器核 IP(intellectual
property), 该 IP 使用 64 位数据宽度, 支持 4 发射和乱序发射、动态流水线技术, 并支持多核一致性
扩展. 该处理器核历经多个版本的流片, 龙芯 3A, 3B 等多款芯片都使用了这个架构. 然
而, 在多年的使用中, GS464 架构的一些性能问题逐渐显现出来, 尤其是低效率的流式访存性能和较
低的分支预测准确率. 因此, 针对上一款处理器核架构的缺陷, 调研了 IBM 公司的 Power7 、 Intel 公
司的 Ivy Bridge  以及 ARM 公司的 Cortex-A91) 等多款世界尖端芯片的设计规格, 龙芯公司于 2012
年开始研发 GS464E 处理器核 IP. 该处理器核的设计采用多项创新技术, 重点解决积垢已久的性能瓶
颈. 使用该处理器核的龙芯 3A1500 四核处理器已于 2014 年流片.
-------------
性能评估
4.1 实验平台
GS464E 处理器核在流片前进行了深度的性能评估与性能优化. 性能评估工作基于两个平台, 第
一个是寄存器转换级 (register transfer level, RTL) 电路仿真性能评估, 在这个平台上可以运行一些微
型程序或手写程序; 第二个更主要的平台是 EVE 仿真加速器, 该仿真加速器是 Synopsys 公司旗下
一款硬件验证仿真加速平台, 已被全世界重要的半导体和电子系统公司所采用, 在此平台上可以启动
Linux kernel 并挂载文件系统, 并运行中小型测试程序.
测试平台所使用的处理器频率为 1 GHz, 除有特殊标注的程序外, 所使用的内存均为 DDR3-1000
双通道内存. 对比平台为龙芯 3A 四核处理器, 处理器频率为 1 GHz, 所使用内存为 DDR3-667 双通道
内存. 部分测试程序在 Intel Ivy Bridge 处理器上也进行了实验, 所使用的处理器型号为 i7-3770, 主频
为 3.9 GHz, 内存为 DDR3-1333 单通道内存.
系统级测试所使用的 Linux 内核版本为 2.6.36, 编译器版本与优化参数在测试程序一节介绍.
-----------------------
4.3 性能评估结果
性能评估的结果将按照程序的特性, 在本节予以分类介绍.
SPEC CPU 2000 测试程序的性能测试结果如图 5 所示, 图中纵坐标表示 GS464E 处理器核相比
于龙芯 3A 芯片提升的百分比. 结果显示, 定点测试程序的性能平均提升了 54.9%, 而浮点测试程序的
性能平均提升了 100.6%. 性能提升的主要原因是由于 GS464E 处理器核使用了更大的队列, 因此可以
更好的开发程序的并行性. 此外, 访存性能的提高也会提高 SPEC CPU 2000 的运行速度.
Linpack 性能的提升如表 1 所示. HPL 程序在分块较大的分块策略下, 其性能提升了 4 倍有余
-----------------------------

此外, 核心循环 dgemm 的效率从龙芯 3A 芯片上的大约 50% 提升到了 GS464E 处理器核中的大约
90%. 这主要是由于 GS464E 处理器核中加入了块式软件预取指令, 可以将所需要的数据在前面的循
环中预取到缓存中. 相比之下, 在 Intel Ivy Bridge 处理器上得到的 dgemm 效率在 90%~97% 之间, 与
GS464E 上的执行效率相比并无太多优势.
-------------------------------

性能评估时使用到的流式访存型程序包括 memcpy, stream 与 stressapptest. 其测试结果如表 2
所示. 流式访存的性能相比于龙芯 3A 芯片有了非常大的提升, 很多测试程序都可以提升接近 20 倍的
性能. 这说明 GS464E 处理器核中实现的预取引擎是非常有效的.
如果按照访存带宽与内存峰值带宽的占比来比较, GS464E 已经可与 Ivy Bridge 处理器的性能相
比. 测试结果见表 3. 由于本实验中 Ivy Bridge 处理器使用了单通道内存, 因此这次实验中所使用的
GS464E 处理器核也仅配套使用一个 DDR3-1000 的单通道内存条. 龙芯 3A 芯片虽然使用双通道内存
条, 但是其内存路由设计导致运行 memcpy 及 stream 程序时无法使用第二个通道, 因此龙芯 3A 使用
双通道内存条的结果等同于其使用单通道内存条的结果. 从这个实验可以看出, GS464E 处理器核在
进行内存拷贝时可以利用 70% 以上的峰值内存带宽, Ivy Bridge 的处理器主频与内存频率之比更大,
理论上它应该可以获得更高的带宽占比, 但实际上其表现并没有明显优于 GS464E.
SPLASH2 的测试结果如图 6 所示. 图中纵坐标表示的是 GS464E 处理器核相比于龙芯 3A 芯片
的性能提升百分比. SPLASH2 程序平均性能提升了 199.7%, 平均数算法为几何平均. SPLASH2 程序
中有大量的内存同步操作, 也即原子操作, GS464E 处理器核在 SCache 中为原子操作所加入的特殊设
计有效地提升了该程序的性能.
---------------
性能评估时使用的其他程序的性能评估结果如图 7 所示. 纵坐标表示 GS464E 处理器核相对于
龙芯 3A 芯片的性能提升. 分支指令较多的 Dhrystone 程序, 以及有少量访存操作的 Coremark 与
Unixbench 都有 40% 以上的性能提升, 而运算类测试程序也有少量性能提升. Bogomips 的分数则因
为取指机制的优化和定点部件 forward 的加入, 从而提升了 150%.
其中一些的运算类程序在 Intel Ivy Bridge 处理器上也进行了测试, 其与 GS464E 的对比结果
见表 4. 其中 Dhrystone 程序性能相对低下是因为 gcc 编译器在编译该程序中字符串比较的函数
时, 生成了一些低效率代码. 通过手动修改汇编代码, 修改后的程序在 GS464E 处理器核上可以达到
3.18DMIPS/MHz 的分数. Ivy Bridge 处理器在 Dhrystone 程序上得分较高的主要原因也与编译器有关,
是因为 gcc 直接使用了 SSE4 向量指令来进行字符串比较. 表中的 3 个测试程序规模较小, 都可
以在一级数据 Cache 中命中, 因此主要测试的是处理器核流水线的设计水平. 测试程序的结果都是每
MHz 主频下运行的循环次数, 虽然因工艺差距及物理设计水平的差距, GS464E 无法达到类比于 Ivy
Bridge 的主频, 不过通过这个结果依然可以看出 GS464E 的流水线设计水平可与世界先进水平相比.
------------------------------
经过性能评估可以发现, 相比于龙芯 3A 芯片, 新设计的 GS464E 处理器核在访存密集型程序上
性能提升明显, 尤其是流式访存程序性能提升超过 10 倍. 除此之外, 各类定点、浮点测试也都有可观
的性能提升. 当与 Intel Ivy Bridge 这样的世界先进处理器相比较时, GS464E 的执行效率也相差不多,
Whetstone 程序每 MHz 主频的运行次数以及 stream copy 程序的带宽相比于内存总带宽的比例已经
超过了 Ivy Bridge.
-----------------------
GS464E 处理器核是一款高性能的处理器核架构, 拥有强大的运算能力和很高的访存带宽. 相比
于之前的处理器核, 本次设计重点强化了分支预测和访存流水线, 消除了几个影响性能的关键延迟; 大
幅度地提高了处理器核内部各项队列的项数, 提高了指令的并行度; 加入了激进的数据预取, 重点提
高了流式访存的性能; 优化了各级片内缓存, 提高缓存命中率. 在 GS464E 的处理器设计中, 采用了多
项创新, 包括基于缓存失效队列的预取引擎设计、可适用于多核情况的存储填充机制, 以及基于缓存
一致性的硬件抗别名设计, 一些部件的设计也参考了业界公认的设计方案, 如使用 BrBTB 消除了分
支指令之后的取指空泡, 使用双访存部件设计, 采用双重 TLB 设计等.
经过上述设计, GS464E 处理器核的性能比上一代处理器核产品有大幅提升, 在流式访存程序上,
更是获得了超过 10 倍的性能提升. 从程序运行效率的角度, 其结果已不输于 Intel Ivy Bridge 处理器.
总体而言, GS464E 的设计已经接近国际最先进水平, 是一款国内顶尖的拥有自主知识产权的处理器
核产品.
发表于 2015-6-3 19:35:58 | 显示全部楼层
发表于 2015-8-16 17:24:20 | 显示全部楼层
本帖最后由 isvh5 于 2015-8-16 17:32 编辑

沒有產品上市,說到天花亂墜也沒用!

不斷的跳票使支持者大感失望。

不期望它一下只達到INTEL、AMD的表現。

能貼近己經很好了。

希望他能盡快上市,有現成產品。

盡早建立生自已的生態圈。
 楼主| 发表于 2015-8-20 10:47:02 | 显示全部楼层
本帖最后由 sdzgll2g 于 2015-8-20 10:49 编辑

2015-08-20 05:36:00 来源: 中关村在线(北京)

龙芯在昨天发布了基于全新架构GS464E的3A2000、3B2000两款四核处理器,其中前者是首次与我们见面,官方还展示了搭载3A2000的全新笔记本。


龙芯CPU路线图首公开 与Intel高度一致

对于官方给出的SPEC CPU2000的成绩,这里也应该理性看待,因为SPEC测试中CPU厂商可以手动调节测试代码来优化性能,类似的优化手段却不一定能对主流应用生效。

同时,因为3A2000主频只有1GHz,对标的Intel Ivy Bridge、AMD压路机都降频以对,差距这才不是那么明显。

其实在昨天龙芯的会场,官方相当大方地展示了这款处理器的路线图,只是……不仅和Intel的“Tick-Tock”名字一样,内涵也是一样的,即Tick代表制程改进,Tock代表微架构改进。

龙芯CPU路线图首公开 与Intel高度一致

我们知道,奔四是英特尔Tick的开始,而龙芯的3A/3B2000因为换用新架构,所以归为Tock。

  3A/3B2000采用的是40nm LL(低功耗)工艺,因为龙芯提到是“自主境内”,所以应该来自中芯国际,后者也确实有这样标准逻辑制程线。目前主频是在0.8~1GHz之间,原因我们已经说过,这里不再赘言。

龙芯CPU路线图首公开 与Intel高度一致

到了明年,采用28nm SOI(绝缘体上硅)工艺的3A/3B3000就会提供样片(目前代码已冻结,Q4流片),正如龙芯总裁胡伟武之前对新华网所说的那样,主频提升将是重点,预计可以到1.6GHz~2GHz。

SOI工艺最早由IBM提出,AMD一直是拥趸,从130nm一直走到32nm,可以说,AMD处理器能上到高频率,SOI工艺功不可没,看来龙芯也打算尝尝甜头。

接下来就是换用新架构的28nm 3A/3B4000,同时第一款八核处理器(服务器端)也将亮相并将支持256位向量。

路线图最后我们看到,届时采用14nm工艺、主频2.5GHz的四核3A5000、八核3B5000就将与我们见面,这将是国产CPU的里程碑。

当然,我们必须时刻清醒地认识到在这个国外已经发展超过五十年(以乱序执行发明的时间计算),有十万至数十万顶尖水平从业者支撑的行业里面,无论是从业人数还是从业时间,龙芯都太年轻。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册新用户(newuser)

x
 楼主| 发表于 2015-8-25 13:36:32 | 显示全部楼层
发表于 2016-1-7 17:07:37 | 显示全部楼层
龙芯机会来了,或者会有爆发?

本版积分规则

Archiver|手机版|小黑屋|Lemote Inc.

GMT+8, 2020-8-5 20:56 , Processed in 0.279988 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表