主打主流高性能市场——AMD HD 6870 1GB 测试报告

tayuzheng · 发表于 2010-11-8 10:38

“AMD 需要可以能真正胜任抗衡 GeForce GTX 460 的产品，而今天我们已经可以看到来自 AMD 的答案：基于代号 Barts GPU 的 RADEON HD 6870 和 RADEON HD 6850。”

自从 RV670 以来，AMD 开始不再采用和 NVIDIA 在高端显卡产品上硬碰硬的策略，而是主动瞄准 NVIDIA 正倾尽全力向 GPGPU 发力和产品规划期上的空挡，采取更为着重于主流游戏图形的产品，推出了诸如 RV770、Cypress 等叫好又叫座的产品，特别是 Cypress，由于产品得以领先对手半年时间加上发热较低等优势，已经在 DirectX 11 市场上大有斩获。不仅如此，由于市场领先于对手，让 AMD 在游戏开发商中的地位和影响力得到了一定的提高，这对于一直被诟病的 AMD 与开发商关系有莫大的助益。
Cypress 属于 Everygreen 系列的最高端 GPU，再往下则是 Juniper、Redwood 以及 Cedar。在产品阵线部署上，AMD 推动得非常快，很快就形成了从低到高的完整 DX11 产品阵营。
不过在这个阵线上，存在一个缺口，那就是 Cypress 和 Juniper 之间的缝隙。这个缝隙在一段时间内是有 RADEON HD 5830 暂时顶当，然而当 NVIDIA 于今年 7 月 12 日推出了采用代号 GF104 GPU 的 GeForce GTX 460 后，RADEON HD 5830 担当的阵线出现了崩溃，大量的玩家选择了 GeForce GTX 460，不过我们也意识到：

在 AMD 方面，我们认为它所受到的压力其实并不算很大，只能说在已经刚刚夺取的阵地的一个角落上出现了一个旗鼓相当的竞争产品，只要对现有产品做出价格调整以及增加供应就能较轻松地在新产品推出之前完成阵地巩固任务，但是能否进一步拓展份额，就得看新产品是否能迅速跟进并在整体上超越对手。

AMD 需要可以能真正胜任抗衡 GeForce GTX 460 的产品，而如今我们已经可以看到来自 AMD 的答案：基于代号 Barts GPU 的 RADEON HD 6870 和 RADEON HD 6850。

Barts 体系架构的设计目标和特性
正如我们所知道的那样，NVIDIA 的 G8x、G9x、GT2XX 都属于 Tesla 架构、GF1XX 属于 Fermi 架构，AMD 也有一样的架构代号，例如 Cypess 属于 Everygreen 架构，而这次发布的 Barts 所属的架构代号则是 Northern Ireland。
在 Northern Ireland 架构下针对中高端和发烧级游戏玩家的芯片型号分别是 Barts 和 Cayman。

从上面这张幻灯片可以看出，Barts 的定位位于之前 Cypress 和 Juniper 之间，作用是填补之前在这个区间存在的市场空隙，既非用于取代 RADEON HD 5800 也非取代 RADEON HD 5770，而是应对来自 NVIDIA GF104 （GeForce GTX 460）的挑战，满足中高端玩家的需求，也即是所谓的 sweet spot 所在。在 Barts 上一级的是代号 Cayman 的发烧级玩家 GPU，不过 AMD 对 Cayman 的大部分细节依然没有公布。
Barts 的芯片面积是 255 平方毫米，而这个芯片面积非常接近当初 AMD 首次提出 sweet spot 策略时 RV770 所采用的芯片面积（250 平方毫米），不过就只有 Cypress（RADEON HD 5800）的 76%。

不过 AMD 对 Barts 的设计目标并非单纯地定在 Cypress 的 76% 等级上，而是要求在更低的耗电、成本上实现 Cypress 级别的性能，力求将其打造成为 150 瓦等级市场上最快的显卡。

更为重要的是，AMD 在过去三个月中，缺乏能与 GTX 460 抗衡的产品，在主流高性能市场上的气势上一度处于下风，Barts 的出现就是希望先能将这个缺口填补。

上图是 Barts 的功能模块图，大家可以看到在其中有 14 个 SIMD Core，和 Cypress 相比，减少了 6 个，流处理运算单元数量为 1120，流处理运算单元和纹理单元数量均为 Cypress 的 70%，而其他方面例如内存总线、后端单元（ROP），则和 Cypress 一样，都是 256-bit 以及 32 个 ROP。

有些网友可能看到这个模块图的时候会有一个错觉，那就是误以为 Barts 的前端部分有改进，例如 UTDP 从 Cypress 的 1 个升级为两个。

这个想法其实是错误的，不过这是可以理解的，因为当初 Cypress 发布的时候，AMD 提供了一张容易误解的架构图，将 UTDP 画成了一体。而在今年的 HPG 2010 上，AMD 发布了一张更加严谨的架构图表明 Cypress 其实是具备两个 UTDP：

AMD 于 HPG 2010 技术大会发布的 Cypress 架构图

Barts 和 Cypress 的架构除了 SIMD core 的数量存在差别外，在绝大多数方面都是类似的，例如都有两个 Unified Shader Engine，每个 Unified Shader Engine （USE）都有自己的指令 cache、kernel cache。Cypress 的 USE 可以实现 248 个并发 wavefront，而 Barts 方面的资料暂时欠奉，以芯片面积的变化幅度来看这部分应该不会有大的变动。

	ROP	Texture Address Processor	triangle/cycle	ALU	Memory I/F	Transistors	die size	process node
GF100	48	64	4	512	384-bit	3200M	529mm^2	40nm
GF104	32	64	2	384	256-bit	1950M	354mm^2	40nm
RV770	16	40	1	800	256-bit	956M	256mm^2	55nm
Cypress	32	80	1	1600	256-bit	2150M	334mm^2	40nm
Barts	32	56	1	1120	256-bit	1700M	255mm^2	40nm

上图是当前各 GPU 的概况，不过其中 NVIDIA 的两款 GPU 目前还只是提供了缩水版，实际产品的 ALU 数量比设计少了一些。

此外，NVIDIA 目前为止并没有公布 GF100 和 GF104 的晶片面积，网络上也有一些揭盖后测量的数据，其中 GF100 的 529mm^2 就是本人使用 photoshop 依据像素比例获得的，而 GF104 网络上还只看到过几张斜角度的照片，谈不上用于精确测量的素材，这里 354mm^2 的数据是我从 NVIDIA 公司某人士口中探听得到的。

此外，现在也比较流行的使用游标卡尺测量晶片的尺寸，不过在现实中由于 underfill（填充）物料等关系，这类方法往往测试到的尺寸都会比官方公布的面积（通常也是最准确）大了一些。

例如上图就是我们用游标卡尺测量 Barts 的尺寸，可以看到测量出来的面积约为 264mm^2，比 AMD 公布的 255mm^2 大了大约 10mm^2，至于这个 9mm^2 能否作为一个参考的修正量，那就见仁见智了。

RADEON HD 6870 的时钟频率是 900MHz，频率是 RADEON HD 5870 的 1.05 倍，RADEON HD 5850 的 1.24 倍，这可以反映它们之间的三角形吞吐性能差别；而在单精度/贴图性能方面RADEON HD 6870 则分别是 RADEON HD 5850 和 RADEON 5870 的 74.1% 和 96.4；另一个指标像素输出能力，则分别是 1.06 倍和 1.24 倍。因此从底层性能来说，RADEON HD 6870 的几何、像素吞吐能力是超过 RADEON HD 5850 不少，而单精度浮点和贴图方面则和 RADEON HD 5850 相当。

Barts 和 Cypress 相比在 tessellation 有所改进，可以在 tessellation 因数为 5-10 的时候提供大约两倍于 Cypress 的性能，不过由于依然继承了 Cypress 的非并行几何计算体系，在大规模几何体计算方面依然要落后于 NVIDIA GF104 等产品。
AMD 即将推出的高端 GPU Cayman 将会采用第八代硬件 tessellation 技术，目前的细节并未公布，从上面的幻灯片看，应该就是具备可延伸性和片外缓存。这样的介绍其实比较模糊，可延伸性可以指多个方面，例如独立的几何处理芯片或者是多卡并行（Crossfire）时的几何吞吐率。
Barts 被削掉了硬件双精度支持，因此不是十分适合于 HPC 场合。

Barts 还改良了 Anisotropic Filtering 的性能，可以在应用高频信息的纹理的时候呈现更加平滑的纹理取样效果。

MLAA 是最近两年中比较热门的话题，它可以作为一个后处理滤镜对已经完成渲染的画面进行几何形态识别并加以平滑处理，由于只是纯粹对色彩信息进行加工处理，因此 MLAA 的性能消耗比暴力方式的 SSAA 低。

MSAA=1X|MLAA=Disabled

MSAA=4X|MLAA=Disabled

MSAA=1X|MLAA=Enalbed

不过由于 MLAA 是缺乏几何体信息做的后处理滤镜，因此还是可能会造成对纹理锐度一定的破坏。

AMD 是透过 Directcompute 来执行 MLAA，可以适用于 DX9、DX10、DX11 游戏，目前已经可以透过 CCC 打开、关闭 MLAA，理论上 AMD、NVIDIA 的 DX10、DX11 GPU 都能执行 MLAA，当然 MLAA 本身也是有一定的性能需求，例如分支较重。

[新闻] 主打主流高性能市场——AMD HD 6870 1GB 测试报告