3DMGAME 3DM首页 新闻中心 前瞻 | 评测 游戏库 热门 | 最新 攻略中心 攻略 | 秘籍 下载中心 游戏 | 汉化 购买正版 侠客前传 | 刺客信条 论坛

注册 登录

QQ登录

只需一步,快速开始

查看: 87959|回复: 123
打印 上一主题 下一主题

[原创] Taizer硬件百科全书完结篇澎湃动力(电源)及全部合集<运算至上-3D王朝-稳定基石>———文档版61楼放出百度网盘下载无限制时间,感谢提醒。

  [复制链接]

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
跳转到指定楼层
主题
发表于 2013-5-16 01:43 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 taizer 于 2013-12-15 14:35 编辑

    电源和机箱将是本系列文章的完结篇章,在正式开始说东西前,请允许我自顾自的说些题外话。
    我写这个东西的初衷是想依靠里面所讲的东西,让看完它的人可以举一反三,初步具备自我判断硬件规格的能力,而不被媒体的炒概念性的东西给牵着走。
当然,等我写完才发现这个目标似乎很难实现了。我原本打算由浅至深的来逐渐说明,可真正当我开始写的时候才发现很不现实,硬件知识浩如烟海,提起笔来就感到了莫名的恐惧,
我一度对这篇文章的是否能真正完成产生过怀疑。
    我的一位硬件好友对这篇文章缺乏基础性的知识提出了抗议,在这里不得不说明一下。
这四篇东西的文本总量在如此压缩的前提下依旧达到了接近七万字,要知道这不是写小说类别的东西,这是纯粹的计算机技术类文档,
有时候我为了说明哪怕一个很小的细节都要花上很多的时间去找图,配上说明。也许只是短短几句话依旧会消耗大量的时间。
如果加上基础性的内容,那么文本容量就会达到一个我个人无法承受的程度,毕竟我只能依靠业余休息的时间来写。
加之考虑到基础性的内容在网络上还是比较容易找到的,多方权衡后,我决定只讨论较为重要的信息。
    你们所看到的从第一篇到完结篇耗时不到一年,实际上这是有草稿的情况下。
我原本预计的完成时间大概在2010年底左右,而我有写这个东西的想法则要早的多。
论坛上大量重复的信息和帖子漫天盖地,因此我就产生了写一个覆盖较广的东西的想法。
    写这个东西实际上也是个自我学习的过程。很多东西我也记不太清楚,等到要成文的时候就需要精确的数字和分析了,
我不得不去重新查,在查阅的过程中又牵涉到了其他的东西,于是又决定新添加些什么。
就是这样在大结构不变的前提下,缓慢的增加了不同的内容和分析。
我的床头在写硬件百科全书期间一直放着一支笔一个小本子,就是怕睡前或者刚起来的时候突然想到了什么过后会忘记,要赶紧记下来
由于我觉得坐床上用笔记本写东西会觉得别扭,不得不用台式机写,这些天还算不错,写板卡章的时候,正是天冷的时候,很受罪。
     3DM的前身是叫3DHM,主要的事业是illusion公司的游戏汉化,现在一部分3DM玩家就是在那个时期因为这样的事情被吸引而来。
我来3DM的原因更加非主流,现在3DM比较火爆的囧来囧去,其前身应该是“爆笑网文”,更新又很快,我那时候基本天天来看。
那时候年幼无知笑点很低,经常一个人坐在那笑的接不上气。当然后来我果然发现了3DM的大杀器:illusion社的汉化游戏,我也就毫无疑问的定居了。
直到今天,我也对鸟姐参与汉化illusion游戏的行为本身感到空前的正能量。一个女人,义无反顾的投身到面向扣脚大叔的成年人指向游戏的汉化工作中去,这是怎样的一种精神!
     后来3DM成为了国内汉化的标杆,在作为一个伸手党的同时也有了做点贡献的想法。加之3DM的硬件区算是很干净的了,于是这里成为了硬件百科全书的首发及仅发论坛。
     由于各种我们已知各种的原因,在我们这个国度里,信息和全球的同步率不是很高。
唯独硬件这个区域,中国玩家获取信息的速度和全面性丝毫不亚于发达国家,甚至中国硬件玩家的整体水平我认为还高过发达国家。
从某个层面上说,硬件这个领域是值得我们这些玩家去珍惜的,难得真●全球领先水平啊。
    硬件带给我的东西有很多很多,很大一部分甚至还有精神层面的东西。
我这人爱好广泛了点,漫画美剧历史军事经济,还听摇滚看看圣经爱达经什么的,乱七八糟什么都来点,但真正让我消耗了大量的时间精力的估计只有硬件吧。
有时候一种爱好带给你的不仅有精神上的充实,还有一个完整的世界。每个人都想活的和别人不一样,就像中二病里说的那样,“人这一辈子都是中二病患者”。
     DIY在现在这个时代正在走向廉价化和简单化,有时候我会突然怀念那个电脑城卖家都需要知道如何用DOS来分配内存的时代,
那个主板没有固态电容和封闭电感却布满元器件的时代,那个一个不讲究卖相的时代,那个没有那么多夸张的概念炒作的时代。
     硬件论坛总有一个很奇怪的现象,就是吵,吵架的吵。很多帖子往往没有任何实际性的内容,起一个很有争议性的标题,于是一帮子人在里面吵的都快骂了娘。
图什么许的这是?!
    论坛的本职任务是讨论不是争论,这有本质上的区别。我知道A知识但不完整,你知道B知识也不完整,讨论过后,我们拥有完整的AB知识体系
争论呢?惹一肚子气,而且最终的结果,我相信我的A系统是完整和正确的,你坚持的你的B体系是完整和正确的,于是我们两个带着不完整甚至是不正确的认知参与到下一场战斗中去了。
硬件玩家另一个奇怪的现象就是对立性。有品牌偏向很正常,但你不应该把其他品牌偏向的玩家放到你的对立面。
你总不能因为自己喜欢波大的,就把觉得平胸才是宝库的人放到自己的对立面去吧。大家都是喜欢胸的,大小什么的搁一边,我们都是好战友好同志,是吧?
一个硬件产品永恒无法完美,它本身就包含了价格性能功耗做工品牌附加等多种属性,
因此一旦把对硬件的问题稍微拔高一点,就会立刻形成相对宏观的问题,而问题一但宏观就很难分出对错。
所以,当你陷入到这样一种论战的时候,甭回复了,没结果的。“唾面自干”与君共勉。

   写道这里我突然想起一件在显卡篇忘记提的事情,就是入门级显卡的大容量显存问题。
通常的观点是,入门级显卡的性能如此低下,配备超大容量显存根本没有任何作用,就是为了欺骗没有硬件知识的购买者而作出的设定。
其实这仅仅是一个方面。Ram是要成本的,入门级显卡何苦要增加自己的成本呢?更多的考虑可能是为了对未来游戏的兼容性。
实际上大多数玩家都不是画质党,很多人对游戏显卡的需求也仅仅停留在可以体验游戏的层面,一块显卡能让他在低画质下体验游戏就足够了。
由于游戏本身纹理库的大小,游戏本身会综合考量场景的纹理缓冲而对游戏显卡有个最低的容量要求。
入门级显卡正是为了其将来依旧能满足新游戏的显存容量要求而做出这种显存设定的。
比如过去性能相当不错的7600GT 128m /128bit在一些游戏里就无法运行,即使他的性能可以运行。


继续扯淡。你们有没有见过硬件玩家相处无比和谐的地方呢?好好想一想,有的!





答案是成年人论坛。
我相信大家都同意这样一个前提,硬件论坛和成年人论坛的用户有大范围的交集,简单的说,很多人是一波人。
你见过喜欢欧美的和喜欢日本的吵架么,你见过喜欢漫画的和喜欢真人的吵架么,你见过喜欢无码的和喜欢有码的吵架么,你见过喜欢高树玛丽亚的和喜欢苍井空的吵架么。
为什么,在那个环境里大家都友好互助,彼此理解,互相尊重。而一回到自己个儿的地盘就不行了呢?
我建议当你拾掇好片儿刀、板砖、鸡蛋准备出去干人的时候,先问自己一句:这人有可能是我在××论坛的前辈,帮过我很多(种子),我是不是真的要去干他?
在这里,我对本文还有最后一个愿景。
我希望有人能对本系列文章进行补充和修改,最终完善它,使之真正成为献给硬件玩家的一道盛宴而不是咸菜。我也会尽快放出文档版下载。
本次,不再有开头小段,也许大家会失望了。不过,在本文完结之后,我稍作休息,会专门来写无节操小段,到时候就发到囧来囧区吧。
本章节共分为两个大的部分:电源以及机箱。电源将涉及如下几个方面
1.基本的元器件2.拓扑结构3.输出质量的分析;机箱则分为1.扩展性2.散热和兼容性3.细节设计。
当然最终成文可能略有不同或者完全不是我开头说的这回事也是极有可能的。习惯就好了。
我会先给出大概的图表,方便描述元器件的时候能更加直观。
只介绍一些当前常见的拓扑方案,对于早期落后方案或者小众方案不再赘述,电源的输出质量会结合元器件进行部分介绍,各个部分并没有明显的界限,互相渗透。
最初我希望能以一个具体的电源作为模板来说明,后来发现如果这样做反倒不够全面,最终的描述方恐怕会有点乱,尽力为之吧。
部分图来自CHH,G大的电源测试,有些方案G大的图基本算是独一家,调戏G大的1个小时也解决了不少我的疑惑,深表感谢。特地说一下。


1.正激
半桥之后最常用的一种拓扑。特点是成本适中,高速开关保证了电压稳定性较好,由于输入和输出的同时进行,转换效率也有一定的保证。
如果用料有一定程度的保证,则能在电源输出的绝大多数参数中都有上佳表现。分为单管和双管两种。
有源箝位技术,常常作为一种补充出现在正激电源中。
有源箝位从本质上来说仍旧属于软开关管技术,使得开关管的导通电压进一步降低,从而形成几乎零损耗,通过对电感储能的回收利用进一步提升电源的转换效率。
有源箝位的正激电源可以看到谐振电容(不太好找),以及额外的箝位开关管,以上是辨别方法。
在500W-800W级别电源中,个人最倾向于正激+有源箝位+DC-DC的方案,可以在输出质量、转换效率、成本上取得极好的平衡。





2.LLC谐振
LLC谐振是目前最普遍的高转换效率电源拓扑方案,基于软开关管技术,可以在较低的成本下实现较高的转换效率。
缺点在于,谐振在进行电压反馈调校的时候会有额外的相位叠加,也就是说电压稳定性要次于正激拓扑,环路响应也是缺陷。
不过目前依靠优秀的二次侧调校和高端PWM-IC,高端LLC已经进入了一个相对高输出质量的时代。现在就着LLC我要说说80plus认证的问题。

首先,我要说明80plus认证的高低和一款电源的质量并没有紧密联系。  
一个电源除了输出的功之外,剩下无奈消耗掉的就是元器件的发热,也就是不做功能耗。
如果我们简单的去理解下,在拓扑不变的前提下,要提高一个电源的不做功功耗,就是要降低元器件的发热功耗,通常的解决办法是将被动元器件换为主动元器件。
这一手段会增加成本,提升效率,加上主动元器件的开关速度更高,一般来说也会改善输出质量。
知道什么的转换效率能接近100%么?

答案是一根导线
将电源的问题的无限扩大化就是,如果设计无视输出质量,就可以采用各种方法去减少元器件的发热,最简单的也是最恶心的就是减少元器件。
加上LLC这种天生低成本软开关技术的存在,更是给低端金牌电源铺了一条相当坑人的道路。   
电源不像其他配件,有的可以用跑分软件,有的可以用超频软件,都很容易衡量其好坏,电源一直缺乏一个有说服力的行业标准,
80plus认证神奇的成为一个标准过后,并且被媒体不停吹捧,现在某种意义上设置成为厂家和玩家的双重负担
厂家可能为了挤进某个效率线而不得不放弃一些更好的设计,或者增加不必要的成本,而玩家则要去负担80plus这一认证费用,虽然认证前后电源不会变好或变坏。
80plus的初期认证是有能源补贴的,现在虽然已经没有了,但它已经成为一个行业标准了,厂家只能顺从这一现状。80plus的认证费用以出货量来计算,而且费用不菲,完全是额外的成本。  

80plus的真正好处在于,一个高转换效率电源证明其在发热上非常的低,元器件负担较小,预期的稳定性较为客观。
其二,一个经过80puls认证的电源,一旦我们看到了其拆解知道了其内部方案,那么根据它的型号购买,日后买到的会和我们看到的一样。
也就是说80puls的零售版不能够随意改动元器件,如果刀了你会知道(改动主要元器件要按要求送测新方案,并在原型号上加上后缀编号,加以区分)。
当然不排除无良商家私自改动,但这毕竟是极少数。

谐振拓扑不需要储能电感,也加重了LLC先天的波纹缺陷,滤波电路一般配置较为豪华,算上谐振电容的存在是判断其拓扑的主要方法。
谐振电容有时候会隐藏在谐振电感下,有时候谐振电感会和主变合并,有时候还会添加一个互感器用于IC监控电流,因此元器件布局整体上会有些变动。
待机变压器上一般能看到导线引出,上图的谐振电感应该就是合并了。由于全桥LLC不是交错开关,它的驱动变压器也是只有一个,只能从开关管的数量上判断(全桥一般是4个)。

1:待机变压器2.主变3.谐振电感4.谐振电容5.互感器6.全桥驱动变压器注意互感器是接到PWM IC的,方便IC直接监控电流,这互感器可以省略。


3.ZVS移相全桥
主要应用于高端大功率电源,其拓扑特性使得其可以在大功率级别上做到输出质量的高水准,当面对1500W+这种级别,双双管正激或者全桥LLC都显得力不从心。
ZVS移相全桥是一种高成本的软开关管解决方案,其整流桥和PWM电路成本都相对更高,特殊的移相交错上下臂交替占载特性使得输出相位产生抵消.
加上可以使用倍整流技术,具备天生的高效、稳压、低波纹、快速响应等特性。
如果使用其他拓扑来实现类似的输出方式,比如LLC交错,整体成本可能会更高,而且相比ZVS仍旧在响应上会有差距。
双驱动器,谐振感,和双12储能是ZVS的显著特征,只有少数ZVS拓扑不利用倍整流特性而配置单储能。
倍整流的双电感处于交错模式,轮流储能和滤波,波纹互相消退,因此相对来说ZVS的12V滤波电路可以简单一点。



评分

6

查看全部评分

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏31
回复

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
舒服的沙发
 楼主| 发表于 2013-5-16 01:43 | 只看该作者
本帖最后由 taizer 于 2013-5-16 02:30 编辑

关于各个拓扑的方案设计和生产,主要的几个电源厂家是有所区别的
1.正激下的双路磁以及ZVS移相全桥是台达的拿手好戏,ZVS自不用说,台达炉火纯青。其多年的双路磁设计方案更是在输出质量上直追DC-DC。
而在超大功率电源上,台达确实做到了傲视群雄的地步,其双ZVS双PCB 2500W方案豪华的要死。

2.而海韵可以说是把LLC做到了一个全新的高度。在LLC刚走向前台的时候,我对这种拓扑有着天生的抵触,主要是当时的LLC拓扑输出质量总体上确实很不理想。
目前海韵的LLC方案已经非常成熟,依靠精确的二次侧调校,出色的元器件配置以及远端电压侦测等技术
(电压侦测反馈的端设置在线材末端而不是出线端,可以看到额外的线材,减少线材的降压影响),终于将LLC输出质量带入到比肩buck衍生的程度。
另外海韵在正激拓扑上也颇有造诣。在平衡成本输出质量同时兼顾转换效率的方案设计能力上,海韵也相当好。

3.全汉以金甲战神系列打响了在PC消费电源领域的名声,全汉在正激以及LLC上颇多建树,特别是自主IC的引入,更让全汉引起了玩家和媒体的高度关注。
由于基于AU系列的单管+有源钳位方案在设计上非常出彩,在PFC一节,我将会略微提及。

4.TT在一次OEM代工业务单上和乔威有过一次相当“舒服”的合作,此后TT开始逐渐将全线产品引入乔威方案。
乔威在半桥拓扑时代就很出名,现在的乔威在主要的拓扑方案上都有高性能/高利润方案应对,其高端方案狂野不已,入门方案则能做到过检的情况下将成本做到一个相当低的程度,研发实力可见一斑。

5.康舒电源的主力仍旧以正激为主,而且它的代工业务相对也很多。
低端很便宜,高端的R系列M系列却非常意外的在使用单管正激有源钳位,虽然用料扎实但方案的先天缺陷使得其在千瓦级电源市场缺乏竞争力。

6.益衡是台系著名大厂,代工业务和服务器业务为主,在ZVS上和台达一样造诣颇深,在正激和LLC上也同样有优秀的方案,以能通过各种严苛OEM测试闻名,研发实力雄厚。

7.航嘉和长城。国内机电大厂,自主方案和采购渠道。现在已经成功转型到全面的正激方案,在大功率电源部分长城目前已经只以双管正激应对,输出质量趋于理想了。
航嘉则具备了ZVS方案投放超大功率电源的实力,同时它还特别喜欢交错式PFC。同时航嘉和长城还是主要的OEM供应商,在中端电源方案上也非常拿得出手。
目前要克服的还是性价比和市场认可度的问题,毕竟台系电源实力雄厚。我仔细想想内地的工厂背景的计算机配件供应商还真的是电源这块实力最强。

以上是主要的电源代工企业,其他一切电子代加工厂也具备电源设计和生产能力,比如富士康和伟创力这两个知名的板卡代工企业。
我们所熟知的诸如安钛克、海盗船、银欣、TT、酷冷至尊、金河田等,其电源产品线依旧是依靠以上的代工企业,各个产品线所采纳的代工厂各不相同。

第二部分
电源主要指标和元器件
先说指标部分

1.电源超载能力
有些媒体测试竟然用普通PC给电源挂载,在额定输出内跑一跑测试得出稳定的结论。
实际上每一个电源都应该具备一定程度的超载能力,其元器件的冗余应该相对充足,也就说在限额保护的功率之外仍旧有一定的空间。
元器件冗余代表着电源即使长期工作在电源额定的高载程度,其元器件仍旧属于中等负载状态,这对电源能长期稳定工作很重要。
早期没有负载仪的情况下,一些国外的硬件测评网站就使用条形电阻来进行电源的超载测试。希望未来超载能力能作为硬性标准普及。
2.输出电压稳定性
压稳性能应该是电源最重要的指标之一,完美的电源应该在低载和高载情况下都能保持在输出规范上,当然实际上是不可能做到的。
Intel的规范是5%偏离,目前的中高端电源都远低于这个数值。另外考虑到高载下会造成的欠压,一般的电源轻载输出的基准线会略高于标准值。
对于静态输出的稳定值来说,看的是电源轻载基准线到重载输出下的电压跌落幅度,这幅度越底越好,同时基准线很接近规范值,满载下跌幅度又很低正好落在规范值上是最完美的。
当然在实际的输出中,电压从低载到高载状态的调节过程中,还存在着超过这2个数值的调节区间,称为过冲和下冲,我在动态部分会简单说说,因为有的媒体这部分测试是有点问题的。
下面来看看交叉负载下的稳压问题。现在把电源的加载模式分为以下几种

1.最低载 intel规范是此时3.3加5联合20w,12V 1.2w  
2.拉满3.3加5V联合输出拉满,12V空载
3.拉满3.3加5V联合输出拉满,拉满整机  
4.拉满12V输出,3.3和5v联合输出空载

有些电源测试会追加几个额外的点,这里不再赘述。
交叉负载意在模拟使用中最极端的情况,从而考察电源在各路不同挂载的情况下,电压的互相影响。
虽然日常使用不会出现以上的情况,但这种规范确实能考验出电源的适应能力。
静态测试的各个级别挂载,单路输出都不是挂满的,只有交叉测试能挂出保护阈值,所以某种意义上来说更能考察电源的适应能力。
我们对以上4种挂载大致说下。状态1下,由于实际使用过程中不会出现这种功率分布,有些电源的交叉负载测试在这个点上会出现12V略高,甚至超标。
对于状态2,3.3和5V对于12V这一路的影响更为明显,部分电源在这个状态下12V甚至比状态1更高,另外由于辅路满载,3.3和5相对基准线有所下降。
如果这个状态下的3.3和5欠压过于严重,那么电源的交叉负载能力就不太理想了。
状态3下,12V输出开始影响3.3和5,辅路开始欠压,一个单路磁带方案在这个模式下5V会有相对更大的欠压。
状态4是12V压力最大的时候,12V相对基准线有一定的下降幅度,如果此时欠压严重,电源不建议购买,毕竟12V高载还是比较容易出现的情况。电源冗余令人担忧。
虽然交叉负载测试中所出现的极限情况在日常使用不会出现,但这仍旧是考量电源在高载状态下各路电压稳定性及互相干扰最好的办法。
比如一个单路磁方案由于其12、5共用绕组和储能电感,造成12V、5V在交叉负载下的成绩不理想。
那么日产使用中12V和5V在高载情况下(虽然无法达到交叉负载测试的压力程度),有可能就有一个较高程度的偏压。
考虑到HDD的12V并没有buck降压保护,5V虽然有但也非常简单。
那么如果你的机器电源功率较小可能长期处于高载状态,处于谨慎的考虑,就尽量选用双路磁或者DC-DC方案的电源来保护HDD。
毕竟数据无价,你懂的~

3.输出波纹干扰
波纹指的是没有过滤掉的交流波纹,通常来说波纹的高低程度是由滤波电路部分的配置程度相关的。
AC经过高压整流桥以后进入PFC电路,PFC的主电容成为第一道滤波。
100Hz的低频分量主要靠PFC主电容来滤走,容量越大则越有效,(同时考虑到大容量电容的浪涌问题,在大功率电源上有时候还能在PFC电路看到NTC元件,有的NTC还会搭配继电器使用。
继电器用于短路NTC,进一步降低损耗提升可靠性)。
低频分量会对直流的传输造成影响,所以在PFC电容的容量不仅仅是所谓的冗余充足那么简单。
另外,PFC电容的大小直接关系到负载的保持时间,在突然断电的情况下有足够的时间给PG信号来关闭硬盘从而保护它。
拓扑本身也存在一些先天性的波纹优势,ZVS最好,正激次之,LLC相对要差些。
要达到相对较好的波纹性能需要很好储能感和电容配置,而且考虑到过大的冗余还会产生寄生尖刺和震荡并且影响到电源的回路相应性能,
所以高端电源通常都会使用磁心材料昂贵的电感和低ERS的高端电容尽量减少这类影响,同时也对调校有着很高的要求。
一款电源要是能在动态性能和波纹性能上做到双高是非常不容易的。

4.动态性能
首先声明,动态负载的测试依旧和交叉负载类似,是一种对极限情况的模拟来考核电源适应能力的方法,而不是模拟日常使用
较严苛的OEM供货标准中,动态响应的负载变动幅度是25%,周期是200μs,电流变化率为1A/μs,也就是一秒钟变动5000次,要求电源通过这样的测试。
由于小功率电源在动态方面压力要小的多,实际上国内的电源供货商就长期面对这样的测试标准。
动态测试考察的是电源在使用过程中,面对功率的陡峭变化的适应能力。实际动态响应要做到很低并不容易,特别是一些电路复杂的大功率电源。
    当电源的功率级发生变化,因为电流的突然增加或者减小,电压就会跟着变化,电压的变化会形成一个信号,
之后通过信号放大器,比较,输入到IC的侦测端,IC相应后开始进行调整变压。而这其中,感容电路,开关管以及IC都会影响到这个相应速度。
    在环路相应中,还会出现问题就是过冲和下冲,也就是首次相应给予的调校电压超过了基准线设置。
有的媒体电源测试会在动态性能的过冲和下冲测试中剔除掉静态电压波动范围,他们认为属于静态电压波动范围内的仍旧属于非过冲和下冲范围。
但这也有个很大的问题,如果电源原本的静态电压波动范围就非常的好,即使它的反馈调校电压范围和另一款静态电压波动很大的电源相比一样,那么他的过冲和下冲成绩岂不是会更差?
   另外如果感容冗余太大,会使得这种调校被过分吸收,也就是说感容电路的储能和释放也会引起过冲和下冲,而且不止是首次调校波峰而是所有调校信号都会引起一种反复的过冲和下冲。
这还不包括电感的寄生尖刺。
(电感容量较大,线缆较长的时候,电感在面对功率变化时的储能和释放特性会产生寄生电感,而寄生电感产生的尖刺很难避免,一方面依靠高规格的高磁通量电感,还有一种方法就是为线缆配备远端电容。)

远端电压侦测和优秀主控IC,能部分对抗电压反馈电路波动。
(电压的反馈侦测调校,一般在低压侧完成,也有极少见的一次和二次侧都有的,由于采用此种方案的极少,无法知道双侧调校是否影响到了环路响应性能。)

5.噪音
几乎所有的电源都声称自己是静音电源,这是何其的坑爹!电源的噪音如果很大,真的,管他什么输出质量多好,我都不会在乎了!没有什么比噪音更让一台PC让人讨厌的了。
购买电源前最好能去卖场听听看,如果不能最好也购买在测试中能找到高载下噪音较低的型号。
关于高频啸叫,中枪了真的很惨。高频啸叫的主要来源是电感类的元器件引起的,有可能是储能感也有可能是PFC感,也有可能是主变。
而且几乎没有办法从拆解上去判断是否会产生高频啸叫,我们只能尽量选择电感都有固定胶的型号,而那种普遍反映有啸叫的型号最好不要冒险。
6.转换效率
转换效率一定程度上说明了较多的元器件和较新的拓扑结构,虽然转换效率没有办法直接反映电源质量的好坏。但通常情况下基于非LLC的高转换效率电源,元器件配置总不会特别糟糕。而且低碳生活真的人人有责。

7.其他
一款电源除了其内部,外面的也很重要,甚至成为玩家购买的主要因素。比如模组化接口,航空头,特殊的外观,特殊的线材,数字化面板等。毕竟有的时候我们追求一款硬件甚至只是为了SAO一点,是吧?




回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
硬硬的板凳
 楼主| 发表于 2013-5-16 01:44 | 只看该作者
本帖最后由 taizer 于 2013-5-16 02:46 编辑

第三部分
下面迎来了本篇我写的最慢的部分,对电源进行区域式和功能性的划分,并标出元器件和实际作用。篇幅经过一定程度的压缩,尽力简洁明了。
上图!
为了方便观察和说明流程本图为正激拓扑。
1.EMI电路
2.全桥整流
3.PFC 电路
4.PWMPFC控制电路IC子板
5.PFC 升压二极管和开关管(开关管为2个并联所以连二极管PFC在散热片上占用了3个螺丝)
6.PWM开关管(双关正激,散热片的正反面各贴了一个,从螺丝上可以判断)
7.PWM开关管驱动变压器
8.主变压器和12V整流管(正反面一共三个,主变左边的2个小方形的元件是光耦,用以分离高低压侧)
9.辅路整流管(3.35V各一个)
10.3.3V单路磁(有热缩套包着的是磁放大线圈,上面一个是3.3的储能线圈)
11.12V5V储能感(12V5V共用绕组和储能,此类设计会影响此路交叉负载表现)
12.感容滤波电路和出线区(搭配有不同品牌容量和电压的滤波电容和厄流感)
13.输出监控电路IC子板

电源输出直流的过程如下:第一阶经过EMI滤波电路去除高频和低频杂讯(通常包含2层,电源插口背面是第一层),然后经过全桥整流器成为高压直流电输入主变电路,主变电路把高压直流电变为低压高频交流电,输送入整流桥变为低压直流,之后经储能滤波电路滤走交流电。

区域性的划分介绍



1.插座背后的一级EMI电路

相对来说比较简单的一级EMI,一对Y电容,一个X,有的时候还能看到磁环结构。

EMI减少来自市电的干扰,滤掉高频杂讯,并且阻止电源本身的开关波动影响到市电。


X电容用以滤掉低频杂讯和差模杂讯。由于X电容相对容量较高,所以有的时候EMI电路不在配备差模电感。

Y电容用以滤掉高频杂讯和共模杂讯。







2.PCB上的EMI电路二级EMI


保险丝

当电流过大的时候,保险丝熔断进行保护,一般位于电路的较前级,实现最早的元器件保护。



差模和共模

火线对地线,零线对地线的杂讯是共模杂讯;火线和零线之间的杂讯属于差模杂讯。

共模电感自然就是抵消共模杂讯,差模就是抵消差模杂讯。

共模是两组线圈反向饶,这个结构不怕饱和,差模是单相饶是会饱和的,所以差模的铁心会使用抗饱和材料。



MOV压敏电阻

这东西的原理是,接在火地之间,正常情况下电阻极高,当电压超阈后,MOV电阻急速下降,火地短路,引起保险丝熔断,保护电源。

由于压敏电阻起作用的时候有时候会爆,所以外面一般都有热缩套包着。(悲壮的小玩意儿~



NTC热敏电阻和继电器


NTC用以缓解高压电容充放电浪涌,等电流趋于平稳,随着NTC温度上升其阻止会变得很小,不再消耗过高的功耗。

有时候见到继电器于NTC并联,就是等到NTC电阻变小后,继电器直接短接它,把这个损耗进一步降低。



3.PFC功率因数校正电路

主动PFC由控制IC,电感、高压电容,升压二极管 开关管等组成

.PFC所做的是相位差补偿,虽然在ATX规范规定必须有FPC之前,此电路是可以没有的,但就电源本身来说FPC对输出质量的影响还是很大的。

这里有个全汉的FPC设计要说下。

FPC的升压二极管是硬开关模式,一般使用碳化硅肖特基二极管。

全汉的做法是用驱动电感+谐振电容的组合来驱动二极管,让其零损耗开关,旁边2个有紧密绕组的红色电感是互感器,用于直接监控电流。

另外其Aurum方案使用了独例的AC-DC3.3V生成方式,减缓了单路磁的交叉负载弱点。这2项设计的依靠是其自主的IC,确实很了不起。





AC全桥整流器、开关管和升压二极管


全桥整流即为字面意思,结构为双二极管,通常单个规格就足够使用,但一般使用并联提升转换效率,一般也安装在散热片上。




从左到右第三个是升压二极管,最右边是PWM的开关管(并联的,有时候也就1个),最左边2个是PWM电路的开关管(一个在背面),通常这3个开关管都是同一型号mosfet.



4.主变部分

此处不再配图了,最容易辨认

.冗余是否充足看绕组半径,通常旁边还有光耦,用于隔离高低压侧.


5.二次侧同步整流

元件依旧是场效应管,非同步就是使用肖特基或者更便宜的传统二极管的.

这个是目前最常用的提升转换效率的方案,为什么叫同步?

就是导通电压低,控制信号到了就能进行导通,就像同步在进行一样.

传统的二极管或者更高级点的肖特基都有个降压,也就是要比需要的电压更高才能导通,这个压差就给二极管扣了,扣了就变成损耗,而且很高.这个部分的成本还是很高的,

如果是大功率电源一次性8个管子都不嫌多.所以有些电源只在12V用同步,5.5和3.3还是用肖特基。

还有那种肖特基方案非常成熟的转换效率也不错,比如S12-II和M12-D,这就是看设计能力了。



6.输出储能和滤波部分




7.主要的控制IC


PFC-IC控制PFC电路工作,调校其状态WM-IC决定一次侧开关管工作方式产生信号,一般电源所使用的IC也有一个官方标配拓扑基本方案供参考。

5vsb也有一套,他算是个单独小变压电路,一般和开关管什么的旱在PCB上,有时候也在背面。

监控IC有时会高度整合,带有温度监控、风扇调速、电压过低保护、电压过高保护、电流过高保护、短路保护、并整合PG信号等部分。


电源部分就此结束,下面开始机箱的部分。



机箱部分由于含有相对较高的主观意识,因此此部分讲不展开深入讨论,文本量很低,点到为止。



1.材料机箱材料

主要分为纯铝,镀锌钢板和冷轧钢板。

根据设计的不同铝材质有时候也单独用在前脸和侧板,并搭配阳极氧化工艺。板材的厚度决定了物料成本。

所以说有的时候以重量来判断机箱好坏虽然不严谨但也大致准确。

机箱接合处的缝隙包括侧板缝隙等都是考验工厂工艺水准的地方,像脚垫以及带橡胶垫的手拧螺丝等这类细节也是能看出厂家用心到位程度的一个方面。

目前台系品牌和日系品牌在细节上仍有一定差距,不过高端机箱已经到了一个非常好的高度。




2.外观

外观虽然有着很高的主观性,但那种强烈的塑料感和冲击性颜色搭配的机箱通常不会火上很久。反倒一些内敛型的机箱一直被模仿。



3.扩展和兼容

如果是ITX机箱,就最好能考虑到一些异形ITX主板的兼容;如果是全塔型号,最好能在兼容E-ATX之外仍旧具备不错的扩展空间。

对于高塔散热的支持;对超长显卡的支持;对超长电源的支持等。



4.散热配置

可以较好的搭建正压风道,标配进风防尘网,风扇位相对较多,又不用牺牲主要的外观设计才是上佳。



5.静音



6.背线功能和可拆卸硬盘笼

这是我认为目前既然要说自己的主流机箱,那么这2个设计应该都有。

合理的背线孔和充裕的背线空间都是一个好机箱的要素,而可拆卸的硬盘笼和方便的无工具导轨设计会让玩家用起来觉得很贴心。





7.水冷设备兼容性

在铺天盖地的机箱都用2-3个水冷孔在表明自己拥有水冷支持能力的时候,似乎在传达一个这样的信息,如果你用水冷,这2-3个孔是有用的。

实际上一款机箱的水冷兼容性,更多的是内部的容纳能力,而不是用走管实现冷排外置。

一个机箱具备较多的且宽阔的风扇位,可拆卸的硬盘笼,一定程度的可改造性、机箱宽度和厚度较大才是水冷兼容性的主要参数。

这才有足够的空间容纳水箱和多个冷排,同时能考虑到风道的利用。

上图为TJ11 D3主题MOD,改造程度很大,而且水路复杂,又是难度极高的直管流,非常强大



8.附件

包括了一些收纳盒,额外的螺丝,工具组件,理线套装、硬盘转接支架等。虽然不值什么钱,但在PC这个行业,细节真的很重要。



9.热插拔支持和扩展

接口丰富且位置合理的接口,自带风扇调速面板,支持热拔插等,都是非常贴心的设计。


回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
冰凉的地板
 楼主| 发表于 2013-5-16 01:44 | 只看该作者
本帖最后由 骨灰剑仙 于 2016-12-30 17:27 编辑

原3篇合并此处,内容原则上不做任何更改。
此文首发与3DM,转载请注明出处即可。
3DM曾经汉化过那么多I社神作,首发再次聊表敬意。
文中难免错误百出,结构混乱,这也是我文章的特点,欢迎指正,反正我早就破罐子破摔了。
当然如果你在某个“哔”论坛PC版块看到此文不要惊讶,很有可能是我去混分的·······
想完全诠释3D图形加速芯片的各个方面,做到层次分明有理有据,再做到精简就很困难了,但我依旧会尽量控制文本的整体规模。
GPU全称Graphic Processing Uni ,直译过来就是图形处理单元。最初出现于NVIDIA的Geforce 256 3D图形卡以后。这本来算是个概念,因为当时NVIDIA的Geforce 256演示demo展示了非常精细的毛发效果,NVIDIA的意思是以后就有了这种CG级的游戏画面。同时期的ATI也提出了VPU的概念,但GPU这个名称更加广泛而被沿用至今。
通常来说,对于PC用户中的3D游戏用户,其3D图形加速卡的性能是机器性能的第一标尺。本文的目的是从架构方面来拆分和分析GPU的各个方面。
在绘制一幅3D场景中,GPU负责多边形的构造、贴图、着色器指令、光照、阴影填充、以及最终的像素输出。CPU负责顶点位置,阴影边框绘制、AI运算以及其他运算指令,包括网络。
GPU要处理的东西具体到游戏主要分为材质库和着色器,这个我们从指令的角度拆着说,主要从GPU架构来分析对性能影响的各个单元。
本文不涉及显卡本身,这部分我会放在主板一文来写。(如果我写的话)
非统一渲染架构已经没有必要讨论,于是从最典型的统一渲染架构来逐步描述。
对于混乱的论证层级请勿怪。
我们将3D图形的处理一般称为图形流水线,这个过程大致是这样的:3D建模--多边形坐标变换及计算--光源处理--多边形坐标转换为屏幕所对应的坐标---对这些坐标做着色器和贴图运算---渲染及缓冲---输出图像。当然这之前还有指令列表处理几何处理以及渲染流输出等。
具体到流程,首先是Input Assembler Stage(输入汇编阶段),这个阶段依靠图元以及顶点信息作生成顶点、和图元地址。再由Geometry Shader一次性处理全部图元,其中可直接包含三角形、线、点。在G80中还引入了Geometry Shader,其主要作用是分担一部分物理操作。最后进行缓存输入、深度/Stencil测试和alpga混合。
我到这里得打住,乱了。先从GPU的规格谈起,再说架构吧。对于GPU性能的判定,主要从规格和架构2个方面。
第一节:规格和指标
GPU主要规格指标:
流处理器数量
阵列数量
光栅处理器数量
显存控制器数量
纹理单元数量
核心频率
显存频率
显存容量
先依次简单分析
1.流处理器数量
流处理器数量是3D图形核心重要性能指标。目前微软的directx作为最广泛的图形API,在一帧画面中所输入的指令几乎全部由流处理器来运算。从坐标到像素再到光源以及相应的转换,包括由于画面形成过程中所形成的数学向的计算。因此流处理器的数量越多,GPU的运算能力也就越强。特别是在光源复杂的环境,以及像素级纹理大量运用的场景,只要指令端口和外部总线可以承受住线程压力,这种运算能力的提升几乎是成绝对线性的,理论上说只要程序员敢调用足够多的着色器,就可以形成CG级的游戏画面。当然这只是理想的情况,实际的运用中限制就很多很多了。而且流处理器数量也和通用计算能力息息相关。
在早期directx9系列显卡的ALU,具备全4D运算能力,但无论1D还是4D,ALU只能以等效于核心频率进行运算。因此在对比directx9显卡的渲染管线和directx10、11显卡的流处理数量的时候不可绝对的画等号来比较,这里略微提下。

2.阵列数量
我在这里无论是GPC,TPC还是SM,SMX,都看作是近似的阵列。严格意义上来说SM和SMX才是真正的阵列。GPC和TPC更接近于材质通道/线程通道这种单元。
TPC在D11时代已经消失,不再讨论。
GPC作为阵列的集合存在,从物理结构上来说包含SMX和细分曲面单元,从功能上来说又在线程分派上起着承上启下的作用。随着SMX的线程分派器的功能日益强大,GPC的数量相对于ALU的整体规模实际上是在缩小的。从好的一面说,在密集型线程方面,这种架构有着延迟低的优势,而劣势是阵列的线程分派器的压力就很大了。现在SMX能够容纳的ALU单元数量,从本质上来说,并不是阵列能容纳的数量而是SMX这一级的指令分派器能够容纳的数量。从目前单SP的执行效率来看,如果下一步GPU需要扩容ALU单元来提升性能,那么GPC的数量会进一步提升,阵列内含的ALU数量提升会止步或者提升较小。

3.光栅处理器
光栅处理器处于外部总线的末端,所有处理好的指令包括纹理纵深光源都由光栅处理器转化为像素并且最终输送到显示器。也就是说,光栅处理器几乎是GPU的必然短板。无论内部如何强大,最终光栅化的时候如果光栅处理器数量不够就会造成帧数下降从而影响用会的使用体验。在物理结构上光栅处理器和显存控制器挂钩,每64bit的显存控制器和一组光栅处理器一起。最初的每组显存控制器只携带一个ROP,目前这个数量已经提升到了8个。ROP的总数量最大是位宽/64×8,可以低于这个数量,但不可能比这个高。而且由于设计上的原因,光栅处理器的数量扩大非常困难。更主要的是,由于光栅处理器直接影响GPU的像素处理能力,所以其数量也极大的影响GPU的抗锯齿性能。特别是在复杂光照的环境下,材质表面的漫散射加上全局光照对像素的压力,加上由于多光源下的延迟渲染导致的抗锯齿压力非常巨大。

4.显存控制器数量
显存控制器每个为64bit,所以显存控制器的多寡也就是显卡位宽相关。由于显存带宽是显存频率×显存位宽/8,而显存带宽责和显卡的性能相关性非常的大,加之显存控制器数量和ROP数量直接挂钩,说显存控制器的多寡和GPU的整体性能成几乎绝对的线性正比。显存里存放着材质库,帧缓冲,顶点信息,着色器等GPU输入或者输出的重要数据,显存的速度也就直接决定了显卡能运行的帧数。而在GPU的设计中,显存控制器也成为永恒的短板,其原因很多。显存控制器的晶体管耗用极大,而当显存控制器数量较多的时候,外部总线压力也在随着增大,最终影响显存控制器能够吃下的显存频率,甚至进一步影响显卡的核心运行频率,而ALU和ROP等重要单元频率都和核心频率挂钩,所以显存控制器的数量多寡在设计的时候也是R&D要考虑的重要方面。另一方面,使用加大显存位宽的方式来提升显存频率固然美好,但随之带来的成本问题确非常巨大。由于单个颗粒的显存位宽是固定的(通常规为32bit),一个256bit的显卡只需要256/32=8颗就可以布置完毕,如果这个位宽是512bit则需要至少16颗颗粒,这还不是主要的。为256bit的8颗粒完成布线,6层PCB板就足够了,而512bit需要12层甚至更多。而PCB的成本占显卡制造成本的绝对大头,而PCB的物料成本是不高的,真正高的就是布线成本。所以现在的GPU制造商都采取使用每显存控制器携带更多ROP,同时使用高频率颗粒的方式在低显存控制器数量的情况下维持相对较高的像素输出能力和显存带宽。

5.纹理单元数量
纹理单元数量曾经一度是GPU性能第一标尺,但随着统一渲染架构的出现,纹理单元的作用实际应该在逐渐弱化。我曾经甚至认为在不久的将来纹理单元的数量将不会被GPU厂商作为一个重要规格来展示。
在GPU形成像素输出之前,画面在形成的过程中有一步很重要的贴图步骤就是由纹理单元来完成的。在多边形表面形成材质才能最终反映出接近真实的3D画面。而且大量的游戏也采用预先烘培好的材质贴图来优化画面。所以纹理单元数量直接关系GPU高分辨纹理下的性能。比如孤岛危机弹头大量采用动态纹理(纹理会根据人物的观察视角的改变而变化坐标,并产生一定的覆盖效果,也就是动态法线)和高分辨纹理,带来真实纹理体验的同时也带来了巨大的性能损失。G80体系架构下的纹理短板造成它在这个游戏里的性能没有达到预期。
由于人眼对颜色的辨识相对多边形来说要更为敏感,所以用材质贴图来实现物体的真实感也一直以来被大量使用,特别是在GPU运算能力相对低下的年代。比如一个抽屉的把手,就可以采用贴图来实现,这相对于直接使用顶点+着色器来渲染负载要低得多,而且效果也较为接近。但这也有问题,那就是目前的GPU其shader处理能力已经及其强大,但程序员依旧习惯于使用纹理来实现华丽的画质,这不得不说是一种退步。即使CE3都是基于D9开发环境的,然后辅助以烘培好的高分辨纹理来实现D11画质,甚至于3D mark11测试软件都更加偏向于使用纹理。一方面是方便引擎的快速过渡,另一方面可能和引擎要照顾到多平台有关,这个不仅仅是考虑到在使用D9显卡的用户,还有不具备粒子操作能力的家用机GPU。而在寒霜2引擎中,我们最明显的感觉就是出色的光照,寒霜2的光照就是基于D11的 compute shader制作,我们也能看到新一代的D11显卡在这个游戏里表现良好,像素纹理的应用也逐渐开始,我们翘首以盼吧。
就像Z-buffer  Z-Cull Stencil-Cull 现在就不怎么再提了,Z/Stencil 操作根据Z轴剔除不可见的像素,以减少最终的像素操作,现在剔除操作在像素输出时完成,如果在渲染之前剔除则存在一种仲裁压力和返回检查带来的延迟,据说在抗锯齿开启后ROP压力反倒更大。目前采用渲染前剔除操作的就是powerVR 公司的SGX系列GPU,平板里这个东西居多,早期的intel整合芯片譬如GMA3000其实就是SGX545。而现在Z/Stencil单元已经不作为性能标尺被明显标注数量了。

6.核心频率
核心频率自然是越高越好,这里谈谈相关性的问题。
GK104之前nvidia通过一种倍频技术实现了流处理器的异步频率,这个技术最早出现在G71核心上,nvidia给予G71的shader单元一个以23Mhz的步进频率,这个提升幅度非常小,小到你感觉不到它带来的性能提升,只是你在超频的时候这个步进频率会影响到GPU的实际运行频率导致超频失败,那时候的shader异步更接近于现在的睿频技术。
GK104回归流处理器和核心同频其实就是因为频率的相关性带来的设计思路改革,这也和我上面说纹理单元的时候提到的纹理依旧大行其道也有关系。
核心频率和运算单元、线程单元以及非常重要ROP单元同频或者程步进频率关系。在RV770对战G200的堪称史诗级别的对决中,RV770以小核心打得规格强上很多的G200非常难受。G200的规格要高的多,问题出在哪里。
RV770的小插曲:
我们只能很遗憾的承认,当今的AMD图形团队已经不是当年那个设计RV770的带有狂热工程师导向的团队了。
在RV770的设计上,曾经流传着各种坊间传说,其中一个版本就是RV770的首席设计师在设计之初坚定不移的要应用DDR5显存颗粒。
当然这个故事有另外的版本,按照通常的核心策略,RV600之后经过修改推出RV670,那么之后的RV770在规格上应该有比较大的改动。在设计之初,RV770的目标被定位于次顶级版本也就是4850性能要略超过3870同时超过8800GT,而旗舰型号也就是4870(4890是新制程)性能要略高于9800GTX。连NVIDIA也是这么预测的,所以G200没有设计中端型号。按照NVIDIA的估计,260 275以及280将是一种类似8800GTS 8800GT 8800TX的定位(这是按照RV600来说明而不是G92和RV670的局面),也就是高端无对手,价格空间宽裕。然后设计了GT240,一个在性能上接近9600GT的中低GPU配合9800GTX来合围想象中的4850,然后使用9800GTX和260来合围4870。AMD这边则希望设计一个至少可以大幅度击败G80的单卡,因为此时8800Ultra已经停产很久了。最先设计出来了一个SP规模640,同时使用DDR4显存控制器的版本,效果很不理想,8800Ultra的阴霾甚至都无法一扫而光,于是设计团队激进的使用了DDR5规格的显存控制器,后面的故事我们都知道了,RV770成就了ATI的小核心传奇。
4870和GTX260 192SP的比较就非常典型。260的ROP数量是28,4870是16个,但260当时的核心频率仅为576,而4870高达750,像素输出优势并不大。而且加上GDDR5颗粒的高频,260的位宽优势基本没有带来更高的带宽,只换来恐怖的PCB布线成本,260的运算单元数量优势也被主频拖累。
GK104的思路就是放弃2倍SP频率,换来高核心频率,更高的频率显存控制器,同时小核心方便它布置更多的纹理单元,带来游戏性能的均衡提升。当然NVIDIA的之前分频SP以及明显短板的显存控制器设计还有其他的原因在里面,这个我放到芯片策略一节来讲。
所以有的时候规格也未必是绝对主导,核心频率较高的小核心也能依靠频率带来的运算能力全面提升实现较高性能。

7.显存频率和显存大小
在这个里我决定讲二者合并说明.
显存频率和显存位宽决定显存带宽,显存带宽则决定着显卡的吞吐性能,特别是高分辨率下的抗锯齿加上高分辨率纹理下的画面。显存中主要存放着材质库,帧缓冲,顶点信息,着色器,着色器很多但占空间不大。如果显存频率和显存位宽双低,则会造成显卡在输入和输出时候带宽不够用带来卡顿。理论上说越好的GPU需要的显卡带宽越高,这个甚至是没有上限的,特别是对于旗舰级的GPU显存带宽基本是100%处于饥渴模式,GPU运算单元一直在暴增,但前述的一些原因也说明了,GPU的显存控制器和ROP扩容相对要困难许多。我们在对GPU超频的时候,一般是核心和显存同时超频也是这个道理。
显存频率和显存容量是两个息息相关同时在规格上要做到尽量平衡。显存频率太低,即使显存容量较高,由于带宽不足虽然存放空间充裕但GPU依旧得不到数据,如果显存容量太小,显存频率很高,则虽然带宽满足,但存储空间不足依旧会造成GPU的频繁等待,换来的还是画面的卡顿。
我们知道7600GS 128M DDR3的性能要好于7600GS 256M DDR2,那么显存的大小到底多少才是合适的,如何结合显存带宽来看待这个问题?
一些游戏在它的官方推荐配置里标注了显存容量,我们这个容量大致是怎么来的来看。
一般来说游戏的材质库占用较大的显存容量,一个游戏需要的显存容量是游戏的厂商通过一个30帧或者60帧(视游戏类别的不同)的画面,考虑到可能采用到的全部高分辨纹理加上这个帧数下的高分辨率画面的帧缓冲来估算,一般不考虑高倍抗锯齿的情况。
一般来说一个1080P的画面,算上高分辨纹理也不会占用512M以上的显存,特别是D9游戏,开启抗锯齿以后,像素部分的需求就会增大。由于高分辨纹理在新游戏中的可以说是暴力的引入,加之用户对抗锯齿性能的渴求,主流显卡的显存容量是越来越大了,一方面是由于高频颗粒的引入,另一方面当然也得感谢颗粒价格确实也不高,还有就是为D11游戏准备的。D11游戏的典型代表战地3,带来了华丽的光照效果,也带来了延迟渲染的广泛应用。为了能够在复杂光照下实现对画面的抗锯齿,MSAA这种前端像素的边缘抗锯齿已经完全找不到北了,于是就自然转换成了用于对付透明抗锯齿才使用的方式,那就是SSAA,而由于这种多光源环境这种SSAA几乎是全屏覆盖了,所以官方建议使用FXAA而不是MSAA。更主要的是这种暴力的SSAA带来的是对显存容量的渴求,以至于一些1G容量的显存都开始溢出,SLI/CF模式下需求则更大。
这里给出GPU建议显存容量
每64bit/8ROP搭配256M DDR3 或者512M DDR5 显存再高则收益极低。
多卡互联TIPS:主卡显存容量未必如通常以为的那样需要远高于单卡模式,由于延迟渲染带来的抗锯齿帧缓冲压力是个特例。主卡负责输出,也就是说只负责副卡的输出而不参与副卡的那一帧运算,所以所存储的数据量并不大,仅以需要输出帧缓冲为主。某种意义上来说多卡互联方案应该优先考虑高位宽GPU,以避免开启抗锯齿以后像素输出出现瓶颈。由于副卡不负责输出,所以它的功耗也低于主卡,大约是主卡的70%,所以SLI/CF平台的显卡功耗并不是直接×2,而是略低,从这个角度说多卡互联的能耗比还是很不错的。
未来,多卡互联方案会成为主流玩家都会考虑的配置方案,关于这一点的原因主要在于随着运算单元的暴增,线程的反派会愈加困难,而多卡互连会将一部分压力转移到CPU上。

第二节:内核架构
1.基础性的解释
最早的统一渲染GPU并非G80,而是Xenos。是由ATI为微软的XBOX360开发的,这个为ATI后面开发RV600奠定了基础。其实由于ATI在单管三纹理上研发经验,他开发的统一架构就很容易偏向于SIMD结构。实际上Xenos拖累了ATI的研发进度,导致了G80推出的时候RV600的研发仍在中段,直至RV670才初步解决ROP问题。
待此文创作之时,AMD的架构已经发生转换,所以只略微涉及R600的分析,而超标量体系则只分析NVIDIA部分,因为二者架构已经接近,没有必要再拆着说,对于VLIW的分析权且作为一种补充,这倒省了我不少精力。
G80一个经典的超标量图形加速芯片,而且其规格和缓存设计都非常合理,整体效率很高,现在简单的以G80为蓝本来描述,其后穿插我认为有必要的新技术改进说明。


                                    
所谓SIMD就是单指令多数据,这种技术也被应用于处理器的超线程技术。像素是由RGB三种颜色构成外加半透明处理,还会加上一个A通道,因此一个像素通常由RGBA四个通道构成,这里的四个通道就是一个向量,称之为4D。类似的例子还有三维坐标,通常是由x、y、z三个轴构成,有时候还会加上个w,也就是xyzw坐标了。因此对一个像素进行渲染就是处理RGBA四通道数值,依靠SIMD单元,1D-4D的数据都可以依靠单个流处理器完成,而且只耗用一个指令端口。这种设计有他的弊端,当面对纯1D指令环境的时候,这种设计的效率就会下降到25%,所以G80将其流处理器的频率提升至两倍核心频率以应对这个问题。而且这种对ALU的彻底分离,也对寄存器和指令端口带来了严酷的考验。从某种意义上来说G200和G110的性能都受到了指令端口的制约,单流处理器的执行效率反倒是G92最高。
我在这张G80图片上标注了一些注脚,不过不太清楚


G80的核心主要构成如下:依托于crossbar交叉总线(其特点是较低的内存延迟和晶体管耗用,但相较于RINGBUS总线,其构建TPC数量方面则更显得困难,在多指令环境下也不如环路设计。Ringbus的固有缺陷在于对纹理压缩有着较高的依赖。ATI也在后来的芯片中放弃了这种设计。反倒是intel把它拾起来用在了CPU上,CPU毕竟单元较少,这样链接点数量也在可控制范围内。)G80构建了8个TPC也就是材质通道,每个TPC包含2个SM阵列,每个SM阵列内含8个超标量流处理单元,总共8×2×8=128个。这些流处理器是主要的运算单元,依靠分频技术运行于两倍核心频率上。每个SM阵列包含4个SPU(Special Function Unit特殊功能单元)单元对应着rcp,rsq,log,exp和lit指令 的处理,这部分很多都是函数向的,更主要是为了通用计算设计的。每个SM阵列包含8个纹理拾取单元和4个纹理过滤单元以及L1。纹理拾取和纹理过滤单元并非同步运行,因为二者的负载不同,纹理拾取要依靠缓存来和纹理定址合作,但依旧存在同步率的问题。总线上总共布置了6个64bit的显存控制器,每个显存控制器包含4个rop单元,同时每个内存控制器捆绑一个可编程片上缓存L2.这些设计都为CUDA运算打下了基础。NVIDIA在G80的研发上是非常超前的,(且不说那个时候黄仁勋演的一出好戏,拿出一个36渲染管线的样卡,并声称不打算转换到统一架构,戏耍了一次ATI),CUDA的研发始于2001年左右,也就是说在那时nvidia就已经知道微软有将GPU改进到shader主导的意向。
NVIDIA超标量的优势就在于只要指令端口能承受首发压力,所有的单元都可以同时工作。G80的设计思路中,每一个SM阵列只同时执行一种shader指令,以减少线程分配对上游电路的压力,这和R600完全依靠一个超级线程端来统一调度是截然不同的。向量指令在SM一级被拆分给各个SP执行,SP拥有独立的寄存器和分派器。每一个TPC内含2个SM,同时拥有2个MP(multiprocessor 多线程处理器)每个MP具备warp(我们可以看作是端口),每个端口可以发射32线程,实际上是32粒子。这看起来很多,实际上高峰时期这个线程调度能力也就刚好够用,如果片上缓存容量不够就更悲剧。每个SM上有32K的页面是给MP用的,每个TPC还有32K的缓存,作为shared缓存,供应TPC内的SM共享数据。每个TPC 8KB Global memory和外加8KB Constant Memory(全局存储和常量存储),G80还有一个128KB的二级缓存,这一切都是为了指令的高效率分配。要知道GPU不具备CPU的分支预测能力,纯依靠一个具备512KB缓存的超级线程分配器根本无法满足如此规模的运算器的渴求(RV600 128KB RV970的时候是512KB)

回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
5#
 楼主| 发表于 2013-5-16 01:44 | 只看该作者
本帖最后由 taizer 于 2013-5-16 03:03 编辑

2.那些年我们追过的CUDA单元
积和熔加运算(fused multiply-add,FMA),是CUDA基本力量之一。CUDA单元具备完整的整数和浮点单元,这种设计为CUDA实现FMA打下了基础。所谓FMA就是将乘法的结果和累加器 A 的值相加,再存入累加器。
比如A=B×C+D
通过FMA此类运算可以单指令完成,而且CUDA还可以将卷积、矩阵、点积等更加复杂的运算拆分成FMA指令在完成运算。
如果从线程分配的角度来看,SM阵列中的CUDA单元在运算时实际被分成4个一组,这种设计至今未变。
关于warp的线程数和CUDA的数量关系,放到后文来说。

G200的主要改动就是每SM8SP,每TPC3个SM,共计10TPC,纹理单元扩充为80个。SM共享缓存扩充为16KB受限于crossba架构,TPC数量增加不易,而采用多SM阵列的方式,也是出于对线程分派器压力的考量。另外G200开始支持64bit的浮点运算,这个依靠多运算单元配合实现的,其实现方式反倒很类似于CPU。
G80之所以被称为超标量,就是因为其SP单元是全功能单元,1D-4D指令皆可以由一个SP独立完成。当然问题也是有的,如果是4D指令,要么消耗4个SP来完成,要么一个SP运行4次来完成。所以还有是效率低下的情况.NVIDIA的应对办法就是采用分频技术,将SP频率提升到2倍于核心频率来运行。这个设计一直被沿用到费米时代,它的缺点就是一致了GPU本身频率的提高。当nvidia试图制造能兼顾科学计算和游戏的庞大核心的时候,往往会遭遇到频率提升问题,更主要的是它甚至影响到了显存控制器的设计。

R600的问题
R600的规格
R600完全的SIMD设计,共计4个阵列,每个阵列16组SP,也就是64组,合计64×5=320个流处理器。每组SP由4个ALU和1个ALU.transcendental单元,于一个仲裁器共同封装。ALU.transcendental也就是全功能单元,在一些文章里称为胖单元。这每组SP只能同时执行一个VLIM5,而VLIM5要依靠UTDP来组合,而每个SIMD阵列所处理的线程列表也是由UTDP来提供,这个列表是完整的,同时列表上的处理类型可以是不同的,这也是它的优势所在。
另外一个部分就是R600的的Z Compression压缩比提升到了16:1,设计目的是为了配合ringbus实现纹理的低占用和提升并发处理能力,双倍的Z-buff压缩也在这一代引入,这种高效的纹理处理优势一直保持到现在,即使后来的设计上双倍压缩并不一直在沿用。
有趣的小设计:细分曲面技术在这一带ATI GPU中就已经有了,但并未引起重视。当时的游戏如果你开启细分曲面,由于API和游戏都没有原生支持,反倒会造成物体的变形,最为典型的就是硬线条的枪管会变的胖胖的。
如果G80不是那么强大,R600也会成为一代经典(从命名就可以看出来,ATI想再现R300的大核心辉煌),当然糟糕的驱动和ROP问题也是存在的。R600的失败直接导致了ATI的芯片策略从R300时期的拼大作强转换到了小芯片策略,这非常成功,甚至近年来NVIDIA也转换到了这种策略。R600性能本身不俗,但问题是它极度缺乏中段产品。2600到2900之间完全是个真空地带,而8600GT到8800ultra之间塞满了8800GS 8800GT 8800GTS。虽然G80的良品率不高,但依靠屏蔽单元的做法,G80的产品线非常丰富,其成本平均下来也不那么高。而8800GT的表现就足够RV600喝一壶的状况搞的AMD很被动。这个问题即使在RV670时代也没有改善。RV670的全额模式也就是3850性能只能和8800GS相较,而3870依旧没有追赶上8800GT,之后NVIDIA的小芯片G94出现后,情况就更糟糕(研发G94是因为黄仁勋认为依靠G92阉割版来应对RV670实在划不来,他希望团队能设计一个小核心产品,改善纹理和ROP效率,以更低的成本来应对RV670)。看看当时3850的降价速度就知道了。也就是说RV670必须有极高的良品率才能在利润上有所斩获。根据当时的官方数据,全额运作的芯片大约在41%左右,而其中有8成可以运行在3870的频率上。反观NVIDIA,依靠冗余晶体管技术,G92能够达到8800GS规格的要远高于RV670,这一上一下成本就低了很多。
AMD的UTDP Ultra Threaded Dispatch Processor(超级线程分派处理器)
UTDP作为一个专门的全额的指令调度存在,其包含了全部了指令列表。由于GPU的处理不存在指令中断分支预测,这种顺序架构就对指令的分配和调度提出了极高的设计难度,特别是在处理单元数量暴增的情况下。UTDP将指令分为若干线程分派给各个SIMD矩阵,由于不能够进行中断和乱序,SIMD的仲裁器依靠交替分配来避免由于输出不同处理类型造成的空闲问题。UTDP作为一个总的指令列表,可以根据优先级依靠片上缓存临时跟换相邻的两个线程的执行顺序,如果下一个线程的优先级依旧很高,这个被攒搁的线程会被继续攒搁。而一旦有SIMD阵列空闲,这个线程会被优先发送,而UTDP仅有512K的缓存,一直都不够用。
在转换架构之后,这单元实际已经没有用了,但依旧被保留下来了,我后面会说为什么。
VLIW5的设计思路及相关问题
每个SIMD单元内含1大4小5个ALU,一个仲裁单元和一个分支执行单元。其中那个大的ALU可以执行全部的SIMD指令,剩余四个必须和“大家伙”配合才能执行。通常都是通过指令分配单元进行组合后分配给SIMD矩阵。每个SIMD矩阵同一时间执行一个线程,分配给其内部的SIMD单元。最完美的情况下所有指令都被组合成5个一组分配给SIMD单元,实际的情况是,由于+vliw的先天缺陷,在指令序列器中只能尽量做到分配和组合成这种并行指令,加之每个矩阵的线程处理是同一类型,后面的数据要等待前面的处理完成,这种分配和组合根本无法做到100%满足SIMD单元。比如如果出现大量IN、COS、MULHI、MULLO、RECIP、SQRT ,ALU.transcendental不得不看着ALU闲着而自己来独立执行这些指令。而且由于实际的指令环境下很难找到4D+1D的完美组合,很多时候ALU.transcendental和ALU虽然双发,但ALU.transcendental只是在补完指令,并不起实际作用。也就是说虽然可以组合1D-4D的所有指令来处理,但所有流处理器不能同时工作么,比如在RV770的800个SP,任何指令情况下都不能全部启动。这个是由于它的指令表来自一个完整的指令序列表,必须按照类型顺序发送各种类型指令。在VLIW4后改进了这一情况。直到GCN架构,依靠分级的指令分发实现了MIMD的指令分发SIMD的指令处理架构,真正实现了流处理器的全额运作。当然Tahiti也有他的问题,由于SP数量的暴力堆叠,指令列表的压力已经非常大了,这个问题在Cayman 上也就出现了。其直接的表现就是单流处理器效率相较RV770时代没有提升。这个设计思路也并不是AMD没有看到这个问题,而在于SP的晶体管耗用度相对很低,而且采用暴力堆叠的方式可以快速的推出性能更高的新品占领市场。这个问题也同时出现在了采用超标量架构的NVIDIA GPU上。
从这个角度来说,超长指令架构对驱动的依赖也非常大。
也正是因为这种设计,RV770在服务器的应用中更多的时候是作为向量节点。
在RV770阶段,AMD已经为其每个SIMD阵列引入了 16KB Local Data Share,这东西的作用更主要的还是让其内部的VLIW5 内核共享线程数据,在过去只能依靠UTDP和显存取数,这也为后来AMD走向通用计算奠定了一定的基础。
RV600的RINGBUS结构
字面意思,环路。RV600的TPC和外总线之间,ROP和内存控制器之间,全是环路所以又叫双环路。RV770之后,TPC这一级的环路就取消了。双环路的优势在于,一个64bit的显存控制器,他采用的组合是32×2而不是64×1,形成更多的节点,配合内环路,如果不考虑高分辨材质的影响这种结构的延迟性能应该接近于512bit。可惜的是RV600仅有16个ROP还出了毛病,这个双环路只带来了高发热高晶体管耗用。


从GF100开始的新技术:


Tesselation(曲面细分)
曲面细分的基本解释就是,利用显卡的单元在原本的建模基础上,对三角形进行进一步的分割,从而实现更平滑的建模精度。
目前的游戏引擎主要依靠纹理和光照来实现较高的视觉,而建模的精度提升相对于其他要素则要缓慢的多,其原因在于过多的顶点会给处理器带来较高压力。
前面也提到曲面细分是原本就有的技术,直到DX11时代才真正被作为一项主要的画面改进技术,如果使用得当,应该不亚于全屏抗锯齿的意义。
在GF100中,NVIDIA为每一个GPC配置了一个Raster引擎,每个SM配置一个PolyMorph引擎,这2个单元就具体负责细分曲面技术。

PolyMorph引擎
顶点拾取 曲面细分 视图接口转换 属性设置 流输出
在这5个步骤的进行过程中,每一个步骤的结果都交由PolyMorph引擎所在的SM阵列进行处理,处理后的结果交由下一个步骤,5个步骤完成后,细分曲面中的三角形分割也就基本完成,这个结果将被发送至所在GPC的Raster引擎。

Raster引擎
即光栅引擎,在之前的GPU中,Raster所实现的功能是由其他单元实现的,其数量也仅有一个。包括PolyMorph的功能实际也是和现在Raster整合在一起,现在为了满足细分曲面的需要而进行重新的分割和组合,其位置也从前端进入到GPC和SM阵列,当然数量的提升也非常大。这是GF100曲面细分性能强大的关键因素。由于从本质上来说这并非是全新的模块,所以AMD就采取对原单元增加Tesselation步骤,然后分割设计的方式实现了对曲面细分功能的支持。
现在的游戏对曲面细分的支持还不够广泛,未来如何做到广泛应用不而是滥用影响到性能也是个问题。

GPC
GPC的设计特点:由于PolyMorph和Raster的进驻,而且纹理拾取和纹理过滤合并成一并入SM阵列,GPC在实际上已经可以独立完成一个GPU所要完成的所有工作,外围只要加上ROP和显存控制器就可以了。
全新设计的GigaThread引擎
由于GF100的MIMD特性较为彻底,GigaThread设计被用来满足多线程的应用。GigaThread有点类似超级线程分派器,主机接口把指令传送到GigaThread之后,GigaThread负责从内存向显存拷贝数据,之后GigaThread要把需要SM处理的数据创建成线程模块,然后分配给SM阵列,GigaThread还可以根据负责调整线程的优先度。
SM内部的设计变化:
GF100的SM阵列内含2个32粒子的线程调度器(Wrap调度器),且Wrap调度器之间无关联性,所以2个Wrap调度器可以同时执行,形成双发。每个Warp调度器下辖2个分派单元,同时SM阵列内含16个LD/ST单元,LD/ST将具体分配线程的去向。这些外围和SM阵列内的各级片上存储共同构成了SM阵列的线程和指令分配。(如果Wrap满载,则每个周期会有一个CUDA单元空载,此时寄存器满载。如果CUDA单元无空载,则Warp会出现部分空载,寄存器或者满载或者出现空载。从道理上来说是CUDA满载最好,但实际情况是Warp和寄存器都满载的时候利用效率最高,但同时处理的指令数量又是最少。很纠结吧- -!)
纹理单元的设计:
纹理单元的位置由原来的GPU变动到了SM阵列,使得其的频率脱离了核心频率的束缚,不过仍无法和CUDA同频。另外纹理拾取和纹理定址依旧采用分割设计,达到了4:1的比率。更主要的是,SM阵列和纹理单元的交互更加直接,之前纹理拾取和纹理定址的高速缓存也内置在了SM阵列中。
片上缓存的设计不再赘述,理解成主要是分级设计就可以了,关键叙述起来篇幅太大,码字很累的。
线程关联性软着陆
在GK104的SMX阵列中,内涵高达192个SP单元,这个数量直接达到了GTS450所拥有的SP单元总数。这是一种SIMD的设计方向,在这样规模的SP数量下,必然会出现线程关联性的分割问题,也就是在AMD早期的GPU设计中会出现的问题。为了解决SIMD设计方向上的缺陷,GK104将线程关联性的分割交给了CPU来完成,而不是依靠线程分派器。所以在底层测试中GK104显示出了对CPU的较高依赖性,只是这种依赖性在游戏中的表现还不明显。根据目前的情况来看,NVIDIA下一步的设计思路及有可能是在GPU内部设计一个全新的RISC架构的协处理器,用以分担线程关联性分割的任务。



所谓执行
Thread
SP所执行的最基本单元,也就是线程,在实际中就是像素的定义。

CTA
多个thread合起来就是CTA(线程块),Warp执行的就是这个东西。

Block
就是打包分配前的thread。由CTA组合而成。

Grid
在一个SM 阵列中可以同时执行多个Block,当全部Block中的CTA都被执行完成后,就进入了下一个循环。而这个循环中所有的Block合起来就称为Grid。

GK104那些变化
我在写这个东西之前并没有在意到这个变化,算写的过程中的收获吧。
GF100/110的SM数据
32CUDA、2个Wrap、4个指令分派、16个LD/ST、4个SPU、1个PolyMorph、4个纹理、64KB片上快取
GK104
192个CUDA、4个Wrap、8个指令分派、32个LD/ST、32个SPU、1个PolyMorph、16个纹理、64KB可分配片上快取
CUDA核心负责像素、顶点、几何着色、物理计算等处理,指令分配单元负责线程群组的调度以及指令发射,载入与存储单元负责为线程计算源地址和目标地址,特殊功能单元负责执行抽象的指令,比如正弦、余弦、倒数和平方根,还有图形插值指令,PolyMorph 2.0引擎单元负责顶点拾取、曲面细分、视口转换、属性设定以及流输出等功能,纹理单元则负责纹理过滤、纹理采样、计算纹理地址并将数据输出至显存,而共享存储器和一级缓存是互补的作用,能够广泛地重复利用片上数据而减少片外通信量,从而提高工作效率。
责纹理过滤、纹理采样、计算纹理地址并将数据输出至显存,而共享存储器和一级缓存是互补的作用,能够广泛地重复利用片上数据而减少片外通信量,从而提高工作效率。
G80时代随着统一着色器架构的到来而出现,成为继核心频率、显存频率之外的另外一个性能指标,后来一直延续到Fermi架构(近两年一般为核心频率的两倍,GK104回归同频)。
纹理单元数量的扩充是因为阵列数量的改变所以单SMX拥有了更多纹理,但其他单元的数量改变确有蹊跷之处。以下的分析只是个人的推测,因为官方白皮书真正涉及到的有效的东西并不多。
CUDA的数量扩容了6倍之多,指令分派器确和LD/ST确只扩容了2倍。一方面由于SPU单元数量的增加,一些特殊的运算可能就直接交由SPU来完成。另一个方面,我们来看。SMX的Wrap的实际thread数量仅有128个,这个数量和192个CUDA单元明显的不对应。
这得从上面的所谓执行来说(或者胡扯)
在执行 CUDA 程序的时候,每个SP对应一个 thread。每个 SM 则对应一个 block。每一个Warp对应2个指令分派器,每个指令分派器对应16个thread。如果我们把每4个CUDA看成一组,这其中有一个SP进行预读取或者等在一个FMA结果,那么每4个一组的CUDA一次4D循环运算会产生16个结果。这些预读取不能依靠片上缓存来执行因为这个量太大,而是同时直接消耗掉一个thread的执行来完成。这种情况下,GK104的Warp就会出现空载,而寄存器会接近满载。如果出现每4个CUDA,其中3个执行FMA运算,而另一个CUDA单元不需要预读取,则刚好用到8个指令分派器总共128thread,此时wrap满载。32个LD/ST也是刚好对应Warp空载时候的设计。这也就是前文说过的CUDA满载最好,但实际情况是Warp和寄存器都满载的时候利用效率最高,但同时处理的指令数量又是最少。从某种意义上来说,GK104满载执行时看作每SMX192SP,而执行最多指令时看作每SMX128SP。
从演变上看,G80冗余,GF100半冗余,而GK104刚刚够。

GCN架构中的可以说说的东西
其实由于AMD转换到MIMD阵营,我本来不打算说GCN了,毕竟共性很大,而且码字又很累,是吧?但有个设计比较前瞻化,虽然NVIDIA也有这种设计,但AMD的意图更加明显。
ACE
全称Asynchronous Compute Engine,译为异步计算引擎。
ACE位于整个GPU的最前端管理任务队列,它会将线程块规整的分发给后面的ALU团簇。ACE是所有GPU任务的起点,它的存在和表现直接关系到了GPU进行图形及通用计算任务是的效率表现。这个玩意就是干线程分派这个活的,目前和UTDP处于共存状态。ACE和NVIDIA的前端线程管理模块的区别在于ACE还负责几何部分。原本的GDS被放置在了每个CU中,而且这个容量达到了32K,何其爽也~
那我这里为什么要把ACE提溜出来说。ACE在其设计上已经有了半拉协处理的样子,AMD实际上不仅仅在转换到MIMD,也在为下一个大的战役打下技术前奏。UTDP的保留正是为了和ACE在未来实现融合。由这里引出下一小节,也是最后一小节,也是最短的一小节:芯片策略。
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
6#
 楼主| 发表于 2013-5-16 01:45 | 只看该作者
本帖最后由 taizer 于 2013-5-16 03:06 编辑

这是硬件百科全书的第二篇,距离上一篇的发表似乎过去了很久,至少远超过我的预期。这段时间加班很多,就没有心静下来写东西。下班回家还有点时间,就看看动画。
由于此段时间美剧荒,没的看就去看动漫,看的我三观都快崩溃了。
说正事,整个硬件百科全书我准了四大部分:3D图形加速卡(已发)中央处理器(这篇) 主板和显卡 以及机电产品 。
GPU和CPU篇我早就写了主体部分,所以我完成起来所耗时间不算很多。
而后面的这两个我是一点没写呢,关键问题是这个2个东西貌似要图文并茂才能说的清楚明白,所以真的有可能遥遥无期了。
而且9月份各路美剧都开撸了是吧。

给大家说个笑话吧,真事。
我高中有一个同学,跟我坐过同桌,人蛮好的,很闷骚很YD很贱。在硬件上我和他也算是亦师亦友的关系,他是师。
   09年的时候他到一个新的单位上班,2个月后来了一个比他小两岁的80后,相谈甚欢,比较投基。但这新人由于也很贱,所以互相挤兑。
   一日说到高中在何处,才知原来是校友,再细问才发现我这同学乃是校史上最贱的一届,再问及班级再次惊喜发现原来是最贱的那个班。于是学弟发话到,虽然自己所在这一届并不如前辈那般是传说里的人物,然自认为修贱经年可以予传说人物一战。
  二人单位论贱,各种比试完毕果然不分胜负。于是我这位同桌提出了一个惊世骇俗的比试方法----湿吻。互相恶心对方,受不了的则永远做手下败将。
学弟竟然应战。
我同桌跟我说这个事情的时候坦言对手之强大,坚持了很久。
我问,那后来呢?
他说,现在这货就是我的跟屁虫,到哪都喊我老大帮我拎包。
朕很震惊啊!问道:how WIN ?
答曰:我把舌头伸进去了··········

下面就是正文了:
此文的主体部分创作较早,因此如果有过时之处还望谅解。
CPU架构浅释这是一张nehalem核心的架构图图片仅是图片而已,本文并不围绕任何具体的芯片讲述
相对于早期的超标量结构现行的处理里要复杂许多了
我首先把cpu的主要单元罗列起来加以解释,然后介绍指令的大致流程,最后说明些没有很严整逻辑结构的一些技术信息。
而对于cpu的性能参数放到后面来说。Cpu由晶体管组成,晶体管的开合形成0,1,这就是二进制运算的基本由来。
对于构成cpu的数以亿计的晶体管是不能通过电流来控制开关的,因为巨大的热量根本无法控制。
控制晶体管开合的是电讯号,(具体的信号方式此后在晶体管结构介绍中具体阐述)一般来说晶体管的开合电压区间为0.01V
电源和主板制造商通过各种手段尽量使得输出的电讯号波纹没有较大的波动,
比方说晶体管1.31v的时候开启,而主板输出的电压讯号每10次只有3次可以到达1.31v,其余的时候只能到达1.29v
那么这就存在一个区间使得cpu在高负载下会不稳定,我们可以通过调节来让cpu的开启电压处于1.29v的位置上。
intelp45这个芯片组上开启了ref gtr 调节选项以规避这个信号噪区间。
Cpu在制造的时候按照内部结构图谱对晶圆进行逐层的沉浸刻灼,一层形成完毕后再铺上特殊的介质进行第二层刻灼,一般的cpu层数都能达到10层以上。
最后形成的晶圆上的晶体管还没有打通,经过腐蚀工艺打通晶体管和测试后的CPU才算完工。
当然形成一颗cpu的全部晶体管不可能都被用来作为单元给利用上了,这说是良品。
情况好的时候,一个晶圆上应该有半数的cpu的全部单元可以(冗余晶体管技术),也有部分的cpu有瑕疵,但由于出问题的部分只是高速缓存等非核心组件,可以屏蔽后上市。
其他的自然就废掉了。多核处理器的话也可以屏蔽掉出问题的核心做为其X2 X3等版本上市,当然这也引发了AMD的开核热潮。屏蔽的做法在GPU领域也非常普遍。
我们经常看到的CPU内部结构照片上,可以看到非常清晰的格局分布,特别是高速缓存部分非常显眼。
1.指令单元
在一次震动里,CPU里的一个指令单元能处理的指令数量是固定的,所以要提升cpu的指令效率要么增加cpu的频率要么增加指令单元的数量。实际上由于cpu是一个线性结构,一味的增加指令单元的数量并不能根本的解决问题。而如果我们把每一个cpu内核做为一个运算阵列来看的话,还有一个途径就是改进核心架构,比如说预读取、乱序指令池、超大容量的内部高速缓存和分支预测这类单元,它们能改善并行指令时候的cpu的效率,但却不能根本的解决问题,再者这些结构的晶体管耗用度太高。比如早期NetBurst这种流水线很长的结构中,指令返回消耗的资源也过高了。出于增加指令单元数量同时兼顾到晶体管耗用和并行指令效率的考虑催生了多核架构,未来的多核架构很有可能是每核心只有多个整数运算单元和一个浮点单元,然后多核心一个封装,共享解码,预读取、高速缓存等单元,有点类似GPU的阵列结构。(我在补全这个文章的时候才发现我曾经对现在推土机模块化有了一定的预见性)在nehalem的I7中,L1缓存中的指令缓存变成了4way结构,这种结构会使得数据延迟降低但会导致并行情况下效率下降。我个人的观点认为这和nehalem的解码单元能力过剩而运算单元有些短板有关。
所谓的流水线, 就是将一条指令分成多个简单的段分开执行以提高效率 ,由于每个部分的单独执行,越高的流水线cpu就越容易达到高频率。在比如在NetBurst中,流水线的长度一度高达31,所以NetBurst
才会能达到如此高的频率。当然缺点是显而易见的,一旦出现指令错误返回,这将会耗用更多的时间。我们看到早期的AMDPR值标注其CPU,其中一个原因就是那个时候AMDCPU相对来说指令流水线更短,效率更高,同频性能也更好,倘若以频率标注有点吃亏。当今的处理器开始使用类似GPU的命名方式了,AMDPR标注方式算个开端。
另外一个增加cpu运算能力的方法就是增加内部各单元的数量,多运算单元结构一般被称为超标量结构,P6就属于比较经典的超标量结构。单从超标量这种运算结构来说,目前的cpu10年前的cpu并无本质区别。
intel)处理器内置4组解码单元,包括3组简单解码单元和1组复杂解码单元。CPU日常处理的是流程较短的X86简单指令,交由简单解码单元翻译成微指令,较少出现的复杂指令则交由复杂解码单元,翻译成4条微指令结构的X86指令,4条以上的由复杂指令单元和微码序列器共同完成翻译。所有的指令最终都被解码成可以统一执行的微指令(mico-op),最后交由执行单元。算上指令融合的话,一次最多可以解5条指令。(指令融合技术,两条相近的X86指令可以融合成一条微指令,提高指令执行效率。部分难以处理的一些微指令进行了微指令融合,本来这些指令需要再次经行拆分和寄存,INTEL采用扩展指令集将这部分进行融合,由于这部分指令又包含了相当多的浮点运算,所以这种设计对提升浮点运算也颇有益处)。

2.Cpu内部的运算部件主要是整数和浮点两部分。
整数单元由简单运算单元(又称高速ALU)和复杂运算单元又称(慢速ALU)组成。其中高速ALU一个时钟可以完成2次操作,主要用于处理简单的整数运算;慢速ALU在一个或者多个时钟周期才能完成1次操作,主要用于复杂的整数操作。(另外还有用于生成地址的AGU部件,AGU主要从内存取操作数和保存操作结果。)
浮点单元则包括,浮点地址生成单元,作用和AGU是一样的。浮点运算单元,而且随着应用对浮点运算的需求,浮点单元的数量一直在增加。还有专门用于执行MMX指令的多媒体单元,以及执行SSE指令的SIMD执行单元。SIMD属于一种流式处理,使得单元可以以一条流水线携带多个数据经行并行处理而不影响性能。MMXSSE都属于SIMD操作。解码单元与指令单元在数量上存在联系,但在实际工作中二者并不能同步操作,这和GPU的纹理拾取和纹理过滤单元有点类似。这里提下,powerpc的超线程技术更加类似SIMD而不是HT


3.预读取和分支预测
在进行指令解码前,由第一层预读取单元进行预读取操作,从而减少指令序列对效率的影响,同时在这一层面还存在第一阶的动态分支预测单元。
预读取技术。为了不让高频率的指令单元等待缓存的数据,CPU的设计者采用了将数据预先装入高速缓存的办法。为了应对高频率下的预取MISS,每个核心安排了3组预取单元,其中2个数据预取单元1个指令预取单元,在L2中还有2组预取单元。预取单元通过存储器的索引判断所需要预取的数据,同时预取单元不会预取正在读取的数据和指令。
分支预测。比如说现在有一个指令操作,确定A是否能被B,C,D整除,能够被整除的队列就会继续执行,不能整除的就不再执行。如果没有分支预测,此指令必须将B,C,D 3线全部跑完才能知道结果,这无疑是个很大的资源消耗,而且与GPU不同的是,CPU的分支运算量还是不小的,而且很难通过程序本身进行规避。所以就由分支预测来规避,从而让指令只跑有效的那个序列。同时借助分支目标缓冲器branch targe buffer,保存之前出现过的分支和目标记录,对之后出现的分支进行预测并对操作序列做译码和分析操作,生成一个微操作指令池保存下来,以辅助未来的指令序列调试。分支预测还能够根据数据流的情况,预测未来乱序执行的出现。
CPU的前端结构还包括一个分支预测单元,由分支目标缓冲区-BTB,分支地址计算器BAC,返回地址栈RAS,循环回路探LD、间接分支预测器IBP组成。其中LDIBPP4以后引入。处理器还在分支预测器和取指令单元间增加一个队列来运行分支转移,否则话这个操作就得耗用一个流水线。
解码完成后形成的操作序列后也存在一个跟踪分支预测单元。在L1和L2中存在一个预读取结构,把L1有可能要从L2读取的数据的地址预先装入L1.


4.高速缓存又叫片上缓存,分为L1,L2.L3。
L1的速度最快,通常每bit的L1消耗6个晶体管(早期的官方数据,现在肯定不是这个数字了),高速缓存的成本大概是内存模组的30倍。核心运算单元的数据来自于L1,L1的数据则来自于L2。当运算核心需要某数据的时候就会像L1要求取数,L1没有就向L2发出请求。通常情况下L1中保存着即将从L2要求的数据的地址而不是数据本身。如果是共享式的L2,L2还是保存着核心1和核心2的取数要求,当核心1需求核心2的某个数据,不需要到核心2中去取数,直接从L2取数即可。L1的位宽为256BIT(或者视作64bit*4倍核心速度),分为数据缓存和指令缓存2种,通常为32KB的8way结构。(AMD的K8中,L1为128BIT,数据缓存和指令缓存各为64KB的2WAY结构多WAY的结构可以增加并行指令的输入效率,但当指令多为复杂指令时延迟就会较高。AMD的设计思路中L2是每核心独有的,由于是HT总线也就是内存直连技术,所以对L2的大小不是很敏感,其L1和L2和intel的设计思路有所不同。在K10R这个时代,AMD引入了一个6M的48WAY L3,以缓解并行指令下的压力。这个L3大致消耗了K10R一半的晶体管,所以我们也发现拥有L3双核心的X2 550 比没有L3的4核X4 620卖的还要贵。)
由于L1和内存的速度差异极大,而且容量也无法满足要求,这就催生了L2,由L2和北桥或者UNCORE上的L3来通信获取数据再交由L1。L2最初是在主板上的,后期纳入CPU。比如曾经的超频神器赛扬300A 就是拥有L2的改进型号。
以酷睿的L2为例,早期的酷睿双核版本拥有的L2为4M 16WAY的64BIT结构,后期的4核心版本的L2高达12M,这部分L2已经消耗了小半晶体管。L2存在一个总线,称为BSB(后端总线),以4倍于CPU主频的速度来运行,所以当CPU的主频提升,L2的速度也会提升。L2的大小直接决定了CPU的性能,是一个非常关键的规格,而且越是并行指令的环境对L2越是敏感,比如说即时战略的多AI环境。L2用于缓冲指令,L1从此取数,L2的大小决定了指令的命中率,也就部分决定了CPU的指令效率。以一个核心匹配512KB L2为例,在苛刻的指令环境下大概有25%的MISS率,以此为基础增加L2的容量后可以减少MISS率,但这个效果并不是线性的。
如果要弥补最后的2%miss,甚至要花费额外100%的晶体管。就目前来说CPU都存在L2的指令MISS,如果要完全没有MISS,那cpu上70%以上的晶体管都要用来制作L2,而且从性能提升角度来说是极不划算的。
在intel和AMD都引入内存直连技术后,L2变成了每核心独享的。在nehalem的设计中,L3存在一块1.256M的空间用于存放所有核心L1和L2的全部数据拷贝。任何一个核心都可以从这里取数而不需要去访问别的核心缓存。(AMD的高速缓存相对来说一直比较小,可能是由于片上缓存技术还不够好,K10 1代的2M L3耗用了一亿晶体管,在CPU照片上能清楚到看到一片光滑平整的区域就是L3,这块区域占用了接近一半的空间。)实际上L3和L2等的不同在于,L3并不属于内核心模块,L3和第一阶的4KB TLB以及内存控制器封装在一起,成为一个独立的模块。这个部分可以被认为是内北桥,它与内存的通信达到了空前的高度。实际上,我们也看到内存直连技术虽然解决了内存和核心通信时总线的速度瓶颈问题,但依然受到CPU运算能力的制约。比如三通道和双通道技术,按理说三通道内存在速度上占绝对优势的,但由于DDR3的双通道和三通道直连的速度都受处理器本身吞吐能力的制约,优势很不明显。(现在三通道DDR3 2000的速度越来越接近部分处理器L3的速度。和多年前内存性能不够用的不同,内存带宽似乎达到一个非常过剩时代了。)
片上缓存的WAY数目的多寡决定是并行指令的效率,同时过多的WAY会造成复杂指令延迟提升,所以设计者用多WAY的L3缓存来解决并行指令问题,而在L1和L2上则采用低延迟的设计方式。而且由于L2现在全部变成独享结构,L2与L1的通信能力也得到了提升。
(目前的桌面CPU采用的是CISC和RISC结合的结构,从本质上来说还是CISC结构,也就是复杂指令集CPU,优点是CPU指令结构易于设计,但缺点就是指令代码描述起来比较复杂,比如一个简单的四则运算在描述时就要考虑寄存器堆栈等CPU硬件本身的结构问题,而RISC也就是精简指令集的CPU则只要把运算描述出来即可。RISC的缺点就是CPU更难设计,但由于指令描述简单所以效能很高。目前采用RISC的高端CPU最常见的就是IBM的powerPC,其强大也是有目共睹的。)


5.超线程技术
CPU利用内部闲置的单元,同时进行另外一条流水线操作。这2个线程是并行的但不是完全同时的,通常某一个线程是先执行,随后就跟进后来执行的线程。前端结构不进行单元拆分,最后2个线程会同时到达缓存区域。由于早期的处理器在线程的输入和输出端依然是单线程的,加之当时无论是CPU性能还是内存带宽都比较有限,开启超线程技术后在游戏中反倒出现了性能下降的现象,只是在办公软件等支持较好且对性能要求不苛刻的应用中有比较明显的提升。但如果CPU性能足够强大,闲置的单元较多,那么一个核心就可以达到2个核心的流水线处理能力。 现在超线程技术第早期HT技术不同的是,前端单元可以拆分,而且可以根据负载经行动态分割,这样就非常接近2个核心的效果。得益于处理器强大的性能和内存直连技术带来的内存性能飞速提升,现今处理器超线程技术在多线操作时提升明显。目前还有ATOM采用这一技术,当然ATOM受限于功耗,采用了顺序执行结构,又是双发指令,超线程技术带来的提升并不明显。



6.说说指令
指令主要为存储访问指令,这个占半数以上,存储指令中读指令占2/3,写指令占1/3。剩下的是20%分支指令,20%简单指令,10%的复杂指令。(这个也是早期的官方说法,现在比例如何我也不知道,或者我压根就没去找·········)
指令集操作步骤为 ,首先CPU由指令寄存器中取出指令,交由解码单元解码,指令解码后成为数据和数据执行地址,之后是取数操作,逻辑计算单元会对数据经行计算,一部分计算结束后数据进入CPU寄存器,一部分根据执行地址的需要会进入缓存进入内存,最后回到需要数据的程序中,CPU的存储器访问速度是内存的几十倍,CPU的寄存器需要不停的等待来访问内存,这就要用到CPU的高速缓存。内存的数据先交由二级缓存,之后由二级缓存交由一级缓存的指令缓存和数据缓存。二级缓存在早期的结构中是共享的,任何一个核心都可以从这里面取数,如果某一核心工作负载高它甚至可以完全占有L2.(动态负载技术)
插科打诨:AMD的处理器设计中没有引入简单指令单元,它使用的是全复杂指令单元的方案。复杂解码单元可以应对所有的情况,当然AMD也不是把所有指令都以一种方式解码,它也分为复杂和简单两种方式。一种是直接路径法,将指令翻译成1-2条类似于微指令的统一指令,AMD称为宏指令。另一种是向量路径法,用于将复杂一点的指令翻译成2条以上的宏指令。复杂解码单元可以进行直接路径和向量路径操作。类似于INTEL的情况,绝大多数可以指令可以使用直接路径发翻译,仍有一小部分必须经行复杂的向量路径法,而这其中又包含了大量的浮点运算。AMD拥有一个类似的指令融合技术的,不过INTEL可以融合的LOAD操作和SEE指令,在AMD上的方案是只能分割成2条宏指令操作。而且很有可能这个原因导致了AMD浮点运算的落后。
CPU的处理能力=单元数量*效率*周期频率
每个单元一个周期仅有一条指令的解码能力,于是频率和结构就成为了CPU效率的关键。
以四指令单元为例,通常情况下,简单指令集都是在全速工作的,因此一个周期,每个核心可以进行最多4条指令的解码操作。加之微指令融合技术,在最高效率下,一个周期可以处理5条指令。
设计人员还对SSE指令集进行了优化,每个核心拥有一组128bit的SEE指令执行单元,另外在前段布置了一组128bit SEE指令单元。 (AMD的K8是每个核心拥有一个64BIT的SEE指令单元,如果出现一个128bit的SEE指令,在执行的时候,不得不被拆分成2条64BIT的交由2个核心分别执行,之后融合。而一个64BIT的SSE指令,酷睿的每个核心可以同时进行双精度浮点预算。这也是AMD浮点运算低于INTEL的原因之一,这个结构在K10以后得以改进,我们也惊喜的看到看K10之后浮点运算的进步)。
寄存器组总共有十多个单元结构,主要分成通用、段、指令指针以及标志寄存器,这里不加赘述。
浮点寄存器组由8个80bit的数据寄存器和一个专用寄存器组成,这使得FPU可以进行32bit双精度浮点计算和80bit浮点计算,同时还支持16 32 64 bit以及80bit BCD的整数运算。
(简单说明下32BIT单精度浮点数
比如说123.456789 这就是个浮点数
然后转换成10的N次方*0,123456789的形式
之后转换成2的N次方*101010010…… 这种2进制格式
美国电气电子工程协会(IEEE)制定了浮点的工业标准,以统一其兼容性。
所谓的32bit 浮点精度 是由1个符号位,8位的介码(这个介码是有偏移位的,32bit是127,64bit,80bit则更高,这里不加赘述),23位的尾数,总共32位。
如果尾数没有23位就以0补位,最后以这个32位的2进制数据进行四则运算。
64bit就是1+11+52)
乱序缓冲区应该是是P6时期出现的一个巨大改进。乱序缓冲区包含一个可以容纳大量指令的指令池。如果流水线上的某条指令陷入停顿,就可以从乱序缓冲区选择另一条可供执行的指令。


又是无意义的图两张:


图中显卡是HISX1900XTX ,真怀念那个时代显卡的疯狂做工。




回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
7#
 楼主| 发表于 2013-5-16 01:45 | 只看该作者
本帖最后由 taizer 于 2013-5-16 03:07 编辑

8.一些公司
说到晶体管的工艺,芯片的代加工,就不能不提台积电。
台积电:全称是台湾积体电路制造股份有限公司,其上市代号为TSM。公司英文简写和LOGOTSMC,所以我们常常看到用TSMC代称台积电。
台积电是最早进行集成电路加工的公司,早在1987年就成立,目前就综合来说在超大规模集成电路加工这个行业称老大也不为过。台积电属于全球信息和科技百强企业同时也是世界500强企业。在上世纪的80-90年代,台湾涌现了大批投入进半导体事业的公司。大量的主板加工商,电脑商也都在那时候大量成立。在那个不亚于硅谷的地方拼杀留下来的企业,现今都成了各个行业的巨头。(昂达电子泪目,我也是元老咋就没混出来?)台湾都有很多很世界信息和科技100强企业,要知道这个名单里都是微软、IBM、惠普这些巨人。台湾半导体商的行动完全可以牵制到硅谷的巨人们,大量的芯片都是走台湾走掉的。
由于台积电在晶体管刻灼工艺上的进步,和出色的良品率(相对来说)。使得无论是INTEL AMD ATI NVIDIA的芯片都大量出自他的手。INTEL这样的巨头几乎把所有CPU的制程技术向TSMC开放(3D晶体管没有),由它负责相当一部分的芯片加工。有些型号则完全出自TSMCTSMC的芯片加工规模相当大,加之良品率高,当芯片商自己生产能力不足时,几乎都会想到台积电。
(“芯片代工协会”简介:1994年,由行业领先厂商共同创建了FSAwww.fsa.org),以实现晶圆需求量与产量间的最佳平衡。FSA共有300多个成员,分别来自采用代工模式的芯片公司、集成设备制造商、半导体提供商、封装/集成厂商、电子设计自动化公司、投资银行、知识产权提供商及其他公司。该组织有助于增进采用代工模式的芯片公司与供应商之间的关系,促进业务合作关系,同时还负责推广芯片代工商业模式,公布相关数据,并制定相关标准和政策。FSA的目标是到2010年使近半数的集成电路收入来自芯片代工运营。----写这文章的时候还没到2010,所以我摘抄的这个如此苍老。当时我打算2011年春节放出全部系列,嗯···2年多了
代工前十:台积电、台联电、特许半导体、中芯国际、IBM 、Dongbu Electronics 、MagnaChip Vangua rd 、上海华虹、NEC 、X-FAB Silicon台积电每年能吃下芯片代工4成的份额。就算是金融危机INTEL亏损的时候,台积电依然盈利。
台湾的鸿海集团也是拥有芯片加工能力的。
NVIDIA90%的芯片产品是交由台积电(TSMC)代工生产,剩下的10%由台联电(UMC)负责,更早些年IBM也代为加工部分。NVIDIA为了赶上32NM制程,由于TSMC的良品率还不够好,甚至有让Globalfoundries代工的意向,要知道Globalfoundries是AMD旗下的芯片代工厂。(自带吐槽:Globalfoundries现在已经独立,现在显卡也是28nm的了)

台湾联华电子
AMDATI芯片有段时间曾经转由台湾联华电子(UMC)代加工,主要在合并后的一段时间。之前也主要由TSMC负责,UMC是台湾第二大芯片代工企业,也是世界第二大的芯片代工企业。华虹NEC和宏力半导体已经合并,二者为内地较大的代工企业。
联华电子公司 (美国纽约证券交易所代号:UMC,台湾证券交易所代号:2303) 是世界著名的半导体承包制造商。该公司利用先进的工艺技术专为主要的半导体应用方案生产各种集成电路(IC)。联华电子拥有先进的承包生产技术,可以支持先进的片上系统 (SOC) 设计,其中包括 0.13 微米 (micron)铜互连、嵌入式 DRAM、以及混合信号/RFCMOS。此外,联华电子是利用 300mm 晶圆进行芯片生产的领导厂商,目前拥有三间 300mm 晶圆芯片制造厂,其中包括台湾的 Fab 12A制造工厂、设在新加坡的与Infineon Technologies合资的 UMCi (定于 2003 年中期试产)、以及也设在新加坡的与 AMD 合资AU Pte. Ltd. 公司建设的芯片制造厂(定于 2005 年落成并投入生产)。这三间芯片制造厂均设于重要的战略位置,可为世界各地的客户提供服务。联华电子在台湾、日本、新加坡、欧洲及美国均设有办事处,在全球各地的员工有 8,500 多名。
摘自百度百科
台湾除去台积电就是他,可以说台湾的芯片加工他也算是寡头之一,工艺先进,良品率较好,所以我们经常看到UMC代工的芯片。300mm晶圆属于大晶圆,过去是使用200mm晶圆来制造芯片。

德州仪器(Texas Instruments):也就是我们常见的TI
德州仪器 (TI) 是全球领先的数字信号处理与模拟技术半导体供应商,亦是推动因特网时代不断发展的半导体引擎。
——来自德州仪器官网

我们比较常见的来自德州仪器的产品,最多的就是供电控制芯片,还有就是INTEL的了。这种芯片的价格每万颗采购价在1.5美元左右,多路控制的相应要高些。无论是旗舰还是普通的板卡,都会采用德州仪器的控制IC。高端一点的就买诸如低热的,高效能的等等。
信号芯片,磁盘芯片,网络芯片,时钟发生器等等,在板卡上的一颗颗的小芯片到处都可以看到德州仪器的身影。德州仪器世界信息和科技的前10强企业,当然也是世界500强企业。他们提供了各种廉价稳定的芯片方案,拥有巨大的出货量。
写这个部分的时候本来还包括了,美国国家半导体,补完的时候发现都你妹的被TI收购快2年了··········
意法半导体:这个比较有意思,是由一个意大利公司和一个法国公司合并的,大名鼎鼎的ST,位列世界半导体航母第五位
我们经常看到的,铁素体电感 高品质MOSFET,很多都是出自意法半导体之手,至于这些东西是干什么的,主板篇会详细解释。
同样的意法半导体提供了很多非常优秀的方案,被大量板卡商采用。当然电脑业的收入大概只占到意法半导体的15%

超微半导体:内地命名为超威半导体。
公司名称:Advanced Micro Devices 简写就是AMD

最初AMD生产的80X86系列和INTEL没有区别,当然更早期产品还不是X86结构的,可能都不能算是CPU,只能说是微芯片,而且在其CPU市场发展起来前,内存领域是公司的收入主要来源。从K5开始AMD开始生产自己的架构产品。AMD1996年收购了NexGen公司以后推出K6,之后AMDCPU逐步走向成熟,同时PR值也成为了AMD的特色。从K8开始,AMDCPU日益彪悍,赛扬的价格奔腾的性能,而且也是相当能超。曾经有段时间,AMD的处理器几乎成为了低端平台的首选。而且AMDINTEL更早突破1G频率,给INTEL留下了深深的心理阴影,以至于INTEL拼了命的要在任何G的关口拿下AMD,这也错误的导致了INTEL 4G cpu的策略,这个错误的方向致使K8在市场上横行了2年有余。到了今日的AMD已经发展到了推土机,也陪伴PC走过了30个年头,当然至今AMD依然没有在浮点运算和服务器领域击败INTELAMDINTEL斗了几十年,给消费者带来了空前的技术体验和实惠。即使AMD可以凭借反托拉斯法案逍遥过日子,其依旧在设计上不懈努力,这是值得肯定的。对比那个早早就收购cyrixS3,坐拥处理器芯片组图形加速器完整平台确毫无建树的VIA来说,AMD要好太多了。
INTEL曾经和AMD打了长达8年的官司,目前二人之间有技术共享协议和反垄断协议,磕磕碰碰的过了这么多年。现在双方不停的价格战,技术站,宣传战。其官方文档也培养了大量的处理器爱好者。
2006724AMD正式宣布54亿美元并购ATIAMD42亿美元现金和5700万股AMD普通股收购截止2006721日发行的ATI公司全部的普通股。AMD有了芯片组支持,ATI有了平台支持。。
现在AMD要走的路还很远。

INTEL
一个非常牛逼的芯片公司,无论好的坏的方面都是。没了。
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
8#
 楼主| 发表于 2013-5-16 01:46 | 只看该作者
本帖最后由 taizer 于 2013-5-16 03:14 编辑

13.映众
同样是四大AIC之一,以颇具特色的冰龙系列享誉业界。属于显卡做工良心派,而且价格也平易近人,个人最喜欢的N卡品牌。
现已经被柏能收购,显卡设计和生产依旧独立。


14.同德
最出名的显卡的代工厂,为国内各个通路的发展壮大立下了汗马功劳。
显卡出货量极高,生产和设计layout简易的非公版本。
也只有这样通路才能在贴牌销售后依旧能以低价获得利润。
实际上同德的生产线非常高级,设计能力也出人意料的强大。


15.影驰
四大AIC之一,因为7600GS骨魔时期显存设定频率高于其真实频率造成了比通常要多的花屏现象,被人戏称为“花驰”此后这个名字一直没能甩掉。
这事儿其实有点冤,当时这么干花屏的不是他一家,可惜就可惜在“好事不出门坏事传千里”。影驰自然不是什么花王或者花驰,反倒显卡做的还蛮不错。
而且内地来说,影驰可能是AIC里显卡最容易买到和保修的,渠道很好。
现在被同德51%控股,显卡自己设计和销售,加上同德对自有品牌“北影”的一些期颐,影驰也逐渐参与到“北影”的设计和生产,而自身的低端型号则有了同德的烙印
。影驰在G71时代开始开发单PCB双芯显卡,并不销售,这种事情一直在持续,所以nvidia的双芯显卡是有影驰工程师参与努力的。
牢记住一点,但凡有工厂背景的品牌,其能力必然很虎,即使它看起来很菜。

16.七彩虹
靠通路起家,内地占有率最高的显卡品牌,奇葩的开发了同一个品牌下最多子型号的9550显卡。
XFX转红之后,被NVIDIA亲自培养和打造以及造势,其重视程度不亚于对待索泰。
IGAME品牌改变玩家对其D丝印象,成功跻身AIC行列,拥有物料采购渠道和研发中心,没有工厂。
现在我们不能再以“同德五虎“之一来看待七彩虹,七彩虹的代工已经改变成台湾承启,而且已经消除了旗下用料磕碜的产品。
它的A卡品牌叫镭风,疑似蓝宝代工(我没有看出来)。
XFX死得冤·····,高端产品设计方向正在奇葩的思路上越跑越远。中端反倒良心起来了。


17.耕升
原显卡界犹如升技的传奇品牌,“神奇跳线”的威名谁人不知,设计和生产极度为玩家考虑的显卡产品,超越公版的做工和用料,非常有“DIY”风格的品牌。
后因显卡低温BUG(电容引起),不得不回收4W块显卡,外加运营不当,直接嗝屁,无数玩家哭瞎了眼(这是胡说的),设计师团队集体出走,显卡品牌被同德收购。
由于耕升号称非公王,同德在接下这个品牌之后,非常给力的继续提供长达5年的凶残质保期限,继续号称非公之王,同时使用耕升惯用的红色PCB(自带吐槽:此处大雾,同德本来就是红色PCB好吧)。
有人说同德卡做工烂,其实不尽然,说不好是可以的,说烂真不准确。同德拥有最好的SMT高速贴片机,海量的芯片资源,同德的芯片体质可一点都不差,而且它给的料一点也不次。
一块显卡你靠堆料来维持稳定和高频性能要比CD来维持要简单的多,同德敢为那种看起来如此光板的显卡提供5年质保是有底气的。
同德显卡你可以仔细观察,几乎没有额外的小件,但电容惯用三洋SEPC,这可是高端型号,供电电路的每一路必有MLCC,显存也有完整的滤波,低通滤波也有虽然很简陋,焊工饱满整洁,谈不上豪华,稳定是没问题的。


18.翔升
四大核心AIC之一,唯一的内地AIC品牌。翔升兼有显卡和主板业务,非常专注于打造拥有性价比的产品,旗舰型号主要由公版layout来代替。
品牌特色不是很鲜明,和缺乏旗舰非公有关。
整体做工可靠而不华丽,金刚系列散热外观我无法接受·····



19.讯景
G200发布之时,首先拿到公版的是四大核心AIC+七彩虹,XFX则稍晚。
当时的XFX还是中华地区最高级合作伙伴,这样的情况很不正常。
主要是由于XFX的转红引起了NVIDIA的愤怒,所以费米的时候XFX还在解释自己仍旧可以发售GTX4系列产品,实际上那个时候离XFX彻底脱绿已经不远了。
XFXATI 5系列显卡的品牌叫做景钛,当然现在由于被绿营的彻底抛弃,XFX已经开始正式用讯景这个品牌发布A卡了,而原XFX的位置被七彩虹代理,也许NVIDIA选择一个无厂AIC来代替XFX有出于一种值得玩味的报复心理。
而七彩虹全面转绿后(之前只有红卡),也用了一个镭风来发布A卡,现在回看起来,XFX真是苦逼。
XFX是卖价最贵的N卡,即使大家都是公版。非公版方面,讯景曾经拥有最好的非公卡,曾经而已。
讯景的非公高频卡也对显存进行过预超频(超过额定),后期显卡做工也开始逐渐下降,而没有跟着下降的是价格。
而我对讯景有着奇怪的感情,早年讯景优秀的做工是引起我再次关注NVIDIA显卡的原因,对它后来的种种行事风格,很是觉得可惜。

20.HIS
HIS是我个人最喜欢的A卡品牌,无论是做工、用料、散热、超频性能,还是配套软件、外观等都拥有很高的水准,哪怕是价格都非常厚道。
HIS是香港的AIB品牌,专属红营,拥有很多簇拥。绿营里就是缺乏一个HIS这种充满DIY精神的品牌。
HIS也是目前唯一还在大力研发非公版OTES散热的品牌.OTES在多卡互联时相对传统的开放散热有着很大的优势。而且HIS竟然做到了在OTES散热上静音和效能的高度平衡。
原本HIS的卡不太好买,现在已经由内地厂商盈佳讯代理,很容易买到了。
相信未来会对蓝宝迪兰两强抗衡的A卡品牌局面带来不小的冲击。(那种冰冰凉感觉的外观真好^ 0^


二、主板上的元器件
在逐步分析之前,我想想需要说些什么,方便后面叙述。
主板厂商并不生产主板的全部部件。PCB-layout之后交由PCB加工厂,内地江苏啊浙江啊就有很多这种加工厂;CPU底座也是买的,前期都是富士康伟创力这种在做,稍微往后点就有很多厂家在做了,毕竟不是复杂的东西;
然后就是电容、电感、三极管、ICPWM芯片、各种功能芯片、场效应管等等,由于这种东西是买的越多越便宜,长期大量买还能赊账啥的,所以一般的板卡厂的物料采购渠道相对固定,所以有时候可以从元器件风格大致判断代工厂;
散热的话有的是找现成的换个贴纸或者导风罩,比如买个AC的、有的是拿出设计找人代工、也有控股散热器生产工厂的方式。
功能芯片、场效应管、IC、三极管、钽电容、贴片电感、去耦电容这这些都是由SMT贴片机来完成、还剩下的一些插件原件人工完成(也有为插件电容事先安装底座然后用贴片机来完成安装,但不多见)。
Layout并不反映的排阻和MLCC也由机器完成。PCB板由又叫印刷电路板,两面敷铜,根据敷铜的多寡电阻不同,而PCB上导线的则形成于腐蚀步骤。PCB都是偶数多层结构,为了方便理解我这么写
|信号||地线||电源||信号||地线||信号|
PCB的布线有些原则:为避免干扰,信号方向要一致,另外就是就近原则,元器件的服务对象一般是旁边的某个啥。
所以PCB的层数越多,布线就可以施展更多的拳脚,导线宽度空间更大可以承担更大的电流,具备更好的信号,总是好处多多。
唯一需要面对的就是制造成本的增加。
大致说下其中的一个难度变化,只用4PCB的话,元器件的焊盘只会面临如下的情况,表层走线和穿孔,如果是多层PCB就可能多出一个埋孔(盲孔,连接内部的2层,表层不可见)。
多层PCB是物料成本小于制造成本的。由于现在主板走向单芯片流,6层及以上PCB已经不多见了,4PCB已经完全可以满足布线要求。
网上老说的那个多倍铜就是敷铜量比一般的大,其实属于概念热炒了。PCB板本来就有多倍铜的规格,属于低阻PCB,一般用在一些对电流要求比较大的场合,比如大功率电源。
在一个芯片组的主板LAYOUT中,导线的宽度、PCB板的敷铜(2盎司),铜的纯度99.5%、甚至导线的长度也相对固定。如果主板上某个部分需要很高的供电怎么办?
那么唯一的办法只能加大PCB的敷铜,带来的就是成本的大幅增加,如果是高端的型号倒也无妨,因为有很大的利润空间,如果是入门型号就非常尴尬了。
现在的PCI-E的供电只能提供77W就是这个原因,实际上PCI-E的设计供电能力可以让现在的绝大多数单核心显卡不需要外接供电,只是要满足这个要求需要用高倍敷铜的低阻PCB板,只能说这种得不偿失的设计没人愿意去做。

电源为主板的供电主要去向了如下几个地方:
+12V 给了CPUGPU、内存、风扇、水泵、光驱电机、硬盘、软驱(如果你有的话)、还有早年间用软驱供电口的AGP显卡。
+5V主要给USB、功能芯片、硬盘电路、还有一些外设、历史上也有一些主板用5V给内存供电。
+3.3V CPU、芯片组、AGP接口(如果你有的话)、还有内存(和12V重复了是么?其实没有。)
+5Vsb 用于机器的USB网络唤醒啥的,现在很多主板也用这个给USB提供关机充电能力。
(我的主板是nano可以充,itouch不行,估计是电力不足,安卓手机又可以,总之很奇怪~hentai

现在的主板设计方向由于CPU什么的耗电大,所以尽量从12V取电,这样电流小,好弄。
要是现在130TPDCPU还全从3.3取电那不要命了吗。
那么现在cpu还从33还取电么?取的,只是量很小,满载的时候也许会吃个20-30W

   供电部分CPU的供电实际就是个buck降压电路,把从电源弄到手的12V电压折腾成CPU要得电压。电感缓慢降压,场效应管通过超高速的开关来控制电压的稳定,电容负责储能,PWM根据反馈的电压来控制场效应管的开关从而调整电压,IC则是放大PWM的开关信号,因为PWM无法直接驱动MOSFET主板上的的元器件具体到电气学随便弄一个出来都能比我整篇文章规模要大,所以这里没办法展开讨论,当然主要是我不会。这里就按照我的方法来说明。PWM能控制的供电相数实际是有限的。于是有用多相并联或者多开关管降低发热增加电流耐受,也有用分相器的,而这个开关管的开关频率会下降,所以真正能代表供电相数的要结合PWM的设计目标是最来看。So,不去管它是最好的办法。
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
9#
 楼主| 发表于 2013-5-16 01:47 | 只看该作者
本帖最后由 taizer 于 2013-5-16 03:15 编辑

本帖最后由 taizer 于 2013-2-22 03:08 编辑



1. 电感
(我相信我不需要一个个指出,图上啥是电感、电容什么的。其一我相信大家都知道;其二,虽然算不上主要原因,真的算不上······如果单个配图我嫌麻烦)
电感的功能和作用是这样滴。
当电感通过电流的时候会产生磁场感应,由于这种磁场感应是电流变化的所产生,因此它本身产生的电流就会抑制原电流的通过(与原电流相反),电流的变化速度会因为电感的存在而“放缓”.
电感的这一特性正是它名字的由来,因为这个特性就叫“电感”,而对这一特性也有数值单位来描述。名曰感抗,单位亨利,电感上的R**R后面那个数字就是感抗。
感抗的大小也反映了其储能能力,但也不是说越大越好,感抗太高意味着其频率特性较差,在多相供电电路中,特别是混合供电技术的引入,电感的感抗已经没有往年那么大了。
由于电感效应的存在,电流的变化会被电感阻隔,这一特性就可以被用来阻止电源中没有虑干净的交流电。
而直流电的电压升高会被以磁的形式“储能”再缓慢释放。
CPU供电接入处,旁边一般会有1-2个电感,那是扼流电感,而一般处于扼流电感大致水平位置的电容也是未经BucK电路转换前的电流滤波电容。
电感也有品质之分,不是封装方式,那个只是管电磁干扰和卖相(甚至这个才是主因)。
它有个数值叫磁通量,能改善这个主要是绕组芯体材质,绕组方式和绕组材质优良。就是消耗同样的电能产生更强的磁场,或者说提供相同的感抗而消耗更低的功耗。
一体式烧结的确实能减少高频啸叫;纯数字供电用的是联排电感;贴片电感好看而已,性能未必就好,采购价格也未必就贵,同理外观好看的也是(如果你喜欢并且有钱而且闲得要死可以定制蕾丝花边电感,但不会提升性能)

2. 电容
电容的主要作用之一滤波。
液态的(头上被师傅砍了个K型标记)现在已经在主流型号销声匿迹了,不过有些主板还是非常好的在音频滤波开始使用液态电解电容。
我记得几年前了,有个主板的音频滤波用了液态电解电容,然后在评论一栏我看到了无数人说这主板只能算“准固态”。
有时候IT媒体所作的事情就是误导了读者,结果最后能把自己害了。液态电解电容更适合音频滤波,但这个事情等R&D意识到想在音频滤波这个位置回归液态电容的时候,却发现已经满世界的“全固态主板”了。
好像也就近几年终于没有必要再去解释液态电容为什么还在主板上有一小片的事情了。
我们一般说的电容液态的或者固态的,这个说的都是阴极材料,阳极都是铝,但一般都不用铝电解电容这个说法,因为看起来不华丽。
还有就是阳极是钽这种材料的,就是钽电容了。ESR很低,外加自动修功能,高端型号价格很高很高。
液态电容的逐渐消失不是因为会爆浆,电子产品嘛,总是会坏的。而是因为电解液在低温环境下性能会下降的厉害,根本达不到标称容量,就因为这耕升出过事。
电容不是阻直通交么,那它咋滤波。
电容并联在电路上,交流杂波能从电容过去,于是被电容一声“走你”带到接地了,直流进入电容,这种特性自然也能抑制直流波动。
由于PC上用的交流杂讯比较固定,就是50hz,所以主板上的多相供电系统需要多少个电容实际有办法估算,根据电压和容量估测冗余是否很足。
电容的容量越大,滤波性能越好,频率性能自然会下降。所以那种高频的纯数字供电电路只能用MLCC来滤波,一般的插件式不行。
105度和85度指的是在105度和85度这种高温下能工作几千小时来着不记得了,二者的安全温度是这个极限温度的70%,再高就有热损耗。打个比方在环境温度70度的情况下,85度电容就开始有热损耗了,5000小时后嗝屁,但105度电容还能继续工作1W小时。
我在网上看到有人说,日常使用谁到了85度啊,两电容没啥区别。实际上这个105 85更多反映的是电容在常温环境下的使用寿命和高温环境下的性能,就算是日常使用105也是要寿命更长。
电容的储能也是利用其阻直特性,直流电会被电容阻止和储存,当然超过容量的部分还是能通过。在电容的两极接入正负极,电容就开始存储电荷,等两端电压没了,再接通电容的电路,电容就开始释放自己存储的电荷形成电流。
实际上CPU电路拿到手的电流就是电容里的。
ESR---等效串联电阻和ESL—等效串联感抗,属于电容的固有属性,电的容只是这个元器件的主要属性,同样它还有无法避免的阻和感。
ESRESL越低越好,不一定非要钽电容才ESR低,一般的铝电容也有高阶的极品型号,就是低ESR版本的,贵就是了。

3. 场效应管
这部分会涉及比较多的东西,不是有意铺开的,我的叙述功能部分出BUG了。
场效应管属于一种主动开关管,晶体管也出自这种结构,场效应管是现代科学和信息技术的最主要基础技术。
我在CPU一章简单说过晶体管的源漏栅,和MOSFET没有本质的区别,这里不再介绍。
主板的每一相供电的回路需要至少2个开关管,一上一下。由于下路是高压侧电流更小,所以有21下三桥这种组合方式,总体电流压力更小
。(假设CPU满载100W,电压1.0V,那么就有100A电流,分配到一个四相双桥的供电结构,就是每桥25A,一般来说每桥电流最好不要超过30A。)
场效应管有多种封装,还有整合驱动的,不去管它不去管它。内阻和动态电压的响应速度才是重点关注参数。
场效应管是千颗起购,由于IC不值钱,一般双桥合并的IC是否内置千颗采购价都差不多,
把低内阻和高频性能这种都算上,一个高级MOSFET(注意一个就可以满足一相供电了)的价格大约是45毛钱,这在主板的物料成本里算比较高的一类了。当然便宜的一块钱两对。。。。。另说了,另说了。
Mosfet的内阻指的是在导通状态下的内阻,6-13豪欧之间,越低越好,价格也高。超低内阻的版本大概在3豪欧左右,1块钱2对的那种内阻能在13以上,发热也很高。
从封装上大概能判断品质,当然MOSFET上是有型号的,随便搜索下就能找到包括价格在内的所有规格,不过不必过于细致追求。
关于这个频率性能,我最好先说明下为什么多相供电可以提供更加平直的直流输出。

我们有些门户硬件站看到的说到多相供电的好处,一般都是平均每相压力更小,电流和发热更小,这还是不能解释为什么多相供电输出更平直。

为了解释这个问题,我尝试来解释这个开关调整过程如何运作。
PWM读取CPUVIDCPUVID电压则是来自主板的VID识别电路,CPU上有多个针脚用于定义VID电压(之前短接超频短的就是这些个中的),主板VID识别电路通过对CPU 电压定义针脚的加压读取CPU电压,发给PWM的是CPU VID编码,这是数字的。
然后PWM根据这个编码来适时调整PWM脉冲宽度的输出。PWM的意思就是脉冲宽度调制,它通过脉冲的宽度和频率的实时变动来调制电压,具体原理是什么样的,不去管他不去管他。
PWM发出来的脉冲是没有能力驱动mosfet开关的,这就需要driver ic来放大信号,有的时候这些有三个针脚的小东西连片焊到一块,现在的趋势是mosfet内部整合,它只管驱动PWM信号。
场效应管是高压侧1个(下桥),低压侧一个或者两个(上桥),轮流噼里啪啦哔哩哔哩的开关。关于mosfet的开关工作原理不加赘述,因为我还得去翻书,我TM真不记得了。

多相供电的先不谈,单相的先说。
为了便于理解我把MOSFET的称为小挞噶(高压)和小給(四声)子(低压)······,以上是胡扯
从电源里出来的12V电压到了电感,由于电感的本身特性,最初小挞噶开闸电作为磁开始存储,电压缓慢下降,之后PWM告诉ICIC告诉小挞噶小給子,小挞噶关闸小給子开闸放电给电容,如此反复,一开一关轮流工作,输出的是高频脉冲。
这个开关速度非常的快,大概在300Khz左右,最终从电容输出相对平直的直流电。
如果以μs的输出能力来算,单相供电的能力是比较有限的,加上只有单开关,供电电路最终输出的电压浮动范围就比较大了。
面对如今的高功耗CPUGPU,加上我从需要相对精确的电压输出,特别是考量到OC性能的时候,假如输出的波动本身就有0.0025V,那么BIOS里的0.0125V的电压调节步进实际意义也就打了大折扣,不是么。

多相供电,为什么叫相?这个相就是相位,指的是PWM输出的信号相位,如果反应到示波器上就能看到相位图。
在多项供电系统中,PWM输出给各个供电相的信号是交错分开的,不准确描述是各个相位轮流工作。如果是一个8相供电,就代表着一相供电的时候,其他7相在休息,这个是交错的,速度极快,另外记住这是共同负担的。
所以供电相越多,PWM的频率要求就越高。单单从供电电路复杂压力来说,并联也可以起到完全类似的作用,那么用高频率PWMMOSFET打造多项供电系统的道理何在。
原因就在相位上,如果4并联变8PWM输出的是4个相位波形,这4个交错分开的相位波形带来的4个供电系统的供电波纹也是这个相位的波动,电压波动会在最终输出的时候会因脉冲相位的合并抵销而合并抵销,最终形成相对平直的输出.
如果是4相合并成8,就是4相位波纹合并,如果不是并联,那么就会是8相位波纹合并,输出更加平直。如果是非常多相,最终这个输出的电流质量就会极高。
但事有极限,PWM的频率终归不能无限上升,因为发热无法控制的话,最终导致多相供电提升OC性能目标被PWM发热所限。为什么要说这个,这要引出下一个话题。

数字供电、模拟供电、数模混合这些名词的背后的供电系统是否有本质区别。
其实没有,但这里依旧会以此为基础说几种常见的供电设计方式。
在本目图中,另配了一个纯数字供电系统的图。那么,是什么样的设计让这种供电系统的工作稳定温度设计在120度以上,是什么样的设计让8相的供电设计输出可以让16相模拟供电望尘莫及
。在之前我们知道了PWM对供电的微调来源于脉冲宽度,这个脉冲的调节是实时的,根据反馈信号不停调整。
现在的供电PWM芯片其实都是数字PWM,监控、反馈和调整都集成了,反馈信号也是数字的,纯数字供电就是一种极高频率的模拟供电系统
8相数字供电的DR.MOS开关频率高达1300Khz,这是因为数字PWM对信号的反馈和调整频率极高,所以MOSFET的脉冲相对模拟供电相位幅度也要低得多,在多相合并后,最终输出的电压就非常平稳。
这种频率极高的供电系统,插件式电容无法工作在这个频率上,因为其ESRESL就会超过电容属性成为主要属性,使得元器件功能失效。
纯数字供电只能使用MLCC电容,这也是辨认纯数字供电的绝对标准,而联排电感和DR.MOS不一定是必须元器件。
MLCC的容量相对于体积比较大,具备低ESR和低ESL特性,而且具备较好的高频性能,成为数字供电系统的选择,同时也大量用于各种芯片滤波和显存滤波。
纯数字供电一切都那么美好,有什么缺点么?
其一,成本;PWM必须用高性能的低阻mosfet,在超高开关率和高温下性能不下降、高性能的电感,感抗未必高但磁通量很高,用料必须不俗。
其二、无法直视的高温;整个数字供电系统,无论是芯片、电感、MOSFET都处于一个极高的温度,游戏的时候温度破百是经常的,即使设计工作温度本来很高,这个温度还是太高了。
这个问题带来一个很相悖的尴尬,纯数字供电输出如此精准的电压,就是为了能够为CPU/GPU攀登高频创造条件,但整个供电系统的输出能力最终反倒被发热所累。
我们现在能看到设计比较好的纯数字主板,为这个供电系统打造了一套专属散热设备,算是一种不懈的努力吧。至于供电系统的散热我在后面说散热器的时候会略带提一下。

还有一种多PWM联合成多相的,属于一种交替开关式,和纯多相在输出上区别不大,毕竟PWM能控制的相数有限,想要真正的16相供电,单个PWM目前无法实现。

还有一种就是利用类似单刀双掷的分相器实现超多项供电。PWM供电芯片从最初的4相到后来的68,现在有10相的了,于是分相器的设计是这样的。
把一个10相的PWM用分相器分成20相,反馈信号由分相器中继,这样分出去的信号反馈频率就变低了,MOSFET的频率也就大概在300Khz左右。
从调节的角度上说很接近数字供电的反馈调节,在开关管方面又相对频率和发热较低,这属于折中方案,也是目前主板数字供电设计的主要方式之一。
在这里郁闷一下,很多东西算是边写边忘,有些东西关了电脑想起来要补充,醒来又忘了,总体上肯定丢了不少本来要说的东西,哎~ 算了,不去管它不去管它。

这里要提个东西,就是去耦电容,我觉得甜点级及以上显卡都应该至少加一个,要不了几个钱,甜点级显卡利润空间也允许。


去耦电容是用来退去耦合,消除信号杂音。
板卡电路中的IC放大电流信号,从前级到后极无法做到完全的平电,会形成正反馈的寄生振荡,这个寄生振荡会和后极电路电信号形成寄生耦合,
而这个寄生耦合在电路中就会成为信号噪音,通过接入电容就可以依靠电容本身的特性中断寄生振荡从而消除这种寄生耦合,当然不一定要求需要这种大容量的高端退耦电容,也有用钽电容或者用MLCC的。
但现在一般在板都使用这种高端去耦电容的原因还在于它很高的容量配合MLCC为芯片进行更好的滤波,可以同时满足容量和高频适应性。

实际上一块主板或者显卡上,很难去准确判断每一个料件的具体作用。哪个是退耦,哪个是旁路,那个是滤波,哪个是扼流,哪个是整流,哪个是保护电路等等等等,但正是这种细小的料件,能在原本的基础上再次提升板卡的稳定性。
就像以前的公版显卡总是布满密密麻麻的小件,给人一种踏实感,实际上很多小件在layout都不会反映出来,你甚至可以空焊他,芯片照样能正常工作。
现在的媒体过度的去诉说卖相上的东西,不能不说是一种退步。
还有,我无法理解以超频为卖点的主板为什么要配套节能软件,特别是那种关闭部分供电的,造成非均等损耗,无法理解···无法理解····
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
10#
 楼主| 发表于 2013-5-16 01:48 | 只看该作者
本帖最后由 taizer 于 2013-5-16 01:51 编辑































本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
11#
 楼主| 发表于 2013-5-16 02:51 | 只看该作者
本帖最后由 taizer 于 2013-5-16 03:18 编辑

4. 功能性芯片和其他
  一块主板的原料成本主要是两块,一块是芯片组,一块就是不是芯片组的部分。
这样分类乍一看似乎很可笑,实际上制造一块主板算上基础的功能芯片,6相左右的供电,台系的固态电容等等,就是普普通通又能拿得出的那种级别,主流芯片的话这个主板大概要90多美元,而这里面有40美元是芯片组的采购费用。
所以X58主板的价格才会从150美元到500美元都有。
基本能力之外的扩展功能
主板元器件有个原则就是就近原则,所以什么东西管着什么,按这个原则就能知道了。
2完整的低通滤波电路。


比较容易观察的内存供电一角。
右边因为有辅助8PIN所以还有个扼流电感和一个滤波电容,24PIN上也有一个扼流电感和2个滤波电容,这些不参与内存供电。
现在很多主板为了实现高精度的内存电压调节在PWM的规格上相当不俗,一般都和主板CPU供电同一型号,甚至有很多主板在PWM风扇插针上也使用这种规格的芯片。


板载DEBUG和重启电源键应该成为中端主板标配


整个地方比较复杂但比较有代表性,我来说下。LSI那一颗是提供SAS接口的,X79原规格支持,但出片的时候SAS无法正常工作,屏蔽掉了(这部分依旧占用功耗)所以作为旗舰芯片X79的磁盘规格略低。于是有厂商用第三方芯片实现X79的SAS接口。当然和LSI的高端阵列卡性能没法比,不过对于有SAS强迫症的磁盘玩家以及对芯片组SAS缺失感到难受的人是一种福音。LSI旁边的就是芯片组了,现在由于内存控制器的内置,芯片组规模要小的多。右侧是其供电芯片。这里要说下,仅依靠VID电路/IC芯片组和PCI-E也可以正常工作,但考虑到调校芯片组一般还是有单独的供电系统的。LSI上面是个128M的闪存,有可能是LSI的缓存。再往上的PLX提供PCI-E通道,用了2颗,为了主板在组建多卡并联的时候提供更多的PCI-E信道。2颗PLX之间是控制IC,右边是PLX下方是供电,PWM芯片看不清楚型号,但这个用料已经不俗。早先要提供双X16通道,有时候会需要NF200桥接芯片的,算上NVIDIA的授权费用和NF200的价格(用旧制程制造,发热坑爹),甚至一度超过芯片组价格,造成了很多主板厂商对额外的PCI-E信道或者额外支持SLI望而却步,而现在连NV自己都用PLX来扩展PCI-E信道了。



PCI-E旁边这个D口用于接入加强PCI-E供电,但这种设计有个问题,就是会让走背线非常尴尬,宁愿不接。所以有把这个放在在主板边缘的,不过我没能找到图。



晶振和时钟发生芯片组成的时钟发生器。这个是在PCI-E那里的,提供主板启动初始时钟信号,也提供给PCI-E频率调节,即使我们一般是锁定PCI-E的频率,它依旧会提供一个相对宽泛的幅度。
有时候这种结构在主板上不止一处,提供给其他需要另外时钟信号的总线。在以前超频还需要FSB的时候,FSB的外频实际就是这种东西在提供时钟信号。




I/O芯片和raid芯片(小一点的是raid芯片


左边的是音效芯片,使用金属外壳屏蔽干扰,内部看不见,但一般都是小螃蟹;蓝色的是无极性电容,接入可以不管正负极,拥比有极性电容更好的高频性能;
有条纹的是金属氧化薄膜电阻,相对于普通电阻受温度影响很小,这样不会因为阻值变化对声音输出有影响
。这些组成了相对高级的音频电路系统。当然还有另配音频子卡的,那个更好。



双千兆网卡的配置在自建的NAS上会很舒服,内线点播的时候双线合并,可以应对极高码率的点播。


I/O监控芯片。


USB接口背后的电容和保险丝。




根据就近原则设计在后置音频接口背后的前置音频接口插针,成为背线流的噩梦。



bios芯片,一个刷坏,另一个自动接替并且修复,刷不死设计,值得全部推广的设计。



PCI-E3,0的信道切换芯片,在支持4路交火的主板上,这个芯片数量很高。
PCI-E2.0时代没有这种数量级的芯片有所不同,由于3.0控制器的CPU内置,外置靠扩展,新显卡的支持等,造成了这一时段里的特殊情况。




PCI-E的供电。
我记得有显卡屏蔽了PCI-E的取电而完全从显卡供电取电,为了更纯净的供电。
其实没有这个必要,PCI-E取的电会被显卡供电模块二次净化。




左侧的供电设计明显更华丽,但有个奇怪的地方,就是供电接入出没有扼流电感,注意右边的是有的。
这个不加扼流电感基本上成了影驰工程师一个非常奇怪的习惯,即使是很高端的型号,他们也不愿意加入一个基本没有成本的扼流电感。
究其原因,也许我前面所说的那种工程师偏执的理性吧。





24PIN主板供电翻转90度利于背线的图




主板背面可以看到PCB层数的透窗

许还有其他七七八八的东西我没有考虑到的,遗漏了,暂时也不去补了。总体说来,其一,主板的供电相数多寡确实决定了其供电质量和OC能力;其二,扩展能力、功能性和易用性也是一个要注重考虑的方面,这部分主要依靠主板的功能性芯片和配套软件;其三,从表层走线,焊点饱满程度,元器件规则程度可以大致判断主板的做工能力;其四,很多元器件特别是小件,以排阻、MLCCIC为主各自担负着各种功能,主要是保证主板的信号纯净、电流平直、电路保护等,这些无法在测试中体现,但为主板的长期稳定运行提高了保证,我们可以从焊盘附近、各种插槽附近的小件密集程度做初步的考量。现在无论的媒体的导线还是厂商的导向开始趋向于卖像,炒概念等,希望以上东西能对各位朋友自己来判断板卡好坏提供一些帮助。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
12#
 楼主| 发表于 2013-5-16 02:57 | 只看该作者
三、特别播报:GK 110的那些事儿

我在写这个东西的时候,正赶上GK110的发布在即,临时决定在这里加入这么一个部分。
本来想另起一篇,后来想想正好原GPU篇的GPU策略烂尾了,这个讨论这个时候正好作为一种补充。
关于性能架构等的东西不做论述了,GPU篇已经讲的很清楚了,这里只谈谈其他我想到的事情。
GK110自打从坊间流传开始就一直处于热议之中,众说纷纭。
实际上GK110有可能是ATI/NVIDIA对决历史上最特殊的产品,这种特殊性不是它的性能、架构,而是有可能对双方研发周期产生影响。

在开普勒发售之前对GK104还是GK110作为旗舰显卡的消息就在不停的出现,当然最后GK104作为旗舰单核心来面对ATI的Tahiti。
于是有这样一种说法就是,原本就不存在GK110,GK104就是最高版本。
这个说法肯定是不准确的,按照NVIDIA的芯片设计策略,GK104无论是位宽、晶体管规模、核心面积都不是旗舰GPU的风格,也不可能先设计一个GK104然后再设计一个ALU规模更大的GK110。
还有一种说法是GK110被NV雪藏的原因是因为Tahiti的性能没有达到NV的预期,所以他们使用甜点级型号作为旗舰型号发售,这恐怕是溢美之词。
Tahiti的相比Cayman的性能跨度完全达到了一代显卡应有的高度,而且其衍生型号7870/7850/7770等,市场表现非常好。
而且GK104的对应高端型号应该叫GK100而不是GK110,在一开始曝光的时候它已经叫GK110了,所以更有可能的情况是。
GK100被首先研制出来后,出现了费米时代的情况,它由于过于复杂而受限于制程,所以为了避免出现局促局面NV决定加快速度放出GK104,然后以较短间隔前后发布,类似GF104救GF100的场。
但正如我在GPU一章说过,现在ALU数量规格太高,前段单元压力巨大,开始出现短板,造成了单个ALU效率远不如以前的情况。
其实对比7970和7870的性能跨度也可以发现,7970的性能跨度远没有达到其流处理器规模的跨度,他们也有这种情况,甚至Tahiti比GK系列更加严重。
由于上述原因,加之GK100过于复杂,功耗发热很大,频率提升困难,NVIDIA的工程师发现,GK100比GK104的性能提升不大,而GK104通过高频率和Tahiti性能非常接近。
于是出现了GPU史上相当吊诡的一幕,一个甜点级核心作为旗舰型号发售,而且它竟然成功的战平了对手的大核心旗舰。
而GK100被命名为GK110等待制程成熟,再度出山。
我绘制了一张不怎么严谨的表格来附文说明A/N对决史上的值得一说的几个时刻,以及这些事件对双方研发周期和核心策略变化的影响。


NV30架构失败,发热极高,性能坑爹,而且非常不幸的遭遇了ATI史上第一款长研发周期大核心产品,此战被虐的相当不轻。
NV紧急调整NV30并修复其短板,至NV38已经经历2次改进,ATI直接用RV300小改和衍射型号轻松应对。
这场战斗的高度压制给ATI带来了超好的自我感觉,也尝到了大核心策略的甜头,而且为他赢得了长达18个月的研发周期。
而NV这边,对NV30的不断改进疲于应付的同时也在加紧研发下一代产品,卧薪尝胆,而且通过艰难的调整也获得了和ATI相当的研发周期。
于是双方第一次“憋大”技能发动,对决。

由于RV300太成功,ATI错误的估算了形势,他们研发了一个虽然规格很高性能很强的产品,也就是RV430.
但是他竟然不支持DX9.0C,更倒霉对手憋大也憋了个超级成功产品,NV40对比上代产品的提升非常之大,这次被干翻在地的是ATI了。
整个RV430和其衍生型号,ATI发动了多种救市手段:
模仿前代9800SE的免费开管,打造定位类似9550的X550,RV430以及其高端衍生型号的大幅降价(旗舰显卡价格头一次如此诱人),强调SM3.0不是必须SM2.0尚可一战。
可是中端型号的高度缺乏,不得得靠高端型号来面对NV40的丰富产品线,那一年ATI过的很难。

之后,NV发布了NV40的规格扩充版本G70,命名习惯变更,性能提升幅度常规级别,对阵RV520。
一年后RV580发布,单管三纹理的架构,在当时性能极度狂野,AA+HDR加持,NV的应对呢?
G71~ 一个高频版G70,完全无力对付RV580,而且还做了一个7950GX2出来。NV为什么要这么做?我当时也觉得很奇怪,似乎是无力应对不想好的感觉。
G71是个小核心显卡,功耗低,成本低,主流型号性能相当不错,而且在低端显卡也就是7300GT引入了8管这种高规格,当时7300GT和7600GS是NV的主要利润点。
NV用小核心策略对应对面的大核心很类似于RV770面对GT200的情况,不过几乎NV没有消耗任何研发周期来做这种布局。
NV当时这么做的目的只有一个,等待技能“憋大”CD,以及90nm工艺足够制造一款疯狂规格产品。
ATI因为遭遇收购在DX10的研发上慢了一步,而且当时ATI也在“憋大”,第二次“憋大”技能即将对决。
在RV430的DX版本事件之后,ATI都一直高度更随DX来更新产品,一朝被蛇咬十年怕井绳啊。在NV这边,在高端市场被RV580压制的时候,NV的工程师反倒是兴奋的,
他们对即将要发出的外星科技级别显卡无别激动,NV也确实迎来了其最辉煌的一页。
至此DX9时代的3次核心结束,双方各有一次憋大,一次新核心加一次改进或者规格扩充。

G80立项很早,通过基本放弃DX9.0c最后一代产品,用G71试水90nm技术,为其赢得18个月研发周期,创造了第一代统一渲染架构GPU,兼顾科学计算和游戏性能,加入CUDA。
即使其发热高功耗高也无人诟病,因为它是在太强了。
G80迫使媒体测评室开始购买1200W级别的电源,其架构一些设计思路被沿用至今。
由于收购导致产品推迟的ATI在6个月后放出了它第二次大核心产品,R600。
超高的规格,极度复杂完全全新的架构,并且让512bit这种恐怖位宽回归。基于80nm的R600功耗甚至不输90nm的G80,可见其复杂程度。
R600由于ROPs出现BUG,抗锯齿性能跌幅过大,这对一个旗舰产品是致命的,更麻烦的是作为主要利润点的中端产品ATI过于匮乏,造成了连8800GTS 320M都卖到天价的局面。
傲视群雄的8800GTX SLI首发价格更是到达19999附赠800W电源的地步,后期高频版也就是8800ultra直到停产都没有被击败。
这个事情对ATI的大核心策略产生了影响,此后ATI就没这么干过了。

G80的接任者G92是新制程的改进版,位宽减少,略微改进了纹理单元依靠较高频率完成基本达到了接近G80的性能,G92核心的效率很高,寿命也很长。
这次也是比较少见的核心换代而性能没有提升的一次。
而且更加有趣的是ATI也是如此,RV670是R600的精简型号,ringbus取消ROPs初步修复,ALU规模保持不变,依靠新工艺和高频率也有了不错的性能,而且就算是全规格的版本卖的也很便宜。
在G92对阵RV670阶段,AIT需要用全规格的RV670才能对抗G92的9600GSO,平均利润非常糟糕。
这给nvidia对ATI下一代产品性能产生了误判。

由G92规格扩充产生的型号G200,功耗核心面积很大,位宽高达512bit显卡制造成本极高,性能彪悍,而且本代显卡公版做工极其强悍,直到现在P651还在论坛被热捧。
这次对决我之前分析过这里不再赘述,我们只要知道RV770太神了,nvidia这次伤的不轻,心灵上的~

下一战,ATI的改变策,紧跟DX进度,为RV770架构增加DX11能力并且进行规格大幅扩容,CYPRESS抢先发布。
NV则按照习惯进行架构变更,而且费米变更较大,结构先进复杂,于是完美难产。本代独立显卡市场份额,ATI终于超过了NVIDIA。
借由cypress的市场抢先占领,ATI有了时间进行架构转换,Cayman的结构有了初步改进,VLIW4出现,单个ALU效率提升,也为ACE单元的设计提供了经验。
GF110只是工艺进步版本的GF100,但依旧有能力抗衡Cayman,从整个DX11前2次战斗看,波澜不惊,ATI的策略造成了自身研发周期的变更,NV则拆招应对。

由于费米架构较为先进,NV又来了一次G71方式,如果cypress是新架构,Cayman是Cypress是扩容版,GF110的日子就不会这么好过了。
ATI这么做的原因是为了GCN研发赢得时间,同样的nvIDia也获得了一次较长的时间来更新架构。
关于GK104和tahiti这里不再赘述。

为什么说这么多,其实是为了大致说明下,两家在研发上是有规律可循的。
基本是3代产品里有一次新架构,一次扩容,一次小改,具体怎么安排则受到制程市场以及对手产品策略的影响。
而且由于DX11的生命周期比DX9和10都要长,他们事先知道,所以本代的新品规格变更与往常略有不同。
通常一点来说cypress是新架构,cayman是扩容,tahiti是改进版,这样的话下一代新品研发周期大致是cayman只有就可以开始,tahiti可以用来试水制程。
NVIDIA的话GK100应该是GF110的扩容版,而不是全新架构。说到底是DX11生命周期长,产品策略要做些调整。
只是由于GK104的意外强大给双方的研发周期带来了一个混乱,而且这次有利于nvidia,我来说明一下。
如果GK100和tahiti的性能接近,那么GK110应该是GK100的扩容版,GK100已经非常巨大,GK110必须改进前端外加有可能再度受困于制程而消耗6个月的研发周期。
或者模仿G71的方式依靠GK114来保障利润,但由于DX11首战不利,情况会比G71时期要糟糕的多。
而现在非常少见的依靠甜点产品战平对手旗舰,而本来的旗舰单核心依靠制程拉高频率直接作为下一代产品发布,现在不太明确的就是是否会有GK114,毕竟GK104频率已经很高了。
首先我猜测下下一代AMD产品的规格,由于tahiti是GCN新架构,下一带产品HD8970应该是tahiti的规格扩容版.
考虑到tahiti的ALU规模已经很高,所以可能每个GCN的内置流处理器数量会有所增加,维持384BIT然后ROP补全为48个,而ACE有可能有一次较大改动,甚至加入类似NVIDIA的双发机制来提升效能。
这个核心的性能足以对付GK110,只不过由于这个产品的扩容会额外消耗研发周期,导致下下一代产品的时间非常紧张。
我们再回头看下,cypress是RV770加入新技术的扩容版,cayman是VlIW4新品,tahiti是全新GCN,ATI这样做是会预见到第五代产品的研发紧张,那么为什么还这么去做?
我分析如下3个原因
1.tahiti本身非常强大,已经是个高研发周期产品,因为cayman毕竟只是小改,tahiti是一个很彪悍的新品,规模、位宽、频率都很高,这样简单扩容甚至直指提高频率来应对对手,为第五代产品拖延时间。2.NVIDIA没有为GF110设计扩容,而直接换用全新架构,这个全新架构性能又如此强大,出乎意料。
3.最主要的原因是,AMD与NVIDIA比较的来说,生活比较困难。它要同时维持CPU和GPU两个大的研发中心,附带APU的研发也要花费经费和人力,又要兼顾移动市场和未来要入住的RISC。
其CPU领域的老对手intel过于强大,CPU领域日子不好混(我们回头看intel的核心架构的话从nehalem开始,架构主体变动速度已经远没有以前那么快了,市场压力小是一个方面原因),外加财务状况很不理想,AMD必须依靠综合市场来维持利润。也就是说特别是APU和GPU要快速发售占领市场,捆绑芯片组以后来带动CPU以及整体市场的销量。
所以不惜缩短研发时间来快速发布新品,回收资金。
Tahiti全线价格上市之初非常高,销量也很好,就证明这种策略是有效的。

GK110这次发布的比意料中要早了一些,大概也是因为现在PC市场的萎靡,NVIDIA也希望快速发布新品来回笼资金

由于首次出现了甜点级产品作为旗舰发售的情况,NVIDIA赢得了一次较长的研发周期,甚至有时间来等待制程。
也就是说NVIDIA的下一代产品MAXWELL,可以放心做的“相当复杂”了,而且受困于制程的危险大大降低了,我们很有可能看到一个类似G80的传奇产品。
上一次是牺牲了一次产品对决(G71)才获得这样机会,而这次什么都没放弃,而且对手的研发也要比上次更加紧张。
AMD有可能会迎来一个相当难受的财务年度,还好拿到了PS4订单。希望它的APU能有更多建树,帮助AMD脱离困境。
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
13#
 楼主| 发表于 2013-5-16 02:58 | 只看该作者
本帖最后由 taizer 于 2013-5-16 03:20 编辑

本帖最后由 taizer 于 2013-2-22 03:29 编辑
四、散热器部分
散热器的效能是可以通过其设计来初步评估的,我将试着来分析。
1.材料
散热器的材料一般是鳍片铝,底座铜或者铝,热管为铜。
鳍片也有用铜的,但不多见。铜比铝的导热和吸热都要好,但为什么不用铜做鳍片。
铜熔点高,加工困难;其二重量太大,主板负担太高,也有可能压碎DIE
其三铜虽然同体积热存储能力更大,但要带走这种热量确要比铝困难,简单的说吃扇子,当然只要你能承受略高的噪音,纯铜鳍片的散热器还是非常狂野的。
比如U120-E的纯铜版,加暴力扇依旧是当前最强风冷,虽然停产但成色好的依旧被风冷玩家买来收藏。
2.底座
底座的材质也主要是铜和铝,铝就不说了。
铜底的厚度关乎吸热能力,关乎和热管接触的面积,铜底的大小关乎和CPU/GPU的接触面积,也直接影响到吸收和散热性能。
以下展示3种常见的底座。
纯铜,上下夹持焊接
上铝下铜夹持焊接,铜底较厚,接触面积尚可。
上铝下铜夹持焊接,铜底较薄,热管压扁增大接触面积,略影响热传导,但在低端风冷上仍是值得称道的技术。

3.热管数量
热管数量直接关乎传导以及和鳍片的接触面积,注意有的时候热管数量较少的时候,热管会教底座中心靠拢,以更好的接触核心发热部分。
通过观察热管弯折处的褶皱的多寡,最能判断工厂工艺水准。


热管被安排在靠外围的地方,避开风扇盲区。


4.热管鳍片接触方式

采融的鳍片夹持焊接技术,可以降低成本,而不影响效率,对散热塔造型有一定的要求。



传统的回流焊工艺,有明显的助焊孔。



穿FIN工艺,依靠高温快速将热管挤压进鳍片,使得鳍片紧贴热管,接触性和焊接还是有一定差距,而且时间久了会松动。

5.扣fin
鳍片间边缘折叠连接,保证鳍片的空隙均等。

使用折边工艺保持鳍片空隙均等,折边彼此并不连接,对保持鳍片的稳定不如扣FIN。也有在侧边使用大面积折边用以集中风扇气流。

没有任何措施保证鳍片均等,时间长了容易松动,也不美观,低端散热这种设计也无可厚非。


6.H.D.T技术


H.D.T被媒体过于美化,热管的直触快速带走热量,可是没有铜底吸热和贮存,必然对散热性能有影响。
而且热管直触不能保证对核心的完全接触,有底座的话,每个热管的接触面积都有保证,H.D.T要么削平热管要么压扁怎么都有影响(如果是HDT那么热管所接触的热量最大面积也就是核心面积。如果是纯铜底座,那么热接触面积是包裹在底座内的热管全部表面积,简单计算就知道这个热接触面积是HDT的好几倍,即使是考虑到上铝下铜加持的底座上温度不太好<铝导热系数比铜低很多>和靠近核心的热管导热效果更好等因素,其实际热量接触能力依旧高出很多)面对大核心还好些,较小的核心甚至会造成1-2根热管接触不到核心。
H.D.T更多的是对成本内散热效果,以及卖点的一种折中设计。比如一样的钱我可以用3热管+厚纯铜底座,或者考虑用5热管的H.D.T,后者效率可能更高,而且更有卖点。
不过在旗舰散热上不会出现这种设计,因为有足够的成本来打造厚铜底+多热管+FIN+回流焊。


7.主板散热设计
这里举几个例子给大家看下,很多时候主板的散热设计也是有讲究的。

这个算是设计比较好的,有明显的高温短流向低温短然后依靠风扇散热的走向。

高温短在供电处,低温段在南桥,单南桥没有办法散走热量。哪怕算上风扇对周围的散热,南桥那个热管的作用还是美观为主。
好就好在这个鳍片设计的比较高,能够较好的吃风道。

DFI的这个设计,那个高耸的散热模块是可以另加的,依靠出风口带走热量,比较极端的设计。

顺带一说,即使鳍片设计的较低,塔式散热虽然不如下压式能更多的照顾到周边元器件,但依旧能吹到供电模块散热片。
因为风扇吹出的风实际更像是一个旋转的扰流,也正是这个原因有时候我们需要导风罩,而且即使是风扇直接覆盖到的地方也会有弱风区。


8.举例说明散热器设计这里列举几个散热风格,主要是有代表性的设计,不一定是最好的,但是有亮点的。

采融的一款散热器,可以照顾到元器件散热,而且由于双塔不在一个风道上,另后塔也不会受到前塔热量影响。这个散热器的鳍片也比较开,低转速风扇就有不错的散热效果。
AC的三风扇,鳍片较开,鳍片规模虽然不大,但散热效果不错,也不吃风扇。热管规模较大,提升散热效能,热管弯折教小减少影响,由于中部没有热管穿过,底座上的铝部分直接连接鳍片增加效率。
穿FIN工艺节约成本,折边工艺保持鳍片间距并提升外观,纯铜底座加强吸热。
综合来说是在考虑成本的情况下,着重加强那些对散热有提升的设计。

底座为上铝下同夹持,焊接工艺一般。




散热器的3根热管有2根处于鳍片上表面,直接开缝焊接,减少制造难度,但影响和鳍片的接触。
FIN和镀镍工艺提升外观。底座为纯铜底座,上盖为铝,仅有很薄的鳍片。铜底较薄,热管压扁增接触面积,提升散热性能,外用导风罩使得单风扇照顾到更多鳍片。
总体散热器规模不大,所以减少风扇位综合成本和效能打造。

评分

3

查看全部评分

回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
14#
 楼主| 发表于 2013-5-16 02:58 | 只看该作者
本帖最后由 taizer 于 2013-5-16 03:42 编辑

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

1

主题

501

帖子

576

积分

高级玩家

Rank: 4

贡献度
20
金元
4957
积分
576
精华
0
注册时间
2004-12-6
15#
发表于 2013-5-16 03:08 | 只看该作者
等了半天,终于可以回复了么,楼主辛苦
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
16#
 楼主| 发表于 2013-5-16 03:09 | 只看该作者
zorroma 发表于 2013-5-16 03:08
等了半天,终于可以回复了么,楼主辛苦

这么晚还在啊?论坛配图苦死人了。
回复 支持 反对

使用道具 举报

6

主题

476

帖子

563

积分

高级玩家

Rank: 4

贡献度
15
金元
5028
积分
563
精华
0
注册时间
2009-9-12
17#
发表于 2013-5-16 03:13 | 只看该作者
好多字   慢慢看
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
18#
 楼主| 发表于 2013-5-16 03:25 | 只看该作者
本帖最后由 taizer 于 2013-5-16 03:40 编辑

http://kuai.xunlei.com/d/TJhECAEaB.KTUQQAc75

上面是迅雷快传地址,保存20天,失效后可PM我。方便愿意修改或者打印本文的坛友。

老文地址,排版大概有区别,总体依旧坑爹。
硬件百科全书(本系列第三篇)之稳定基石———主板和显卡

硬件百科全书之 运算至上——中央处理器篇

硬件百科全书之3D王朝---3D图形加速卡全解析



回复 支持 反对

使用道具 举报

273

主题

9681

帖子

2万

积分

云游仙境

由依,由依~~最近好像发生了什么喵~

Rank: 12Rank: 12Rank: 12

贡献度
5414
金元
69231
积分
28589
精华
1
注册时间
2011-2-5
QQ
19#
发表于 2013-5-16 08:07 | 只看该作者
这篇继续帮你走申请精华流程了。
回复 支持 反对

使用道具 举报

头像被屏蔽

275

主题

7484

帖子

7232

积分

游戏精英

小白LV10_____________小白升级之路任重而道远

Rank: 8Rank: 8

贡献度
255
金元
62119
积分
7232
精华
0
注册时间
2011-8-27
20#
发表于 2013-5-16 08:19 | 只看该作者
提示: 该帖被管理员或版主屏蔽
签名被屏蔽
回复 支持 反对

使用道具 举报

273

主题

9681

帖子

2万

积分

云游仙境

由依,由依~~最近好像发生了什么喵~

Rank: 12Rank: 12Rank: 12

贡献度
5414
金元
69231
积分
28589
精华
1
注册时间
2011-2-5
QQ
21#
发表于 2013-5-16 08:31 | 只看该作者
海韵X系列倒是有很大一批半桥LLC,电压稳定性,波纹似乎都做的不错
交叉负载个人认为DC-DC都不会差到那里去。。
相比之下缩水花那些低价金牌可就坑爹多了
不过海韵的X系列一直会有啸叫问题,中标几率极大。。
so目前还是比较期待G系列在国内上市
回复 支持 反对

使用道具 举报

55

主题

4309

帖子

4623

积分

游戏精英

银白君

Rank: 8Rank: 8

贡献度
260
金元
35826
积分
4623
精华
0
注册时间
2009-2-28
22#
发表于 2013-5-16 09:57 | 只看该作者
我想说虽然看不明白,但是觉得楼主好厉害的样子!楼主发的东西好像都很贵啊!我表示买不起!一直使用七盟电源好像是简化版的!还有就是技嘉主板好像是低端型号!散热器从来不看,同价位选择最大的就是我的做法!电源我觉得只要是进口配件一般都OK啦!
回复 支持 反对

使用道具 举报

53

主题

7855

帖子

6230

积分

游戏精英

Rank: 8Rank: 8

贡献度
60
金元
59898
积分
6230
精华
0
注册时间
2009-7-20
23#
发表于 2013-5-16 10:54 | 只看该作者
学习了,很好的文章,还有水帝终于被请去喝茶了~
回复 支持 反对

使用道具 举报

1

主题

501

帖子

576

积分

高级玩家

Rank: 4

贡献度
20
金元
4957
积分
576
精华
0
注册时间
2004-12-6
24#
发表于 2013-5-16 14:05 | 只看该作者
taizer 发表于 2013-5-16 03:09
这么晚还在啊?论坛配图苦死人了。

一直在啊,只是看到说是未完工,所以没插楼,真是个长篇啊
回复 支持 反对

使用道具 举报

12

主题

3231

帖子

6382

积分

游戏精英

Rank: 8Rank: 8

贡献度
697
金元
35940
积分
6382
精华
0
注册时间
2010-7-9
25#
发表于 2013-5-16 23:56 | 只看该作者
不错,这贴真心实用,留个脚印先,LZ辛苦
回复 支持 反对

使用道具 举报

9

主题

1349

帖子

1322

积分

游戏狂人

Rank: 6Rank: 6

贡献度
77
金元
10142
积分
1322
精华
0
注册时间
2005-12-5
26#
发表于 2013-5-17 16:53 | 只看该作者
顶你一下!好基友!
回复 支持 反对

使用道具 举报

0

主题

241

帖子

131

积分

中级玩家

Rank: 3Rank: 3

贡献度
3
金元
1786
积分
131
精华
0
注册时间
2009-9-5
27#
发表于 2013-5-21 21:07 | 只看该作者
看了这篇文章 才发觉 自己真我妈的 渺小
回复 支持 反对

使用道具 举报

18

主题

1082

帖子

844

积分

超级玩家

Rank: 5Rank: 5

贡献度
48
金元
6517
积分
844
精华
0
注册时间
2009-5-18
28#
发表于 2013-6-8 13:45 | 只看该作者
超级超级超级屌。。。这辈子见过的任何一篇文章都没有楼主的有技术含量,膜拜了。。。话说楼主的工作是不是和这个有关。。。
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
29#
 楼主| 发表于 2013-6-8 14:37 | 只看该作者
crazzy8 发表于 2013-6-8 13:45
超级超级超级屌。。。这辈子见过的任何一篇文章都没有楼主的有技术含量,膜拜了。。。话说楼主的工作是不是 ...

毫无关系·····爱好而已。
回复 支持 反对

使用道具 举报

14

主题

2560

帖子

4343

积分

游戏精英

爱硬件,爱生活。

Rank: 8Rank: 8

贡献度
709
金元
14868
积分
4343
精华
2
注册时间
2005-2-26
30#
 楼主| 发表于 2013-6-18 10:12 | 只看该作者
本帖最后由 taizer 于 2013-6-27 23:26 编辑

6月18日 更新迅雷快穿地址
http://kuai.xunlei.com/d/TJhECEvPF7.-UQQA169

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|咖绿茵|求知网|3DMGAME ( 京ICP备14006952号-1  沪公网安备 31011202006753号

GMT+8, 2024-4-20 08:07 , Processed in 0.318472 second(s), 49 queries , Memcache On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表