竞争新焦点:PCI-Express
【IT168评测室】年初,Intel推进的平台革命引入了PCI-Express总线,属于3GIO之一的PCI-Express总线为PC架构注入了新的活力,取代使用多年的PCI和AGP总线,解决了PC局部总线带宽日益拥挤的问题,为平台的持续发展开辟了一条康庄大道。显然在另一个主要平台AMD64中,早日引入PCI-Express总线成为当务之急。做为AMD64平台的主要芯片组供应商VIA和nVidia都不会错过这次机遇,为AMD64平台引入PCI-Express总线成为竞争焦点。在此这前nVidia和VIA就在AMD64平台上展开了火拼,可以说各有胜负,在支持PCI-Express芯片组上的竞争成为胜负的关键。
PCI-Express,3GIO总线
![]() |
上图展示了PCI与PCI Express架构的区别,PCI采用并行信号,也就意味着它的工作频率不会太高,它的传输率从33MT/s到266MT/s,使用32位或者64位总线,采用单边控制信号。PCI使用了Load-Store架构,支持PCI能源管理,支持奇偶和ECC校验。使用了十多年的PCI总线在这次Intel主导的平台革命中被取代,PC局部总线进入一个新的高速发展阶段。
做为3GIO之一的PCI-Express采用先进的差分信号接口,高达2.5GT/s的传输率,可缩放的带宽:1X,2xX.....32X,边带控制。Load Store架构,和PCI总线相比增加了消息传递机制。PCI-Express增强了配置算法,它100%兼容PCI软件,先进的能源管理,支持热插拨。PCI-Express支持QoS,提供更高品质的服务。显然PCI-Express是全面超越PCI,新平台完全基于PCIe总线,提高了简单,灵活,高效的总线机制。
这次我选择了VIA的K8T890和nVidia的nForce4 Ultra进行全面比较,看看谁才是真正的强者。实际上,我们所选择的并不是两家的最高端芯片,nVidia还有支持SLI的nForce4 SLI和针对工作站的芯片组nForce4 Pro,VIA也有支持双PEG显卡的K8T890 Pro。如果能进行SLI测试是更好的选择,但目前nVidia还没有给K8T890 Pro开放nVidia显卡SLI的授权,此外VIA也没有提供K8T890 Pro的测试平台。我想,更高端平台的比较将是2-3个月之后的事。
VIA K8T890主要特征
![]() |
| K8T890芯片组架构图 |
- 为高性能服务器/工作站/PC设备定义高集成度解决方案
北桥芯片支持1GHz AMD Opteron/Athlon 64/Sempron HyperTransport接口,加入PCI-Express接口可用于高性能图形卡和高速I/O设备,K8T890 Pro通过高速V-Link总线连接南桥芯片与其配合的南桥芯片有VIA VT8235M/VT8237R/VT8251,南桥芯片集成了10/100LAN,AC97-Link,ATA133 IDE,LPC,USB2.O,Serial ATA(VT8237R和VT8251),AHCI SATA2 RAID控制器,支持NCQ(VT8251),PCI Express(VT8251)和高精度音频(VT8251)北桥芯片采用933 BGA封装,外形尺寸是35 x 35mm,1mm的ball间隔,带有散热顶盖
1.5V工作电压,K8T890 Pro采用了0.15微米工艺
- 高性能的HyperTransport CPU接口
- 处理器接口通过HyperTransport接口
- 8位或16位 命令/地址/数据双向传输总线
- 1000/800/600/400/200 MHz时钟速度,支持2000/1600/1200/800/400MT/s数据传输率,所有方向都可以同时传输,在使用16bit数据传输模式可以达到8GB/s带宽
- 在系统启动和睡眠时缺省是8bit,200MHz操作,在软件控制下是双16位,1GHz操作
- 支持异步HyperTransport和PCI-Express接口间的异步操作
- 先进的高带宽PCI Express接口
- 支持PCI Express 1.0a标准
- 最多支持五个PCI Express端口
- 第一个接口:16 Lane接口,针对高性能图形接口
- 可配置Lane宽度,16/8/4/2/1,最高可达双向4GB/s数据传输率
- 支持两个upstream虚拟通道
- 2,3,4,5端口:1x Lane,针对高带宽的外围设备
- 也就是说K8T890北桥一共支持20 Lane的PCI-Express总线
- 支持相互联接的电源管理
- 支持极性倒转和Lane倒转
- 支持热插拨
- 循环测试模式能够容易的进行PCI Express debugging处理
- 高带宽1GB/s Ultra V-Link主控总线
- 支持66MHz,4x和8x传输模式,Ultra V-Link主控接口具有1GB/s的总带宽
- 分离命令/掩码(strobe)传输,支持4x半双工和8x全双工模式
- 请求/数据分离传输
- 集成了V-Link事务处理协议可以最小化数据等待,消除传输延迟和避免数据溢出
- 高效V-Link仲裁
|
VIA三款AMD64芯片组比较 | |||
| K8T800Pro | K8T890 | K8T890 Pro | |
| 处理器总线 | 1GHz HyperTransport 双向16位/1GHz |
1GHz HyperTransport 双向16位/1GHz |
1GHz HyperTransport 双向16位/1GHz |
| 图形接口 | AGP 8X | PCI-Express x16 | VIA DualGFX Express |
| 南北桥总线 | 8X V-Link | Ultra V-Link | Ultra V-Link |
| 南桥 | VT8237 | VT8237/VT8251 | VT8237/VT8251 |
| 针对市场 | 主流市场 | 高端市场 | 高端市场 |
nVidia nForce4 Ultra主要特征
![]() |
nForce4的架构图,采用单独芯片设计,提供了1GHz的HyperTransport总线(最低端的nForce4不支持),nForce4引入了SATA2技术,提供NCQ支持和高性能的RAID技术。它也改进了nForce3的千兆以太网防火墙功能,提供了带硬件加速的防火墙,它提供了硬件加速的包处理,大幅降低CPU占用率。nForce4的硬件防火墙被称为ActiveArmor,它可以进行包侦测硬件加速, 因此只有很低的CPU占用率。nForce4的ActiveArmor硬件防火墙真正具备了实用的意义。
支持PCI-Express,nForce4有非常灵活的PCI-Express配置,可以支持一条PCI-Express x16 lane用于PEG显卡,或者两条PCI-Express x8 lane实现显卡的SLI。nForce4 SLI是目前AMD64平台上唯一通过SLI认证的解决方案,而VIA的K8T890 Pro目前只能支持多屏显示,还无法在实现nVidia PEG显卡的SLI功能。VIA表示已经实现了ATI PEG显卡的SLI功能,但没有透露具体细节。
nForce4支持8声道AC'97音效,没有支持HD Audio有些遗憾,因此VIA也把K8T890系列芯片组的宣传重点放在了数码影音方面,不过VIA支持HD Audio的新南桥VT8251也需要等到明年第一季才能上市。在nForce4中,nVidia并不打算再使用其SoundStorm音频解决方案。
nForce4支持SATA II,实现了原生命令队列(NCQ),热插拨,数据传输率可以达到300MB/s,这是市场上最早的SATA II解决方案。 它具备象Intel Matrix RAID那样的功能,可以在一对磁盘实现两个不同的卷,同时支持RAID 0和RAID 1。
nTune是nForce4的系统调节工具,提供了一些类似于nVidia显卡那样的自动超频和自动优化功能。
![]() |
| ActiveArmor硬件防火墙 |
![]() |
上图显示了NCQ的工作原理,NCQ通过智能的算法重新排列多个I/O请求的执行顺序,NCQ可以最小化机械延迟。
![]() |
nForce4的磁盘控制器,nVidia MCP提供了两个磁盘控制器,提供了双倍带宽。
![]() |
| VT8251的四通道SATA2控制器 |
VIA VT8251具有四通道SATA2控制器,全面支持SATA2的三项技术,它们分别是:也就是3GB/s数据传输率,AHCI和Port Multiplier。AHCI是SATA主控寄存器和命令操作的工业定义规格,如原生命令队列(Native Command Queuing)和热插拨。Port Multiplier是SATA2规格中必不可少的一项,目前的南桥磁盘控制器中只有VT8251支持。Port Multiplier是把多块硬盘连接到一个SATA端口上的能力,VT8251可支持到16个SATA硬盘。
AHCI特征之一就是可以通过NCQ提高寻址性能,命令请求是一种机制,当设备同时发布多个命令请求时能够允许以任何顺序完成它们。智能记录带有驱动器内部命令队列的命令,可以通过最小化机械移动延迟(磁头移动)帮助提高系统负荷能力。命令队列早就被SCSI设备所采用,已经有十多年的历史,NCQ相当于SCSI所采用TCQ的简化版。
在和竞争对手的比较中,VT8251以提供3.0GB/s的SATA速度和四个SATA控制器而领先。虽然VT8251提供了很不错的规格,但要等到明年Q1才能上市,目前的VT8237肯定是不如nForce4 MCP的功能。
| nForce4 SLI | nForce4 Ultra | nForce4 | |
| 支持CPU | Athlon 64 FX Athlon 64 |
Athlon 64 FX Athlon 64 |
Athlon 64 Sempron |
| 可配置PCI-E总线 | 20lane可配置 | 20lane固定配置 16,1,1,1 |
20lane固定配置 16,1,1,1 |
| HyperTransport | 1GHz 双向16位/1GHz |
1GHz 双向16位/1GHz |
800MHz 双向16位/1GHz |
| USB | 10 | 10 | 10 |
| ATA控制器 | SATA2 | SATA2 | SATA |
| 防火墙 | 有 | 有 | - |
VIA原厂K8T890主板VT5867A
![]() |
VIA原厂的K8T890主板,型号是VT5867A,它基于K8T890北桥芯片和VT8237R南桥芯片,实际上K8T890也支持即将推出的VT8251南桥,VIA提供了一个很灵活的V-MAP架构。这块主板采用了Socket 939插座,支持Athlon 64 S939处理器,1GHz HyperTransport总线。主板上四根184pin DIMMs插槽,支持双通道DDR400内存。北桥芯片K8T890,它具有20 Lane的PCI-Express总线,其中16 lane用于PEG显卡插槽,VT5867A主板还提供了两根PCI-Express x1插槽,用于支持高速外围设备。南桥芯片为VT8237R,它提供了四个SATA RAID接口,8个USB 2.0接口。主板上保留了三根PCI插槽,并且提供IEEE1394接口,VIA的千兆以太网,ENVY24PT声卡。
在CPU核心供电方面,VT5867A使用了三相供电设计。这块主板的音频子系统采用了著名的ENVY24PT声卡芯片,VIA Envy24HT是一颗24bit多通道音频控制器,它可以实现工作站级别的音频性能,最多支持8个输出。Envy24HT支持剧院级的5.1,6.1和7.1环绕声系统,并且可以把多声道混合以足四喇叭,甚至双喇叭系统,Envy24HT最高支持192KHz的采样率。音频Codec为Six-TRAC VT1616,VIA Six-TRAC是一个完整的AC'97 2.2解决方案,支持S/PDIF扩展,VT1616支持5.1声道,它采用了48pin的LQFP封装。
同样VT5867A也采用VIA自己的千兆以太网控制芯片VT6122,这是一个单芯片的千兆以太网解决方案,使用低功耗的封装和优异的性能,它主要针对主板上的网络需求。这颗芯片使用14×14mm 128pin的LQFP封装,为32bit PCI进行优化。VT6122集成了laden MAC(媒体访问控制器)和Cicda SimpliPHY,VIA Networking Velocity控制器领先的窄带噪声水平容差提供了高性能的PCB板和电缆性能。它可以最小化主机边的CPU占用率,Networking Velocity具有自适应的中断配置,可以减少中断处理模式,它能最大化的使用包突发来提高PCI带宽的使用率。
FOXCONN nForce4 Ultra主板
![]() |
如同nForce3一样,nForce4采用了单芯片设计,由于AMD64集成了内存控制器,因此把传统北桥解放出来,而且AMD64使用串行HyperTransport处理器接口,这具有非常好的电气性能,进一步简化了北桥的设计,它支持Athlon 64 FX和Athlon 64处理器。因为nForce4采用了单芯片设计,nForce4 Ultra提供了PCI-Express 20 lane,分成固定的16,1,1,1 lane设计。nForce4 Ultra集成了一个图形控制器,而nForce4 SLI集成两个图形控制器,并且把PEG 16 lane分成两个8 lane总线,实现SLI功能。
主板型号是CK804UK8AA,采用ATX架构,四层PCB板设计。主板上的Socket 939插座支持Athlon 64 S939处理器,四根184pin DIMMs支持双通道DDR400内存,在通道的安排上,第一和第三根插槽为通道A,第二和第四根插槽为通道B,终结电阻为于DIMM的下方,用户只需使用相同颜色的DIMM就能实现双通道。主板上提供了一根PCI-Express x16用于PEG显卡,两个PCI-Express x1插槽用于扩展高速的I/O设备。nForce4 Ultra还提供了四个SATAⅡ RAID功能,另外提供两个PATA接口,板载四根PCI插槽可以兼容PCI扩展卡。
![]() |
| nForce4 Ultra的系统设备 |
测试平台和测试方法
| 主板 | FOXCONN WinFast CK804UK8AA | VIA原厂VT5867A |
| 芯片组 | nForce4 Ultra | VIA K8T890 |
| BIOS | beta | beta |
| 处理器 | AMD Athlon64 4000+ | AMD Athlon64 4000+ |
| 主频 | 2.4GHz | 2.4 GHz |
| 内存 | CORSAIR CMX512-3200LL×2 | CORSAIR CMX512-3200LL×2 |
| 内存时序 | 3-4-4-8 | 3-4-4-8 |
| 硬盘 | WD Raptor WD360 NTFS | WD Raptor WD360 NTFS |
| 显卡 | ATi X800XT PEG | ATi X800XT PEG |
| 操作系统 | 英文Windows XP Professional SP1 | 英文Windows XP Professional SP1 |
| 驱动 | DirectX 9.0C nVidia ForceWare 66.93 nVidia nForce Driver 6.31 显卡驱动:ATI Catalyst 4.11 |
DirectX 9.0C VIAHyperion4in1455v VIA Performance Port driver 1.2 显卡驱动:ATI Catalyst 4.11 |
| 桌面设置 | 1024×768像素 32bit色彩 85Hz刷新率 | 1024×768像素 32bit色彩 85Hz刷新率 |
测试的K8T890主板是VIA原厂的V5867A,nForce4 Ultra主板是FOXCONN WinFast CK804UK811,两款主板都使用了beta版的BIOS。我们采用了一颗Athlon 64 4000+处理器,Socket 939接口,具备1MB二级缓存和2.4GHz的主频。内存采用了一对CORSAIR CMX512-3200LL,硬盘是西数WD Raptor WD360,这块36.7G的硬盘分成两个区,主分区为20GB,NTFS格式,所有测试都在主分区进行,测试显卡是ATI X800XT PEG显卡。操作系统为Windows XP Professional SP1,正确安装了DirectX 9.0C,芯片组驱动和显卡驱动。测试时打开主板的音频功能,关闭网络和IEEE1394等I/O功能。
![]() |
测试采用了Athlon 64 4000+处理器,ClawHammer核心,它具备1MB的二级缓存,Socket 939接口。Athlon 64 4000+的主频是2.4GHz,前端总线200MHz。上图显示了K8T890主板的实际频率,它的HTT频率是很标准的200MHz。
![]() |
测试的nForce4 Ultra主板频率稍高一些,HTT为200.9MHz
|
测试项目 | |
| 系统综合性能 | Multimedia Content Creation Winstone 2004 V1.0.1 |
| Business Winstone 2004 V1.0.1 | |
| Sysmark 2004 | |
| CPU/内存子系统性能 | Cachemem 2.65MMX |
| Cache Burst 32 Version 0.90.91 | |
| RightMark Memory Analyzer 3.4 | |
| SiSoftware Sandra 2004.10.9.133 | |
| ScienceMark 2.0 | |
| 实时渲染性能 |
CINEBENCH 2003 V1 |
| 图形子系统性能 | Aquamark 3.0 |
| Halo:Combat Evolved 1.0.0.5 | |
| FarCry 1.3 | |
| Serious Sam 2:The Second Encounter 1.05 | |
| Call of Duty Version 1.1 | |
| 3DMark05 Ver 1.0.0 | |
游戏项目测试进行如下的设置
|
游戏测试设置 | |
| AquaMark 3.0注册版 | 使用四倍各向异性纹理过滤 |
| Halo:Combat Evolved 1.0.0.5 | 命令行模式执行:halo.exe -nosound -nojoystick -use20 -vidmode 1024.768.75 -timedemo –console |
| FarCry 1.3 | 图像品质Very High,map pier |
| Call of Duty Version 1.1 |
游戏画面细节设置最高,材质设置为Extra,纹理精度32bit,关闭垂直同步 |
| Serious Sam 2:The Second Encounter 1.05 | 删除Scripts\PersistentSymbols.ini 启动游戏后选择options的Execute Add,选择Extreme Quality 在Audio options中选择no sound 在Video options中设置Preferences为Quality,像素色深为32bit 选择测试的分辩率,设置8X AF,设置帧缓存为24bit 运行的DEMO为Valley of the Jaguars |
测试结果
ScienceMark 2.0缓存/内存带宽比较
![]() |
| K8T890 |
![]() |
| nForce4 Ultra |
| nForce4 Ultra | K8T890 | ||
| Cachemem 2.65 | |||
| cachemem 读性能 (MB/s) |
L1 Cache | 20721.0 | 20453.1 |
| L2 Cache | 12193.8 | 12083.9 | |
| Memory | 3994.7 | 3710.7 | |
| cachemem 写性能 (MB/s) |
L1 Cache | 18237.5 | 17935.8 |
| L2 Cache | 9048.1 | 8971.9 | |
| Memory | 2049.2 | 2190.6 | |
| Cache Burst 32 | |||
| 内存读(MB/s) | Memory 32-bit Bandwidth | 3513.63 | 3181.10 |
| Memory 64-bit Bandwidth | 3999.77 | 3674.07 | |
| Memory 128-bit Bandwidth | 4105.50 | 3794.62 | |
| 内存峰值带宽 | 5464.22 | 5235.41 | |
| 内存写(MB/s) | Memory 32-bit Bandwidth | 1940.54 | 2264.31 |
| Memory 64-bit Bandwidth | 2158.27 | 2370.04 | |
| Memory 128-bit Bandwidth | 2151.32 | 2358.19 | |
| RightMark Memory Analyzer 3.4 | |||
| 内存带宽(MB/s) | 读取 | 6268.68 | 6172.49 |
| 写入 | 6111.89 | 6057.73 | |
| 拷贝 | 2407.62 | 2216.60 | |
| 延迟(ns) | D-CACHE PSEUDO-RANDOM READ LATENCY TEST | 32.51 | 37.30 |
| ScienceMark 2.0 | |||
| 分子和复数计算 | Molecular Dynamics(秒) | 69.546 | 70.903 |
| Primordia(秒) | 351.388 | 351.483 | |
| CINEBENCH 2003 | |||
| Rendering渲染 (单CPU) | 341 CB-CPU | 337 CB-CPU | |
| Rendering渲染 (双CPU) | - | - | |
| Shading (CINEMA 4D) | 411 CB-GFX | 403 CB-GFX | |
| Shading (OpenGL软件光源) | 1920 CB-GFX | 1877 CB-GFX | |
| Shading (OpenGL硬件光源) | 4134 CB-GFX | 3333 CB-GFX | |
| OpenGL加速 | 10.06 | 8.28 | |
| Sysmark 2004 | |||
| Sysmark 2004 Rating | 210 | 209 | |
| Internet Content Creation | Overall | 225 | 223 |
| 3D Creation | 206 | 211 | |
| 2D Creation | 280 | 274 | |
| Web Publication | 197 | 192 | |
| Office Produtivity | Overall | 196 | 195 |
| Communication | 189 | 197 | |
| Document Creation | 216 | 210 | |
| Data Analysis | 185 | 178 | |
| MCCWinstone2004 | |||
| MCCW 2004 | 37.5 | 36.6 | |
| Business Winstone 2004 | |||
| BusinessWinstone | 24.5 | 29.8 | |
| Multitasking | 2.97 | 2.93 | |
| SiSoftware Sandra 2004.10.9.133 | |||
| 内存性能测试 | Int Buff'd iSSE2 | 6119 MB/s | 5981 MB/s |
| Float Buff'd iSSE2 | 6061 MB/s | 5931 MB/s | |
| CPU Arithmetic Benchmark | Dhystone ALU | 11106 MIPS | 11013 MIPS |
| Whetstone FPU/iSSE2 | 3814/4936 MFLOPS | 3782/4894 MFLOPS | |
| CPU Multi-Media Benchmark | Integer x8 iSSE2 | 23055 it/s | 22863 it/s |
| float-point x4 iSSE2 | 24721 it/s | 24514 it/s | |
| 3DMark05 Pro Version 1.0.0 1024×768 | |||
| 3DMark05 Pro得分 | 5545 | 5489 | |
| GT1 Return To Proxycon (fps) | 25.8 | 25.5 | |
| GT2 Firefly Forest (fps) | 15.3 | 15.2 | |
| GT3 Canyon Flight (fps) | 27.6 | 27.2 | |
| CPU Score | 5117 | 4901 | |
| CPU Test 1 | 2.6 | 2.4 | |
| CPU Test 2 | 4.6 | 4.4 | |
| 真实游戏性能测试 1024×768 (fps) | |||
| AquaMark 3.0 | 71.56 | 69.40 | |
| halo | 85.81 | 84.38 | |
| FarCry 1.3 | 93.71 | 91.81 | |
| COD 1.1 | 170.8 | 163.5 | |
| Serious Sam 2 | 145.5 | 134.2 | |
在内存子系统测试中,Cachemem的结果显示K8T890内存带宽更高,但是在Cache Burst 32测试和RMMA测试中,nForce4 Ultra表现很抢眼,它具备更低的延迟,显然nForce4 Ultra对CPU与内存子系统的优化更好一些。在综合系统性能测试Sysmark2004中,两者表现接近,nForce4 Ultra略胜一筹,其中的子项目的表现各有胜负,同样的结果表现在MCCWinstone中。Business Winstone表现反常,原因在于这个项目的测试结果表现不稳定,超过了允许的误差范围。最后的图形子系统测试中,K8T890和nForce4 Ultra之间的差异才表现出来,无论是合成类软件测试3DMark05还是真实游戏测试中,nForce4 Ultra都取得更好的成绩,看来对于游戏玩家来说nForce4 Ultra是正确的选择。
IT168评测室观点:nForce4 Ultra略胜一筹
![]() |
从测试结果来看,nForce4 Ultra略胜一筹,这主要表现在更优秀的图形子系统性能。其实,VIA的强项是它们的南桥技术,而且对于象AMD64这样把内存控制器集成的CPU,南桥也更能体现出两者的差异,可惜新一代南桥VT8251还没有上市,但我们对它寄予厚望。得益于PCI-Express可扩展架构,系统的灵活性大幅增强,这样才能实现象SLI和双显卡这样的功能。
![]() |
nVidia的优势在于它还是主要的GPU厂商,可以照顾自己的芯片组,在AMD64平台上,仅给自己的芯片组SLI授权,这对VIA是相当不利的局面。而且nForce4的单芯片设计也很成功,它的硬件加速防火墙也具备了实用价值,首先提供了对SATA2的支持。看来VIA必须尽快用VT8251取代目前的VT8237R才行,到那时VIA的优势才能表现出来。
