NVIDIA GeForce 900
NVIDIA GeForce 900系列,是輝達研發的圖形處理器產品系列,用於桌上型電腦平台和筆記型電腦平台。此代顯示核心將採用第二代Maxwell微架構(晶片代號將以『GM』開頭),以蘇格蘭理論物理學家詹姆斯·克拉克·麦克斯韦的名字命名。2010年,NVIDIA将此时代Maxwell核心的首發旗艦級產品命名為GeForce 900系列,分別為桌面平台的GTX 970、GTX 980、GTX 980 Ti、GTX TITAN X、GTX 950和GTX 960以及行動平台的GTX 950M GTX 960M GTX965M GTX 970M 和GTX 980M、GTX 980 [1][2]GeForce 800系列则全為使用在筆記型電腦OEM市場上的移动式顯示核心。 概觀2010年9月NVIDIA宣布下一代顯示核心架構『Maxwell』。[3]首款基於『Maxwell』架構的消費級顯示核心的產品將於2014年早期發賣,是為GeForce GTX 750/750 Ti。[4] 第二代『Maxwell』介紹了幾種新技術: 動態超分辨力、第三代三角洲顏色壓縮和多圖元程式設計採樣、Nvidia VXGI(Real-Time-Voxel-Global Illumination) 和MFAA。[5]此外增加了HDMI 2.0支援。[6] 架構特性GeForce GTX 980/970使用「GM204」核心,是Maxwell GPU架構的第二作。它们分别采用了GM204的兩個細分型號 GM204-400-A1 以及 GM204-200-A1 芯片,拥有52亿的晶体管规模,晶片面积为398平方毫米(此为NVIDIA公布数据)。由於有製造「GK110」這種大面積晶片的經驗,加上面向消費級遊戲應用市場而削減該領域中甚少使用的雙精度浮點數運算電路單元,使得GPU可以更專精於安放遊戲應用更常用的單精度浮點運算電路單元、紋理單元及渲染輸出單元。這些因素成了「GM204」晶片用於遊戲娛樂應用時,拥有卓越性能功耗比的重要因素之一。 与Kepler架构的GK110相比,儘管GM204架构的运算资源总量从2880个ALU(NVIDIA稱為CUDA核心)分别下降到了GeForce GTX 980的2048以及GeForce GTX 970的1664个,Texture Filter Unit则由240个下降到了128个以及104个,但构成后端的ROP在GM204当中被提升到了64个,更庞大的ROP阵列为GM204带来了理想的像素处理能力。 顯示記憶體GeForce GTX 980/970均拥有4个64bit双通道显存控制器组合形成的256bit显存控制单元,也都采用了4096MB的尺寸的显存体系。 SMM新的SMM单元较之原先的SMX单元來了一次结构變動,在保留完整的几何前端的前提下,SMM陣列在内部将ALU团簇再次划分成了4个并行的独立子团簇SM,每个SM包含32个ALU,并且都拥有独立的Scheduler/Dispatch以及Register,每两组SM共享一组统一的Texture/L1 D\$ cache,这与SMX单元192个ALU共享同一组Scheduler、Dispatch、L1 D\$ cache以及Register形成了鲜明的对比,而且也进一步提升了每个ALU所能够获得的Register资源量。 支援APIGeForce 900系列目前支援OpenGL 4.5、DirectX 11.3以及OpenCL 1.2,未來可支援DirectX 12。[7][8][9] 產品介紹桌上型平台基於Maxwell架構的顯示核心GM204的首發產品是GeForce GTX 970和GTX 980,它們均於2014年9月19日發布。隨後還有GeForce GTX 960,該產品於2015年初發佈;之后還有2015年6月1日发布的GTX 980 TI以及8月20日发布的GTX 950。而頂級顯示核心GM200,被冠以GeForce GTX TITAN X的名號於2015年3月5日公布,除了TITAN X之外,其餘的顯示卡會有不同的廠商生產自製顯卡,還會有背板支撐。 押後發表的GeForce GTX 960、950還支援HEVC/H.265硬體解码,以前發表的型號則只支援HEVC/H.265硬體编码。
GeForce GTX 970規格參數爭議GeForce GTX 970 的規格參數爭議主要在於顯示記憶體、ROP單元、二級快取的數量/容量上實際產品與發布宣傳時公佈的不一致。其中,特別是顯示記憶體存取結構,因為沒詳細公佈出來,而導致用家在一些使用場合上觀察到顯示記憶體存取效能上有差異:GTX 970搭載了4GiB容量的GDDR5顯示記憶體,而實際上只有3.5GiB的容量可以全速存取,越過了3.5GiB容量的界限以後的區塊幾乎沒有存取動作,儘管一般使用甚少會越過此界限,但使用這剩餘的0.5GiB容量的顯示記憶體存取效能明顯下降了。其後越來越多的效能測試以及調查結果,使輝達承認,GTX 970的顯示記憶體的使用超過3.5GiB容量界限以後效能下降的事實,並對此做出解釋道,顯示卡正式發售前沒有事先通知或公佈Maxwell架構的顯示核心更精細的核心單元遮蔽方式(這種遮蔽方式更有利於良品率和成本控制)。[20][21][22][23] 顯示核心硬體後端的參數,最初輝達的發布會上顯示,GTX 970和GTX 980是一樣的。而實際上,970後端的ROP單元僅有56個而非980的64個,二級快取也僅有1.75MiB而非980的2MiB,這些後端單元數量/容量上的差異導致了970上的4GiB顯示記憶體定址與980的有差異,使得4GiB中的3.5GiB可供顯示核心全速存取,剩餘的0.5GiB區段的效能只有全速3.5GiB區段的1/7。[24] 儘管這一結果不影響此前幾乎所有的GTX 970效能測試結果,而輝達也對規格參數錯誤一事做出道歉並承諾下次會準確公佈各型號圖形處理器的參數,並在驅動程式的開發上對GTX 970的顯示記憶體使用作特別的最佳化,盡可能避免使用4GiB中最後512MiB的低速區段以減輕其性能衝擊。[25]然而輝達又改口稱,因內部的溝通不暢,此前發布供GeForce900系列使用的驅動程式中實際已對GTX 970的顯示記憶體使用做過最佳化,不再需要特別對待。[26]而輝達的討論社區中也有工作人員稱會對欲退貨的GTX 970買家提供協助[26][27]2015年2月26日,輝達的CEO黃仁勳在輝達的官方部落格上對該起失誤事件做出正式道歉。[28][29] 輝達發布的勘誤聲明中,表示SMM中各單元是可進行單獨的遮蔽,每一個單元包括256KiB的二級快取和8個ROP單元後端,而遮蔽這些單元並不影響顯示記憶體的記憶體控制器。[30]這樣做的代價是記憶體匯流排被分為高速區段和低速區段,這兩段不能夠同時進行存取操作,最多只能在一個區段進行讀操作的同時另一區段進行寫操作,不能同時進行存取操作,是因為二級快取和ROP單元都管理著這些GDDR5記憶體控制器以共用在兩個GDDR5記憶體控制器和它們自己之間的讀迴圈通道和資料寫入匯流排,即一個64位元的記憶體控制器管轄最後512MiB慢速區段的和鄰近的3.5GiB高速區段的512MiB,共同由一組8個ROP單元和這0.25MiB的二級快取連接使用。[30]這樣做使得GTX 970可使用4GiB的顯示記憶體而非3GiB。簡單來說就是GTX 970上256位元寬度的GDDR5記憶體匯流排,有224位元連接3.5GiB的高速區段,有32位元連接512MiB的低速區段。[30][23] 部分早前購買GTX 970的用家,以及留意到這起事件的律師行,也就這起參數爭議事件涉嫌侵犯使用者知情權或對輝達發起集體訴訟,[31][32]儘管實際使用表明GTX 970顯示記憶體的特殊結構對效能影響並不高,只有1~3%,而非畫面卡頓[33][34],而輝達此前也有GeForce GTX 660使用非對稱顯示記憶體的先例。[35][36] 有限的DirectX 12硬體支援NVIDIA標榜「Maxwell」GPU微架構是可以完整支援DirectX 12。[37][38][39]但是,首款使用DirectX 12的遊戲——奇点灰烬,其開發商——Oxide Games遊戲工作室,在遊戲的開發階段,發現「Maxwell」架構GPU的顯示卡,並不能在DirectX 12下發揮出應有的效能(相比DirectX 11下並沒有明顯的效能進步)。[40][41] Oxide Games表示,儘管NVIDIA的官方文宣上宣稱GeForce 900系列GPU能使用DirectX 12的所有功能,但是Maxwell的GPU,實際上並不能使用DirectX 12的核心功能——非同步運算以及非同步渲染管線,[38]而NVIDIA為了實現這些新功能,在驅動程式層級中安插了Shim(一種提供應用程式介面(即API)的驅動庫)中介層來實作它們,但這種實作方式,需要佔用一定的GPU運算資源。簡單來說,NVIDIA採用了軟體的方式實現DirectX 12的部分核心功能,因此會造成效能上的折損。[41] 而與之相對,Oxide Games則表示,AMD的GCN GPU架構中已經包含了非同步運算及渲染的硬體電路,[42]因此可以無需透過中介層,驅動程式可直接調用硬體電路單元來實作DirectX 12,儘管支援的功能層級是基本的Feture Level 12_0,因此GCN架構的GPU可以憑藉DirectX 12在效能測試抑或是遊戲效能中獲得較為明顯的效能提升。[41][43][44] Oxide Games稱在於NVIDIA磋商解決效能問題時,卻遭到NVIDIA方面向工作室的施壓,要求在遊戲效能測試中不能使用DirectX 12的非同步運算功能,因此工作室方面認為,NVIDIA的GeForce 900系列GPU面對對手AMD同級別的、對DirectX 12的核心功能能順利支援的GCN架構GPU時會處於劣勢。[40]不過在2015年8月4日,Oxide Games方面解釋,「我們確實與NVIDIA的人員交流關於非同步運算方面的話題,確實,驅動程式方面尚未能完全實作它,但驅動程式卻報告它能夠實作之」[45],NVIDIA也正與Oxide Games合作,令900系列能夠實現非同步運算。由於不像AMD的GCN架構以硬體電路實現非同步運算,NVIDIA將必須仰賴驅動程式及其中介層,實現軟體層級的隊列及軟體層級的任務分發器,來轉發非同步運算任務到其GPU的硬體任務排程器上,令其勝任將運算負荷能分配至GPU中正確的電路單元上的工作。[46] 行動平台本系列同時還有針對行動平台發佈的GeForce GTX 970M和GTX 980M以及GTX 960M GTX 965M ,GTX 950M 和 GeForce 940M 930M 920M ,他們在桌上型平台發佈之後跟進。搭载这數款型号的笔记本电脑现已上市,後期會有從桌上型移植到行動平台的980 Notebook。 NVIDIA於2016年3月無預警推出3款MX型號顯示核心——920MX、930MX及940MX,同時也推出910M。930MX與940MX者架構與930M及940M相同,920MX架構則放棄Kelper/Fermi架構改用Maxwell架構;910M則使用Kelper/Fermi架構,然而MX型號的記憶體及處理器時脈比M型號高,同時記憶體也支援GDDR5,不過有些廠商為了節省成本則仍然使用DDR3記憶體。 晶片規格注:
桌上型平台顯示核心
行動平台顯示核心某些實作方式(如筆記型電腦)會使用不同的參數。
參見
腳註註解參考資料
外部連結 |