Xeon Phi(ジーオン ファイ[1])は、インテルが販売しているLarrabee(社内コード)より派生したMICアーキテクチャ (Many Integrated Core)[2] ベースのHPC向けコプロセッサ(後にプロセッサバージョンも追加)のブランド名である。
概要
Xeon Phiファミリーはx86互換のメニーコア・コプロセッサを搭載した、並列コンピューティング用の演算ボードである。第一製品群のターゲットはHPC分野であるが、将来的には企業のデータセンター、ワークステーションなどにも対応する。Xeon Phiコプロセッサは従来のIA-32/Intel 64アーキテクチャ向けアプリケーションをそのまま使うことができることが最大の売りである。そのほかにもホストOSから独立したLinuxベースのOSを動作させることができる。製品はPCI Expressで接続される。[1]
第1世代
Intel Xeon Phi Processor x100 製品ファミリー
第1世代 Xeon Phi。2012年11月13日発表。開発コード名は Knights Corner (KNC)。製造プロセスは22nm Tri-Gateトランジスタを採用している(Ivy Bridgeマイクロアーキテクチャと同一の製造プロセス)。インテルXeonプロセッサーE5ファミリーと組み合わせることで、カードあたり倍精度浮動小数点演算で1TFLOPS以上の理論性能がある。本製品はPCI Express形式の拡張カードで供給され、純粋に演算用であって、ラスタライザやビデオ再生エンジン、ディスプレイ出力は存在しない。
本製品の競合相手はNVIDIAのHPC向けGPUであるNVIDIA Tesla、およびAMDのHPC向けGPUであるAMD FirePro (FirePro Sシリーズ[3]、旧称AMD FireStream) となる。Xeon Phiの強みはコアがx86であるために、x86 CPU向けに記述されたプログラムをほぼそのまま利用できる点である。またPCI Expressで接続されているが、本製品の内部にはスタンドアロン型のLinuxが常駐しており、SSHを使ってホストからログインすることができる。これは独立したOSを動作させられないGPGPUでは不可能である。勿論GPGPUと同様、オフロード計算をさせる動作も可能である。
SIMD命令は512ビットであり、倍精度浮動小数点数を8つ同時に扱うことができ、また FMA をサポートしているため、16 FLOPS/cycle である[4]。なお同時期に発売されたHaswellマイクロアーキテクチャのIntel AVX2は256ビットであり、同時に扱うことができる倍精度浮動小数点数は4つだが、FMAを2つ同時に計算できるため、同じく 16 FLOPS/cycle である[5]。
PCI Express は Gen2.0 x16(片方向あたり8GB/s)。
2012年6月当時、44社のメーカーがロードマップへの組み込みを表明していた。[1]
2017年1月にEnd of Lifeとなった。Intel Math Kernel Library のサポートも 2017 Update 4[6] で終了した。
製品名
|
コア
数
|
コアクロック(GHz)
|
GDDR5
メモリ
(GB)
|
帯域
|
L2
キャッシュ
(MB)
|
TDP
(W)
|
放熱機構
|
Base
|
Turbo
Boost
|
メモリ
(GT/s)
|
カード内
(GB/s)
|
3120A
|
57 |
1.100
|
不可 |
6 |
5
|
240
|
28.5 |
300 |
回転ファン内蔵
|
3120P
|
Passive(強制風冷必要)
|
31S1P
|
8
|
320[7] |
270
|
5120D[8]
|
60 |
1.053 |
5.5
|
320 |
30 |
245 |
無し
|
5110P
|
225 |
Passive(強制風冷必要)
|
SE10X[9]
|
61 |
1.100 |
5.5
|
352 |
30.5 |
300 |
無し
|
SE10P[10]
|
Passive(強制風冷必要)
|
7120A
|
1.238
|
1.33 |
16 |
回転ファン内蔵
|
7120D
|
270 |
無し
|
7120P
|
300 |
Passive(強制風冷必要)
|
7120X
|
無し
|
- Xeon Phi 5110P
- 2012年11月13日発表、2013年1月28日発売。Tri-Gateトランジスタを採用し22nmで製造された製品である。60コア、動作クロックは1.053GHz。倍精度浮動小数点演算の理論性能値は1.011TFLOPS。搭載されるメモリーはGDDR5の8GBで帯域幅は320GB/sである。TDPは225W。5110Pが導入されるシステムにおいてはラック単位での冷却がなされることが想定されているため、カード本体には冷却用の回転ファン機構は存在していない。ホストバスはPCIe2.0であるが、転送レートが高速化されているのでPCIe3.0による接続と性能にあまり変わりはない。コアあたりのL2キャッシュは512KBで、チップ全体でのL2キャッシュの総量は30MBである。メモリーインターフェイスは32bit幅で動作しており、合計で512bit幅である。補助電源コネクタは8ピン+6ピン構成。
- Xeon Phi 5120D, 3120P, 3120A, 7120P, 7120X
- 2013年6月18日発売開始。
- Xeon Phi 31S1P
- 2013年第2四半期に発売。中国のスーパーコンピュータシステム「天河2」に用いられた。
第2世代
Intel Xeon Phi Processor x200 製品ファミリー
第2世代 Xeon Phi。2016年6月20日発表[11][12][13]。開発コード名は Knights Landing (KNL)。単精度で 6 TFLOPS 以上、倍精度で 3 TFLOPS 以上になった。プロセスルールは14nm。Intel Atom の Silvermont マイクロアーキテクチャベースになった[14]。
型番の末尾にFがつくものはインターコネクトの Intel Omni-Path Fabric を搭載。
ソケットは LGA3647 だが、通常の Xeon との互換性はなく、Xeon Phi 専用のマザーボードでなければ動作しない(物理的にソケットにはまらない)。
オンチップメモリは L3 キャッシュとしても利用できるし、アドレスを割り振り通常のメモリとしても利用可能。7.2 GT/s のもので実測で 490 GB/s になる[15]。
1コアあたり、4スレッド実行可能で、2つのベクターALU(512ビット)、2つのスカラーALU、1つのレガシーx87 ALUを搭載している[12]。よって72コア、1.5 GHzで、単精度は 512 bit / 32 bit * 2 ALU * 2 op * 72 core * 1.5 GHz = 6912 GFLOPS になる。
Knights Landing で採用される512ビット SIMD命令はAVX-512として定義されたものになるが、これはそれまでのKnights Cornerが用いていた「512ビットSIMD演算」とは機械語命令形式が異なり互換では無い。[16]
PCI Express は Gen3.0 x16 (片方向あたり16GB/s)。
製品名
|
コア
数
|
クロック (GHz)
|
メモリ
|
L2
キャッシュ
(MB)
|
TDP
(W)
|
発売日
|
オンチップ
|
外部
|
Base
|
Turbo
Boost
|
?
(GB)
|
帯域
(GT/s)
|
DDR4
(Max?)
|
帯域
(GB/s)
|
7210
|
64 |
1.3
|
1.5 |
16
|
6.4 |
2133 x6
|
102 |
32 |
215 |
2016年Q2
|
7210F
|
230 |
2016年Q4
|
7230
|
7.2 |
2400 x6
|
115.2 |
215 |
2016年Q2
|
7230F
|
230 |
2016年Q4
|
7250
|
68 |
1.4
|
1.6 |
34 |
215 |
2016年Q2
|
7250F
|
230 |
2016年Q4
|
7290
|
72 |
1.5
|
1.7 |
36 |
245 |
2016年Q3
|
7290F
|
260 |
2016年Q4
|
Intel Xeon Phi Processor x205 製品ファミリー
2017年12月18日[17][18]発表[19]。開発コード名はKnights Mill。x200 (Knights Landing) をディープラーニング向けに改良。Intel AVX-512のサポートを拡張し、AVX512_4FMAPS、AVX512_4VNNI、AVX512_VPOPCNTDQをサポートした[19]。FP32やINT16の演算を高速化している[20]。x200 よりも FP32 の行列積での演算が2倍[21]高速になった。
製品名
|
コア
数
|
クロック(GHz)
|
メモリ
|
L2
キャッシュ
(MB)
|
TDP
(W)
|
発売日
|
オンチップ
|
外部
|
?
(GB)
|
DDR4
(Max?)
|
帯域
(GB/s)
|
Base
|
Turbo
Boost
|
7295
|
72 |
1.5
|
1.6 |
16 |
2400 x6
|
115.2 |
36 |
320 |
2017年Q4
|
7285
|
68 |
1.3
|
1.4 |
34 |
250
|
7235
|
64
|
1.4 |
2133 x6
|
102 |
32
|
脚注
出典
参考資料
英語
- Rezaur Rahman: "Intel Xeon Phi Coprocessor Architecture and Tools", Apress, ISBN 978-1-4302-5926-8 (2013/09/02).
- Jim Jefferes, James Reinders: "Intel Xeon Phi Coprocessor High-Performance Programming", Morgan Kaufmann, ISBN 978-0-12-410414-3 (2013/03/01).
- Andrey Vladimirov, Vadim Karpusenko: "Parallel Programming and Optimization with Intel Xeon Phi Coprocessors", Colfax International, ISBN 978-0-9885234-1-8 (2013).
- Endong Wang, Qing Zhang: "High-Performance Computing on the Intel Xeon Phi:How to Fully Exploit MIC Architectures", Springer, ISBN 978-3319064857 (2014/07/11).
- James Reinders, Jim Jeffers: "High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches", Morgan Kaufmann, ISBN 978-0128021187 (2014/11/17).
日本語
- ジム・シェファース、ジェームズ・レインダース:「インテルXeon Phi コプロセッサー ハイパフォーマンス・プログラミング」, カットシステム, ISBN 978-4-87783-332-9 (2014年1月10日).
関連項目
外部リンク
|
---|
生産終了 |
|
---|
現行 |
|
---|
その他 | |
---|
マイクロ アーキテクチャ |
P5 |
P5ベースのコア |
---|
0.90 μm | |
---|
0.60 μm | |
---|
0.35 μm | |
---|
0.25 μm | |
---|
|
---|
P6 |
P6ベースのコア |
---|
0.50 μm | |
---|
0.35 μm | |
---|
0.25 μm | |
---|
180 nm | |
---|
130 nm | |
---|
90 nm | |
---|
65 nm | |
---|
|
---|
NetBurst |
NetBurstベースのコア |
---|
180 nm | |
---|
130 nm | |
---|
90 nm | |
---|
65 nm | |
---|
|
---|
Core |
|
---|
Atom |
Atomのマイクロアーキテクチャ |
---|
参考 | |
---|
45 nm | |
---|
32 nm | |
---|
22 nm | |
---|
14 nm | |
---|
10 nm | |
---|
Intel 7 | |
---|
|
---|
Nehalem |
|
---|
Sandy Bridge |
Sandy Bridgeベースのコア |
---|
32 nm | |
---|
22 nm | |
---|
|
---|
Haswell |
|
---|
Skylake |
|
---|
Cypress Cove |
|
---|
Sunny Cove |
|
---|
Willow Cove |
|
---|
Golden Cove (+Gracemont) |
|
---|
Raptor Cove (+Gracemont) |
|
---|
Redwood Cove (+Crestmont) |
Redwood Coveベースのコア |
---|
Intel 4 | |
---|
Intel 3 | |
---|
|
---|
Lion Cove (+Skymont) |
|
---|
|
---|
|