Xeon Phi
Xeon Phi(ジーオン ファイ[1])は、インテルが販売しているLarrabee(社内コード)より派生したMICアーキテクチャ (Many Integrated Core)[2]ベースのHPC向けコプロセッサ(後にプロセッサバージョンも追加)のブランド名である。
概要
[編集]Xeon Phiファミリーはx86互換のメニーコア・コプロセッサを搭載した、並列コンピューティング用の演算ボードである。第一製品群のターゲットはHPC分野であるが、将来的には企業のデータセンター、ワークステーションなどにも対応する。Xeon Phiコプロセッサは従来のIA-32/Intel 64アーキテクチャ向けアプリケーションをそのまま使うことができることが最大の売りである。そのほかにもホストOSから独立したLinuxベースのOSを動作させることができる。製品はPCI Expressで接続される[1]。
世代
[編集]第1世代
[編集]Knights Corner
[編集]第1世代 Xeon Phi。2012年11月13日発表。製造プロセスは22nm Tri-Gateトランジスタを採用している(Ivy Bridgeと同一の製造プロセス)。インテルXeonプロセッサーE5ファミリーと組み合わせることで、カードあたり倍精度浮動小数点演算で1TFLOPS以上の理論性能がある。本製品はPCI Express形式の拡張カードで供給され、純粋に演算用であって、ラスタライザやビデオ再生エンジン、ディスプレイ出力は存在しない。
本製品の競合相手はNVIDIAのHPC向けGPUであるNVIDIA Tesla、およびAMDのHPC向けGPUであるAMD FirePro (FirePro Sシリーズ[3]、旧称AMD FireStream) となる。Xeon Phiの強みはコアがx86であるために、x86 CPU向けに記述されたプログラムをほぼそのまま利用できる点である。またPCI Expressで接続されているが、本製品の内部にはスタンドアロン型のLinuxが常駐しており、SSHを使ってホストからログインすることができる。これは独立したOSを動作させられないGPGPUでは不可能である。勿論GPGPUと同様、オフロード計算をさせる動作も可能である。
SIMD命令は512ビットであり、倍精度浮動小数点数を8つ同時に扱うことができ、また FMA をサポートしているため、16 FLOPS/cycle である[4]。なお同時期に発売されたHaswellのIntel AVX2は256ビットであり、同時に扱うことができる倍精度浮動小数点数は4つだが、FMAを2つ同時に計算できるため、同じく 16 FLOPS/cycle である[5]。
PCI Express は Gen2.0 x16(片方向あたり8GB/s)。
2012年6月当時、44社のメーカーがロードマップへの組み込みを表明していた[1]。
2017年1月にEnd of Lifeとなった。Intel Math Kernel Library のサポートも 2017 Update 4[6]で終了した。
- 以下のプロセッサーオプションがある。
- -X: PCI Express接続
- -P: PCI Express接続、ヒートシンク付き
- -A: PCI Express接続、アクティブファン内蔵
- -D: SFF接続
型番 | CPU | TDP (W) | 内蔵メモリ | ||||
---|---|---|---|---|---|---|---|
コア数 (スレッド数) | クロック (GHz) | L2キャッシュ (MB) | 規格 | 容量 (GB) | |||
定格 | ターボ | ||||||
7120A | 61 (244) | 1.24 | 1.33 | 30.5 | 300 | GDDR5 | 16 |
7120P | |||||||
7120X | |||||||
7120D | 270 | ||||||
SE10P | 1.1 | — | 300 | 8 | |||
SE10X | |||||||
5120D | 60 (240) | 1.05 | 30 | 245 | |||
5110P | 225 | ||||||
31S1P | 57 (228) | 1.1 | 28.5 | 270 | |||
3120A | 300 | 6 | |||||
3120P |
- Xeon Phi 5110P
- 2012年11月13日発表、2013年1月28日発売。Tri-Gateトランジスタを採用し22nmで製造された製品である。60コア、動作クロックは1.053GHz。倍精度浮動小数点演算の理論性能値は1.011TFLOPS。搭載されるメモリーはGDDR5の8GBで帯域幅は320GB/sである。TDPは225W。5110Pが導入されるシステムにおいてはラック単位での冷却がなされることが想定されているため、カード本体には冷却用の回転ファン機構は存在していない。ホストバスはPCIe2.0であるが、転送レートが高速化されているのでPCIe3.0による接続と性能にあまり変わりはない。コアあたりのL2キャッシュは512KBで、チップ全体でのL2キャッシュの総量は30MBである。メモリーインターフェイスは32bit幅で動作しており、合計で512bit幅である。補助電源コネクタは8ピン+6ピン構成。
- Xeon Phi 5120D, 3120P, 3120A, 7120P, 7120X
- 2013年6月18日発売開始。
- Xeon Phi 31S1P
- 2013年第2四半期に発売。中国のスーパーコンピュータシステム「天河2」に用いられた。
第2世代
[編集]Knights Landing
[編集]第2世代 Xeon Phi。2016年6月20日発表[7][8][9]。単精度で 6 TFLOPS 以上、倍精度で 3 TFLOPS 以上になった。プロセスルールは14nm。Atom の Silvermont ベースになった[10]。
型番の末尾にFがつくものはインターコネクトの Intel Omni-Path Fabric を搭載。
ソケットは LGA3647 だが、通常の Xeon との互換性はなく、Xeon Phi 専用のマザーボードでなければ動作しない(物理的にソケットにはまらない)。
オンチップメモリは L3 キャッシュとしても利用できるし、アドレスを割り振り通常のメモリとしても利用可能。7.2 GT/s のもので実測で 490 GB/s になる[11]。
1コアあたり、4スレッド実行可能で、2つのベクターALU(512ビット)、2つのスカラーALU、1つのレガシーx87 ALUを搭載している[8]。よって72コア、1.5 GHzで、単精度は 512 bit / 32 bit * 2 ALU * 2 op * 72 core * 1.5 GHz = 6912 GFLOPS になる。
Knights Landing で採用される512ビット SIMD命令はAVX-512として定義されたものになるが、これはそれまでのKnights Cornerが用いていた「512ビットSIMD演算」とは機械語命令形式が異なり互換では無い[12]。
PCI Express は Gen3.0 x16 (片方向あたり16GB/s)。
- 対応ソケット: LGA3647
型番 | CPU | TDP (W) | 内蔵メモリ | 対応メモリ | ||||
---|---|---|---|---|---|---|---|---|
コア数 (スレッド数) | クロック (GHz) | L2キャッシュ (MB) | 規格 | 容量 (GB) | ||||
定格 | ターボ | |||||||
7290F | 72 (288) | 1.5 | 1.7 | 36 | 260 | MCDRAM | 16 | DDR4-2400 |
7290 | 245 | |||||||
7250F | 68 (272) | 1.4 | 1.6 | 34 | 230 | |||
7250 | 215 | |||||||
7230F | 64 (256) | 1.3 | 1.5 | 32 | 230 | |||
7230 | 215 | |||||||
7210F | 230 | DDR4-2133 | ||||||
7210 | 215 |
Knights Mill
[編集]2017年12月18日[13][14]発表[15]。Knights Landing をディープラーニング向けに改良。Intel AVX-512のサポートを拡張し、AVX512_4FMAPS、AVX512_4VNNI、AVX512_VPOPCNTDQをサポートした[15]。FP32やINT16の演算を高速化している[16]。x200 よりも FP32 の行列積での演算が2倍[17]高速になった。
- 対応ソケット: LGA3647
型番 | CPU | TDP (W) | 内蔵メモリ | 対応メモリ | ||||
---|---|---|---|---|---|---|---|---|
コア数 (スレッド数) | クロック (GHz) | L2キャッシュ (MB) | 規格 | 容量 (GB) | ||||
定格 | ターボ | |||||||
7295 | 72 (288) | 1.5 | 1.6 | 36 | 320 | MCDRAM | 16 | DDR4-2400 |
7285 | 68 (272) | 1.3 | 1.4 | 34 | 250 | |||
7255 | 1.1 | 1.2 | 215 | |||||
7235 | 64 (256) | 1.3 | 1.4 | 32 | 250 | DDR4-2133 |
第3世代
[編集]Knights Hill
[編集]第3世代のXeon PhiとしてKnights Hillが予定されていた[10][18][19]が、キャンセルされた[20]。
脚注
[編集]注釈
[編集]出典
[編集]- ^ a b c “インテル コーポレーション、インテル® MIC アーキテクチャーに基づく新ブランド“インテル® Xeon® Phi™”を発表”. Intel. 2017年1月16日閲覧。
- ^ 株式会社HPCソリューションズ ~ 技術情報 インテル®MICアーキテクチャー対応について intel-MIC Xeon Phi
- ^ FirePro Server - 製品情報 - 株式会社エーキューブ
- ^ Intel® Xeon Phi™ Coprocessor - the Architecture | Intel® Developer Zone
- ^ HPC性能が大幅に強化されたHaswell(前編) -各コアに256bit長のFMAを2個装備 | マイナビニュース
- ^ Intel® Math Kernel Library (Intel® MKL) 2018 Release Notes | Intel® Software
- ^ Intel、機械学習に特化した72コアのXeon Phiを投入 ~x86動作のブータブルCPUを初搭載 - PC Watch
- ^ a b 【後藤弘茂のWeekly海外ニュース】ホモジニアスな構成が可能な新生Xeon Phi「Knights Landing」の強味 - PC Watch
- ^ Intelがスパコンカンファレンスで「Knights Landing」を正式発表(2016年6月22日)
- ^ Intel® Xeon Phi Processor: Your Path to Deeper Insight
- ^ What public disclosures has Intel made about Knights Landing?
- ^ Knights Mill - Microarchitectures - Intel - WikiChip
- ^ Нови процесори Xeon Phi ускоряват дълбокото обучение | TechNews.bg
- ^ a b Intel、TDP 320Wに達した72コアのx86プロセッサ「Xeon Phi 7295」 - PC Watch
- ^ Hot Chips 29 - Intelのマシンラーニング向けプロセサ「Knights Mill」 | マイナビニュース
- ^ Intel Lists Knights Mill Xeon Phi on ARK: Up to 72 cores at 320W with QFMA and VNNI
- ^ “Intel,第3世代Xeon Phi「Knights Hill」の存在を明らかに”. 2024年12月1日閲覧。
- ^ “10nm採用のXeon Phi「Knights Hill」の開発は予定通り - Intel”. 2024年12月1日閲覧。
- ^ “コードネーム“Knights Hill”こと第3世代Xeon Phiが開発中止”. 2024年12月1日閲覧。
参考資料
[編集]英語
[編集]- Rezaur Rahman: "Intel Xeon Phi Coprocessor Architecture and Tools", Apress, ISBN 978-1-4302-5926-8 (2013/09/02).
- Jim Jefferes, James Reinders: "Intel Xeon Phi Coprocessor High-Performance Programming", Morgan Kaufmann, ISBN 978-0-12-410414-3 (2013/03/01).
- Andrey Vladimirov, Vadim Karpusenko: "Parallel Programming and Optimization with Intel Xeon Phi Coprocessors", Colfax International, ISBN 978-0-9885234-1-8 (2013).
- Endong Wang, Qing Zhang: "High-Performance Computing on the Intel Xeon Phi:How to Fully Exploit MIC Architectures", Springer, ISBN 978-3319064857 (2014/07/11).
- James Reinders, Jim Jeffers: "High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches", Morgan Kaufmann, ISBN 978-0128021187 (2014/11/17).
日本語
[編集]- ジム・シェファース、ジェームズ・レインダース:「インテルXeon Phi コプロセッサー ハイパフォーマンス・プログラミング」, カットシステム, ISBN 978-4-87783-332-9 (2014年1月10日).