Advertisement
Site Navi
Related Links
Advertisement
February, 2004 updated
2004年2月更新
|
Specs
Intel製プロセッサ - プロセッサスペックノート
- Family 15 Desktop, Mobile: Pentium 4
- Family 6 Desktop, Mobile: Pentium M, Pentium III, Pentium II
- Family 15 IA-64 Server: Itanium 2, Itanium
- Family 6 Server: Pentium III-S, Pentium III Xeon, Pentium II Xeon, Pentium Pro
Intel Family 15 Desktop, Mobile Processors
Intel Family 15 Extension 0 summary
| Codename | Clock | FSB/PSB | L1/L2/L3 | Ex. | Process | Trs. | Die size |
Pentium 4 | Tejas | 4-3.8GHz | 1066, 800MHz | nKB+16KuOps+24K/1MB | (SSE3+) | 90nm | - | - |
Prescott | 3.8-2.8GHz | 800MHz | 12KuOps+16K/1MB | SSE3 | 90nm/7 | 125M | 112sqmm |
Northwood | 3.2-1.6GHz | 800, 533, 400MHz | 12KuOps+8K/512KB | SSE2 | 0.13 | 55M | 145-131sqmm |
Willamette | 2-1.3GHz | 400MHz | 12KuOps+8K/256KB | SSE2 | 0.18 | 42M | 217sqmm |
Pentium 4 Extreme Edition | M0 Northwood (Gallatin) | 3.2GHz | 800MHz | 12KuOps+8K/512KB/2MB | SSE2 | 0.13 | 169M | - |
Celeron | Prescott | 3.2-2.8GHz | 533MHz | 12KuOps+16K/256KB | SSE3 | 90nm/7 | 125M | 112sqmm |
Northwood | 2.8-2GHz | 400MHz | 12KuOps+8K/128KB | SSE2 | 0.13 | 55M | 145-131sqmm |
Willamette | 1.8-1.7GHz | 400MHz | 12KuOps+8K/128KB | SSE2 | 0.18 | 42M | 217sqmm |
Mobile Pentium 4 | Northwood | 3.2-2.4GHz | 533MHz | 12KuOps+8K/512KB | SSE2 | 0.13 | 55M | 131sqmm |
Mobile Pentium 4-M | Northwood | 2.6-1.4GHz | 400MHz | 12KuOps+8K/512KB | SSE2 | 0.13 | 55M | 145-131sqmm |
Mobile Celeron | Northwood | 2.4-1.4GHz | 400MHz | 12KuOps+8K/256KB | SSE2 | 0.13 | 55M | 145-131sqmm |
Pentium 4は、それ以前のP6に変わるNetBurstマイクロアーキテクチャに基づく製品として、2000年11月21日に発表されました。
NetBurstマイクロアーキテクチャでは高クロック化が重視され、パイプラインを20ステージにも分割することでこれを実現しています。
- Hyper-Pipeline - 20段のパイプライン構造。おおよそ10ステージだったP6のスーパーパイプラインに対し、ハイパーパイプラインと呼ばれます。
各ステージを細分化することで高クロック動作を可能にしました
- Execution Trace Cache - デコーダと実行コアの間に配置され、デコード済みIA-32命令、μOpを格納します。一度デコードされた命令は
実行トレースキャッシュに格納され、IA-32命令がキャッシュにヒットした場合はデコードが省略されて、トレースキャッシュからμOpが発行されます。
容量が12KμOpsの場合、キャッシュヒット率は8-16KBのL1命令キャッシュと同等と言われています
- Double-pumped ALU - クロックあたり2個の単純な整数演算命令を処理できる、超低レイテンシの整数演算ユニット
- Low latency L1 data cache - 2クロックサイクルでロード可能な小容量、低レイテンシのL1データキャッシュ。ライトスルー方式で、
ストアでは同時にL2キャッシュにも書き込みが行われます
- 144 new 128-bit SIMD instructions - 144個の128-bitパックド整数/倍精度浮動小数点SIMD演算命令が追加され、SSE2と名付けられました。
Prescottではこれに13の新命令が追加されたほか、Tejasはさらに8個の新命令を持ちます
- Quad-pumped FSB - クロックに対し倍速アドレッシング、4倍速データ転送レートを持つFSB。一般的にはデータ転送レートで呼ばれ、
400MHz、533MHz、800MHz FSBと言われています
- Hyper-Threading Technology - アーキテクチャステートが2個実装され、1プロセッサコアで2スレッド同時実行が可能となるもの。
Xeon MP及びPrestonia以降のXeonで導入されたほか、Northwood 3.06GHzと800MHz FSB製品でサポートされました。2003年9月にはHT対応
DTR向けモバイルPentium 4もリリースされています
2004年2月2日、Intelは90nmプロセスを用いて製造するPentium 4Eをリリースしました。Pentium 4Eでは
これまでのPentium 4よりも微細な製造プロセスを生かし、キャッシュ倍増や新命令の追加、機能拡張などのためのトランジスタが
大幅に追加されています。また、動作クロックをさらに向上するために、パイプライン構造も拡張されました。
- Deeper pipeline - パイプラインを拡張することで、より高いクロックスケールを実現しています
- Larger caches - L1データキャッシュとL2キャッシュの容量を倍増し、それぞれ16KB L1-D、1MB L2を実装します。またL1データキャッシュを
8-way set associativeとすることで、キャッシュヒット率を改善しています
- Improved pre-fetcher branch predictor - Pentium Mで実装されたIndirect Branch Predictorを搭載するほか、
分岐予測器が使用する分岐履歴テーブルや分岐ターゲットバッファの容量を拡大するなどにより、分岐予測精度を改善しています。
実行に必要となる命令やデータを事前に取得するプリフェッチ機能も、ハードウェア及びソフトウェアともに強化されました
- Improved Hyper-Threading technology - ストアバッファが32個に増加されたほか、ロードリクエスト、ライトコンバインバッファも
それぞれ4から8、6から8個に増やされました。またスレッド同期処理用の新命令などを使用してマルチスレッディングの利用効率が改善できます
- SSE3 - 13個の新命令が追加されました。追加されたのは、1個のFP命令、10個のSIMD演算命令と
2個のスレッドの同期処理に使用される命令。ソフトウェア側がこれらの命令に対応することで、性能を改善することができます
- La Grande (LT) support - 外部からの不正なプログラム実行を防止するためのセキュリティ機能が搭載されました。
これはシステム上の他のハードウェアやOSが対応することで利用できます
- Improved Imul latency - これまでFPUで実行されていた整数乗算のための実行ユニットが追加されました。これにより、
整数乗算実行時のデータ転送に掛かっていた巨大なレイテンシを削減しています
- Additional WC buffers - AGPに送られるデータを一塊にまとめることでFSB上のオーバーヘッドを削減し、
プロセッサバスの利用効率を改善します
Intel Pentium 4 detail
| Core | Specs |
Execution Units | Prescott | Double-pumped simple ALU, Double-pumped simple ALU (shift/rotate capable), Complex ALU, Integer multipler, Load AGU, Store AGU, FPU (FP, MMX, SSE, SSE2, SSE3), FP Move (FP Move, FP Store) |
Northwood, Willamette | 2 x Double-pumped simple ALU, Complex ALU, Load AGU, Store AGU, FPU (FP, MMX, SSE, SSE2), FP Move (FP Move, FP Store) |
Instruction Decoder | All | 1 IA-32, 3 uOps per clock |
Instruction Dispatch | All | 6 uOps per clock cycle, 3 uOps per clock cycle from allocator/register renamer/trace cache |
Dispatch Ports | All | Exec Port 0 (Simple ALU, FP Move) up to 2 uOps Exec Port 1 (Simple ALU, Complex ALU, FPU) up to 2 uOps Load Port (All Load) Store Port (Store address) |
Instruction Window | All | 126 in-flight |
Buffers | Prescott | 48 Load, 32 Store, 8 Load request, 8 Write combining |
Northwood, Willamette | 48 Load, 24 Store, 4 Load request, 6 Write combining |
Instruction Retirement | All | 3 uOps per clock |
Registers | Prescott | Architected: 32-bit 8 GPR, 80-bit 8 FP, 128-bit 8 XMM (Rename: 256-entry int RF, 256-entry 128-bit fp/SSE RF ??) |
Northwood, Willamette | Architected: 32-bit 8 GPR, 80-bit 8 FP, 128-bit 8 XMM Rename: 128-entry int RF, 128-entry 128-bit fp/SSE RF |
Pipeline Stages | Tejas, Prescott | 31, (+(8) decode stage same to Northwood) |
Northwood HT | 21, (+(8) decode stage) (?) |
Northwood, Willamette | 20, (+(8) decode stage) |
Front End Branch Prediction | Tejas, Prescott | Total 4,096-entry BHT/BTB, Indirect Branch Predictor |
Northwood, Willamette | Total 4,096-entry branch history table and branch target buffer (BTB) |
TC Branch Prediction | Tejas, Prescott, Northwood | 2,048-entry branch target buffer, 16-entry RAS |
Willamette | 512-entry branch target buffer, 16-entry return address stack |
Execution Trace Cache | Tejas | 24K uops |
Prescott, Northwood, Willamette | 12K uops, 8-way set associative |
ITLB | Northwood, Willamette | 4-way set associative, 32-entry 4KB, 64/8-entry 4KB/2MB/4MB pages, prefetching logic |
L1-Instruction cache | Tejas | 16KB |
L1-Data cache | Tejas | 24KB |
Prescott | 16KB, 8-way set associative, 64byte-line, write through, 4 clock cycle int, 12 clock cycle fp latency, dual port (1 Load/1 Store) |
Northwood, Willamette | 8KB, 4-way set associative, 64byte-line, write through, 2 clock cycle int, 9 clock cycle fp latency, dual port (1 Load/1 Store), 128-bit fp/SSE Load port |
DTLB | Tejas | - |
Prescott, Northwood, Willamette | 4-way set associative, 64/8-entry, 4KB/4MB pages |
L2 cache | Tejas, Prescott | 1MB, ECC, 8-way set associative, 128byte-line (64byte/sector), write back, 18 clock cycle latency, 256-bit bus |
Northwood | 512KB, ECC, 8-way set associative, 128byte-line (64byte/sector), write back, 7 clock cycle latency, 256-bit bus |
Willamette | 256KB, ECC, 8-way set associative, 128byte-line (64byte/sector), write back, 7 clock cycle latency, 256-bit bus |
L2 DTLB | Tejas | - |
Prescott, Northwood, Willamette | Full associative, 64-entry, 4KB/4MB pages |
L3 cache | Foster, Gallatin | 1, 2, 4MB, 8-way set associative, 128byte-line (64byte/sector, dual sectored line), write back, 14 clock cycle latency |
Multi processing | Prescott, Northwood, Willamette | Not supported, 2 Local xAPICs |
Multi threading | Tejas | 2 SMT, Hyper-Threading Technology (speculative ?) |
Prescott, Northwood, Prestonia, Gallatin, Foster MP | 2 SMT, Hyper-Threading Technology |
Northwood, Willamette, Foster | Hyper-Threading Technology implemented, but not supported |
Manufacturing technology | Tejas | 90-nano CMOS, Strained Silicon |
Prescott | 90-nano CMOS, Strained Silicon, 7-layer Cupper interconnect, Carbon-doped oxide (CDO) low-k dielectric material |
Northwood | 0.13-micron CMOS, Cupper interconnect, SiOF low-k dielectric material |
Willamette | 0.18-micron CMOS, 6-layer Al interconnect |
Transistor count | Prescott | 125M |
Northwood | 55M, 168-169M (M0) |
Willamette | 42M |
Die size | Prescott | A0 109sqmm, B0 112sqmm, C0 ? |
Northwood | B0 145sqmm, C1 136sqmm (131 ?), D1 131sqmm (136 ?), (M0 230sqmm ?, Gallatin: 237sqmm) |
Willamette | 217sqmm |
VID, TDP | Prescott | C0 3.6-3.2GHz 1.40-1.33V 103W typical TDP - Prescott FMB 1.5 C0 3-2.8GHz 1.30V 89W typical TDP - Prescott FMB |
M0 Northwood | M0 Multiple VID (Max. 1.600V), Vmax 1.425V 75.1W TDP for 2.40GHz, 78W TDP for 2.80GHz (1.475V, Iccmax 91A, VRTDC 81A, 93.9W TDP(TDP typical 103.9W - P4XE VRD) for P4XE 3.20GHz) |
D1 Northwood | D1 Max. 1.525-1.550V, 82W for P4 3.20GHz |
Northwood | B0 Max. 1.50-1.525V 62.6W for P4 2.6GHz, C1 Max. 1.50-1.525V 81.8W for P4 3.06GHz |
Willamette | 1.70-1.75V, 75.3W for P4 mPGA478 2GHz |
Package, Socket support | Tejas, Prescott | 775 LandGridArray, Socket T |
Prescott, Northwood, Willamette | 478-pin FlipChip-PinGridArray 2, mPGA478 |
Willamette | 423-pin PinGridArray (OOI), PGA423 |
2004年2月に発表されたPrescottでは、Pentium 4の製品名を引き継ぎつつマイクロアーキテクチャに大きく変更が加えられました。
これは、少なくとも5GHzに到達するというクロックスケールを実現するためのパイプラインの拡張と、31段にもなるパイプラインが
性能に与える影響を最小限にするための改良とに大別して考えられます。
中でも最も大きな変更点と言えるパイプラインの拡張などにより、IntelではPrescottのクロックスケールをNorthwoodの4倍にまで
高めると述べていました。動作クロックを向上するためにはまた、設計の自動化によるデータパスの最適化が行われているほか、
Strained Siliconや新素材のLow-k層間膜といったトランジスタの高速化技術も導入されています。
31段という非常に深いパイプライン構造を効率的に使用するため、Prescottでは分岐予測器 (BPU) やキャッシュ、
プリフェッチ、ストア-ロードフォーワード (Store-to-Load Forwarding) といった機能が強化されています。特にBPUは、静的分岐予測と
動的分岐予測ともに改良が加えられ、精度が向上していると言われます。
動的分岐予測とは、前回までの分岐結果を分岐履歴表及びBTB (Branch Target Buffer) から参照し、これを用いて次回の
条件分岐を (分岐するか、しないか) 予測するものです。Prescottではここに、
新たに間接(二次)的分岐予測器 (Indirect Branch Predictor) が実装され、これにより動的分岐予測を補佐すると見られます。
この追加部分が具体的にどう働くのかは不明ですが、同様の機能はPentium Mプロセッサにも実装されており、
高い効果を得られるものと考えられそうです。
過去の分岐結果を用いる動的分岐予測に対し、ある条件分岐に初めて遭遇したような場合には静的分岐予測器が判断を行います。
Northwoodまでの静的分岐予測器は、プログラムの後方に戻る条件分岐は分岐するものとして、前方にとぶものは分岐しないと判断していました。
これは、何回か処理を繰り返すような一般的なループにおいて有効ですが、後方分岐の中にはエラーを条件とするものも含まれます。
Prescottではこれらの分岐条件や分岐先までの距離を考慮、Intelでは分岐条件のうち幾つかの種類で殆ど分岐していないことを示しており、
これにより予測精度の改善を図ったとされています。
BPUとともに、パイプラインを停止させないための改良としてストア-ロードフォーワードも強化されました。
Pentium 4はプログラムの命令を処理し易い順序に並び替えて実行するOut-of-Orderコアを持つプロセッサですが、データを書き込むストアに
関しては順序どおり (In-Order) に実行する必要があります。パイプランの深いPentium 4において、
データキャッシュへの書き込みは時間が掛かることが多いため、以降にそのデータを使用する処理がある場合には
パイプラインが暫く停止する可能性がありました。ストア-ロードフォーワードは、このようなストアの直後に通常なら
書き込みを待つロード命令があったとき、条件が合致した場合に限ってデータをL1キャッシュに書き込む前にロードユニットへと転送する機能です。
Prescottではこの条件が改善されており、ストア後のレイテンシはこれまでより軽減されると言われています。
Intel Family 6 Desktop, Mobile Processors
Intel Family 6 Desktop/Mobile summary
| Codename | Clock | FSB/PSB | L1/L2 | Ex. | Process | Trs. | Die size |
Pentium M | Dothan | 2.13-1.60GHz, 2-1.5GHz, 1.4-1.3GHz LV, 1.1-1GHz ULV | 533, 400MHz | 32+32KB/2MB | SSE2 | 90nm | 140M | 87sqmm |
Banias | 1.7-1.3GHz 1.2-1.1GHz LV 1-0.9GHz ULV | 400MHz | 32+32KB/1MB | SSE2 | 0.13 | 77M | - |
Pentium III | Tualatin | 1.26-1.1GHz | 133MHz | 16+16/256KB | SSE | 0.13/6 | 44M | 80sqmm |
Coppermine | 1.1-500MHz | 133, 100MHz | 16+16/256KB | SSE | 0.18/6 | 28.1M | 106-90sqmm |
Katmai | 600-450MHz | 100MHz | 16+16/512KB off | SSE | 0.25/5 | 9.5M | 128sqmm |
Mobile Pentium III-M | Tualatin | 1333-866MHz 1000-733MHz LV 933-700MHz ULV | 133, 100MHz | 16+16/512KB | SSE | 0.13 | 44M | 80sqmm |
Mobile Pentium III SpeedStep | Coppermine | 1000-600MHz 750-600MHz LV 600-500MHz ULV | 100MHz | 16+16/256KB | SSE | 0.18 | 28.1M | 106-90sqmm |
Mobile Pentium III | Coppermine | 500-400MHz | 100MHz | 16+16/256KB | SSE | 0.18 | 28.1M | 106-90sqmm |
Celeron | Tualatin | 1.4-0.9GHz | 100MHz | 16+16/256KB | SSE | 0.13 | 44M | 80sqmm |
Coppermine | 1100-533MHz | 100, 66MHz | 16+16/128KB | SSE | 0.18 | 28.1M | 106-90sqmm |
Mendocino | 533-300MHz | 66MHz | 16+16/128KB | MMX | 0.25/5 | 19M | 154sqmm |
Covington | 266-300MHz | 66MHz | 16+16KB | MMX | 0.25/5 | 7.5M | 131-118sqmm |
Mobile Celeron | Tualatin | 1.33-1GHz 733-650MHz LV 733-650MHz ULV | 133, 100MHz | 16+16/256KB | SSE | 0.13 | 44M | 80sqmm |
Coppermine | 933-400MHz | 133, 100MHz | 16+16/128KB | SSE | 0.18 | 28.1M | 106-90sqmm |
Mendocino | 466-266MHz | 66MHz | 16+16/128KB | MMX | 0.25/5 | 18.9M | 154sqmm |
Pentium II | Deschutes | 450-266MHz | 100, 66MHz | 16+16/512KB off | MMX | 0.25/5 | 7.5M | 131-118sqmm |
Klamath | 300-233MHz | 66MHz | 16+16/512KB off | MMX | 0.35/4 | 7.5M | 203sqmm |
Mobile Pentium II | Dixon | 400-266PEMHz, 233MHz LV | 66MHz | 16+16/256KB | MMX | 0.25/5 | 27.4M | 180sqmm |
Tonga | 300-233MHz | 66MHz | 16+16/512KB off | MMX | 0.25/5 | 7.5M | 131-118sqmm |
Intel Family 15 IA-64 Server Processors
Intel Family 15 Extension 1 Server summary
| Code | Clock | FSB/PSB | L1/L2/L3 | Ex. | Process | Trs. | Die size |
Itanium 2 | Montecito | 1.5GHz+ | - | -/-/24MB | - | 90nm | 1B+ | - |
Deerfield | 1GHz | 400MHz | 16+16KB/256KB/1.5MB | - | 0.13 | - | - |
Madison 9M | 1.5GHz+ | 400MHz | -/-/9M | - | 0.13 | 500M+ | - |
Madison | 1.5-1.3GHz | 400MHz | 16+16KB/256KB/[6MB/4MB/3MB/1.5MB] | - | 0.13 | 410M | 374sqmm |
McKinley | 1GHz, 900MHz | 400MHz | 16+16KB/256KB/[3MB/1.5MB] | - | 0.18 | 221M | 421sqmm |
Itanium | Merced | 800, 733MHz | 266MHz | 16+16KB/96KB/(4/2MB) | - | 0.25 | 25M/(300M) | - |
Intel Family 6 Server Processors
Intel Family 6 Server summary
| Codename | Clock | FSB/PSB | L1/L2/L3 | Ex. | Process | Trs. | Die size |
Pentium III-S | Tualatin | 1.4-1.13GHz | 133MHz | 16+16/512KB | SSE | 0.13 | 44M | 80sqmm |
Pentium III Xeon | Cascades | 1000-600MHz | 133, 100MHz | 16+16/[2M/1M/512K] | SSE | 0.18 | 140M | 385sqmm |
Pentium III Xeon | Tanner | 550-500MHz | 100MHz | 16+16/(2M/1M/512K) | SSE | 0.25 | 28.1M | 128sqmm |
Pentium II Xeon | Drake | 450-400MHz | 100MHz | 16+16/(2M/1M/512K) | MMX | 0.25 | 7.5M | 131-118sqmm |
Pentium Pro | P6 | 200-150MHz | 66MHz | 8+8/[1M/512K/256K cmp] | - | 0.6/0.35 | 5.5M | - |
|