Septor.net
The resource for computer news

Advertisement


Site Navi
Home

Specs

Processor spec-note

Intel CPUs

Related Links

Advertisement


February, 2004 updated

2004年2月更新

Specs

Intel製プロセッサ - プロセッサスペックノート



目次

  1. Family 15 Desktop, Mobile: Pentium 4
  2. Family 6 Desktop, Mobile: Pentium M, Pentium III, Pentium II
  3. Family 15 IA-64 Server: Itanium 2, Itanium
  4. Family 6 Server: Pentium III-S, Pentium III Xeon, Pentium II Xeon, Pentium Pro

Intel Family 15 Desktop, Mobile Processors



Intel Family 15 Extension 0 summary
 CodenameClockFSB/PSBL1/L2/L3Ex.ProcessTrs.Die size
Pentium 4Tejas4-3.8GHz1066, 800MHznKB+16KuOps+24K/1MB(SSE3+)90nm--
Prescott3.8-2.8GHz800MHz12KuOps+16K/1MBSSE390nm/7125M112sqmm
Northwood3.2-1.6GHz800, 533, 400MHz12KuOps+8K/512KBSSE20.1355M145-131sqmm
Willamette2-1.3GHz400MHz12KuOps+8K/256KBSSE20.1842M217sqmm
Pentium 4 Extreme EditionM0 Northwood (Gallatin)3.2GHz800MHz12KuOps+8K/512KB/2MBSSE20.13169M-
CeleronPrescott3.2-2.8GHz533MHz12KuOps+16K/256KBSSE390nm/7125M112sqmm
Northwood2.8-2GHz400MHz12KuOps+8K/128KBSSE20.1355M145-131sqmm
Willamette1.8-1.7GHz400MHz12KuOps+8K/128KBSSE20.1842M217sqmm
Mobile Pentium 4Northwood3.2-2.4GHz533MHz12KuOps+8K/512KBSSE20.1355M131sqmm
Mobile Pentium 4-MNorthwood2.6-1.4GHz400MHz12KuOps+8K/512KBSSE20.1355M145-131sqmm
Mobile CeleronNorthwood2.4-1.4GHz400MHz12KuOps+8K/256KBSSE20.1355M145-131sqmm

  Pentium 4は、それ以前のP6に変わるNetBurstマイクロアーキテクチャに基づく製品として、2000年11月21日に発表されました。 NetBurstマイクロアーキテクチャでは高クロック化が重視され、パイプラインを20ステージにも分割することでこれを実現しています。
  • Hyper-Pipeline - 20段のパイプライン構造。おおよそ10ステージだったP6のスーパーパイプラインに対し、ハイパーパイプラインと呼ばれます。 各ステージを細分化することで高クロック動作を可能にしました
  • Execution Trace Cache - デコーダと実行コアの間に配置され、デコード済みIA-32命令、μOpを格納します。一度デコードされた命令は 実行トレースキャッシュに格納され、IA-32命令がキャッシュにヒットした場合はデコードが省略されて、トレースキャッシュからμOpが発行されます。 容量が12KμOpsの場合、キャッシュヒット率は8-16KBのL1命令キャッシュと同等と言われています
  • Double-pumped ALU - クロックあたり2個の単純な整数演算命令を処理できる、超低レイテンシの整数演算ユニット
  • Low latency L1 data cache - 2クロックサイクルでロード可能な小容量、低レイテンシのL1データキャッシュ。ライトスルー方式で、 ストアでは同時にL2キャッシュにも書き込みが行われます
  • 144 new 128-bit SIMD instructions - 144個の128-bitパックド整数/倍精度浮動小数点SIMD演算命令が追加され、SSE2と名付けられました。 Prescottではこれに13の新命令が追加されたほか、Tejasはさらに8個の新命令を持ちます
  • Quad-pumped FSB - クロックに対し倍速アドレッシング、4倍速データ転送レートを持つFSB。一般的にはデータ転送レートで呼ばれ、 400MHz、533MHz、800MHz FSBと言われています
  • Hyper-Threading Technology - アーキテクチャステートが2個実装され、1プロセッサコアで2スレッド同時実行が可能となるもの。 Xeon MP及びPrestonia以降のXeonで導入されたほか、Northwood 3.06GHzと800MHz FSB製品でサポートされました。2003年9月にはHT対応 DTR向けモバイルPentium 4もリリースされています
  2004年2月2日、Intelは90nmプロセスを用いて製造するPentium 4Eをリリースしました。Pentium 4Eでは これまでのPentium 4よりも微細な製造プロセスを生かし、キャッシュ倍増や新命令の追加、機能拡張などのためのトランジスタが 大幅に追加されています。また、動作クロックをさらに向上するために、パイプライン構造も拡張されました。
  • Deeper pipeline - パイプラインを拡張することで、より高いクロックスケールを実現しています
  • Larger caches - L1データキャッシュとL2キャッシュの容量を倍増し、それぞれ16KB L1-D、1MB L2を実装します。またL1データキャッシュを 8-way set associativeとすることで、キャッシュヒット率を改善しています
  • Improved pre-fetcher branch predictor - Pentium Mで実装されたIndirect Branch Predictorを搭載するほか、 分岐予測器が使用する分岐履歴テーブルや分岐ターゲットバッファの容量を拡大するなどにより、分岐予測精度を改善しています。 実行に必要となる命令やデータを事前に取得するプリフェッチ機能も、ハードウェア及びソフトウェアともに強化されました
  • Improved Hyper-Threading technology - ストアバッファが32個に増加されたほか、ロードリクエスト、ライトコンバインバッファも それぞれ4から8、6から8個に増やされました。またスレッド同期処理用の新命令などを使用してマルチスレッディングの利用効率が改善できます
  • SSE3 - 13個の新命令が追加されました。追加されたのは、1個のFP命令、10個のSIMD演算命令と 2個のスレッドの同期処理に使用される命令。ソフトウェア側がこれらの命令に対応することで、性能を改善することができます
  • La Grande (LT) support - 外部からの不正なプログラム実行を防止するためのセキュリティ機能が搭載されました。 これはシステム上の他のハードウェアやOSが対応することで利用できます
  • Improved Imul latency - これまでFPUで実行されていた整数乗算のための実行ユニットが追加されました。これにより、 整数乗算実行時のデータ転送に掛かっていた巨大なレイテンシを削減しています
  • Additional WC buffers - AGPに送られるデータを一塊にまとめることでFSB上のオーバーヘッドを削減し、 プロセッサバスの利用効率を改善します
Intel Pentium 4 detail
 CoreSpecs
Execution UnitsPrescottDouble-pumped simple ALU, Double-pumped simple ALU (shift/rotate capable), Complex ALU, Integer multipler, Load AGU, Store AGU, FPU (FP, MMX, SSE, SSE2, SSE3), FP Move (FP Move, FP Store)
Northwood, Willamette2 x Double-pumped simple ALU, Complex ALU, Load AGU, Store AGU, FPU (FP, MMX, SSE, SSE2), FP Move (FP Move, FP Store)
Instruction DecoderAll1 IA-32, 3 uOps per clock
Instruction DispatchAll6 uOps per clock cycle, 3 uOps per clock cycle from allocator/register renamer/trace cache
Dispatch PortsAllExec Port 0 (Simple ALU, FP Move) up to 2 uOps
Exec Port 1 (Simple ALU, Complex ALU, FPU) up to 2 uOps
Load Port (All Load)
Store Port (Store address)
Instruction WindowAll126 in-flight
BuffersPrescott48 Load, 32 Store, 8 Load request, 8 Write combining
Northwood, Willamette48 Load, 24 Store, 4 Load request, 6 Write combining
Instruction RetirementAll3 uOps per clock
RegistersPrescottArchitected: 32-bit 8 GPR, 80-bit 8 FP, 128-bit 8 XMM
(Rename: 256-entry int RF, 256-entry 128-bit fp/SSE RF ??)
Northwood, WillametteArchitected: 32-bit 8 GPR, 80-bit 8 FP, 128-bit 8 XMM
Rename: 128-entry int RF, 128-entry 128-bit fp/SSE RF
Pipeline StagesTejas, Prescott31, (+(8) decode stage same to Northwood)
Northwood HT21, (+(8) decode stage) (?)
Northwood, Willamette20, (+(8) decode stage)
Front End Branch PredictionTejas, PrescottTotal 4,096-entry BHT/BTB, Indirect Branch Predictor
Northwood, WillametteTotal 4,096-entry branch history table and branch target buffer (BTB)
TC Branch PredictionTejas, Prescott, Northwood2,048-entry branch target buffer, 16-entry RAS
Willamette512-entry branch target buffer, 16-entry return address stack
Execution Trace CacheTejas24K uops
Prescott, Northwood, Willamette12K uops, 8-way set associative
ITLBNorthwood, Willamette4-way set associative, 32-entry 4KB, 64/8-entry 4KB/2MB/4MB pages, prefetching logic
L1-Instruction cacheTejas16KB
L1-Data cacheTejas24KB
Prescott16KB, 8-way set associative, 64byte-line, write through, 4 clock cycle int, 12 clock cycle fp latency, dual port (1 Load/1 Store)
Northwood, Willamette8KB, 4-way set associative, 64byte-line, write through, 2 clock cycle int, 9 clock cycle fp latency, dual port (1 Load/1 Store), 128-bit fp/SSE Load port
DTLBTejas-
Prescott, Northwood, Willamette4-way set associative, 64/8-entry, 4KB/4MB pages
L2 cacheTejas, Prescott1MB, ECC, 8-way set associative, 128byte-line (64byte/sector), write back, 18 clock cycle latency, 256-bit bus
Northwood512KB, ECC, 8-way set associative, 128byte-line (64byte/sector), write back, 7 clock cycle latency, 256-bit bus
Willamette256KB, ECC, 8-way set associative, 128byte-line (64byte/sector), write back, 7 clock cycle latency, 256-bit bus
L2 DTLBTejas-
Prescott, Northwood, WillametteFull associative, 64-entry, 4KB/4MB pages
L3 cacheFoster, Gallatin1, 2, 4MB, 8-way set associative, 128byte-line (64byte/sector, dual sectored line), write back, 14 clock cycle latency
Multi processingPrescott, Northwood, WillametteNot supported, 2 Local xAPICs
Multi threadingTejas2 SMT, Hyper-Threading Technology (speculative ?)
Prescott, Northwood, Prestonia, Gallatin, Foster MP2 SMT, Hyper-Threading Technology
Northwood, Willamette, FosterHyper-Threading Technology implemented, but not supported
Manufacturing technologyTejas90-nano CMOS, Strained Silicon
Prescott90-nano CMOS, Strained Silicon, 7-layer Cupper interconnect, Carbon-doped oxide (CDO) low-k dielectric material
Northwood0.13-micron CMOS, Cupper interconnect, SiOF low-k dielectric material
Willamette0.18-micron CMOS, 6-layer Al interconnect
Transistor countPrescott125M
Northwood55M, 168-169M (M0)
Willamette42M
Die sizePrescottA0 109sqmm, B0 112sqmm, C0 ?
NorthwoodB0 145sqmm, C1 136sqmm (131 ?), D1 131sqmm (136 ?), (M0 230sqmm ?, Gallatin: 237sqmm)
Willamette217sqmm
VID, TDPPrescottC0 3.6-3.2GHz 1.40-1.33V 103W typical TDP - Prescott FMB 1.5
C0 3-2.8GHz 1.30V 89W typical TDP - Prescott FMB
M0 NorthwoodM0 Multiple VID (Max. 1.600V), Vmax 1.425V 75.1W TDP for 2.40GHz, 78W TDP for 2.80GHz (1.475V, Iccmax 91A, VRTDC 81A, 93.9W TDP(TDP typical 103.9W - P4XE VRD) for P4XE 3.20GHz)
D1 NorthwoodD1 Max. 1.525-1.550V, 82W for P4 3.20GHz
NorthwoodB0 Max. 1.50-1.525V 62.6W for P4 2.6GHz, C1 Max. 1.50-1.525V 81.8W for P4 3.06GHz
Willamette1.70-1.75V, 75.3W for P4 mPGA478 2GHz
Package, Socket supportTejas, Prescott775 LandGridArray, Socket T
Prescott, Northwood, Willamette478-pin FlipChip-PinGridArray 2, mPGA478
Willamette423-pin PinGridArray (OOI), PGA423

クロックをさらに向上させるPrescott

  2004年2月に発表されたPrescottでは、Pentium 4の製品名を引き継ぎつつマイクロアーキテクチャに大きく変更が加えられました。 これは、少なくとも5GHzに到達するというクロックスケールを実現するためのパイプラインの拡張と、31段にもなるパイプラインが 性能に与える影響を最小限にするための改良とに大別して考えられます。

  中でも最も大きな変更点と言えるパイプラインの拡張などにより、IntelではPrescottのクロックスケールをNorthwoodの4倍にまで 高めると述べていました。動作クロックを向上するためにはまた、設計の自動化によるデータパスの最適化が行われているほか、 Strained Siliconや新素材のLow-k層間膜といったトランジスタの高速化技術も導入されています。

31段パイプラインを支えるBPU

  31段という非常に深いパイプライン構造を効率的に使用するため、Prescottでは分岐予測器 (BPU) やキャッシュ、 プリフェッチ、ストア-ロードフォーワード (Store-to-Load Forwarding) といった機能が強化されています。特にBPUは、静的分岐予測と 動的分岐予測ともに改良が加えられ、精度が向上していると言われます。

  動的分岐予測とは、前回までの分岐結果を分岐履歴表及びBTB (Branch Target Buffer) から参照し、これを用いて次回の 条件分岐を (分岐するか、しないか) 予測するものです。Prescottではここに、 新たに間接(二次)的分岐予測器 (Indirect Branch Predictor) が実装され、これにより動的分岐予測を補佐すると見られます。 この追加部分が具体的にどう働くのかは不明ですが、同様の機能はPentium Mプロセッサにも実装されており、 高い効果を得られるものと考えられそうです。

  過去の分岐結果を用いる動的分岐予測に対し、ある条件分岐に初めて遭遇したような場合には静的分岐予測器が判断を行います。 Northwoodまでの静的分岐予測器は、プログラムの後方に戻る条件分岐は分岐するものとして、前方にとぶものは分岐しないと判断していました。 これは、何回か処理を繰り返すような一般的なループにおいて有効ですが、後方分岐の中にはエラーを条件とするものも含まれます。 Prescottではこれらの分岐条件や分岐先までの距離を考慮、Intelでは分岐条件のうち幾つかの種類で殆ど分岐していないことを示しており、 これにより予測精度の改善を図ったとされています。

  BPUとともに、パイプラインを停止させないための改良としてストア-ロードフォーワードも強化されました。 Pentium 4はプログラムの命令を処理し易い順序に並び替えて実行するOut-of-Orderコアを持つプロセッサですが、データを書き込むストアに 関しては順序どおり (In-Order) に実行する必要があります。パイプランの深いPentium 4において、 データキャッシュへの書き込みは時間が掛かることが多いため、以降にそのデータを使用する処理がある場合には パイプラインが暫く停止する可能性がありました。ストア-ロードフォーワードは、このようなストアの直後に通常なら 書き込みを待つロード命令があったとき、条件が合致した場合に限ってデータをL1キャッシュに書き込む前にロードユニットへと転送する機能です。 Prescottではこの条件が改善されており、ストア後のレイテンシはこれまでより軽減されると言われています。

Intel Family 6 Desktop, Mobile Processors



Intel Family 6 Desktop/Mobile summary
 CodenameClockFSB/PSBL1/L2Ex.ProcessTrs.Die size
Pentium MDothan2.13-1.60GHz, 2-1.5GHz, 1.4-1.3GHz LV, 1.1-1GHz ULV533, 400MHz32+32KB/2MBSSE290nm140M87sqmm
Banias1.7-1.3GHz
1.2-1.1GHz LV
1-0.9GHz ULV
400MHz32+32KB/1MBSSE20.1377M-
Pentium IIITualatin1.26-1.1GHz133MHz16+16/256KBSSE0.13/644M80sqmm
Coppermine1.1-500MHz133, 100MHz16+16/256KBSSE0.18/628.1M106-90sqmm
Katmai600-450MHz100MHz16+16/512KB offSSE0.25/59.5M128sqmm
Mobile Pentium III-MTualatin1333-866MHz
1000-733MHz LV
933-700MHz ULV
133, 100MHz16+16/512KBSSE0.1344M80sqmm
Mobile Pentium III SpeedStepCoppermine1000-600MHz
750-600MHz LV
600-500MHz ULV
100MHz16+16/256KBSSE0.1828.1M106-90sqmm
Mobile Pentium IIICoppermine500-400MHz100MHz16+16/256KBSSE0.1828.1M106-90sqmm
CeleronTualatin1.4-0.9GHz100MHz16+16/256KBSSE0.1344M80sqmm
Coppermine1100-533MHz100, 66MHz16+16/128KBSSE0.1828.1M106-90sqmm
Mendocino533-300MHz66MHz16+16/128KBMMX0.25/519M154sqmm
Covington266-300MHz66MHz16+16KBMMX0.25/57.5M131-118sqmm
Mobile CeleronTualatin1.33-1GHz
733-650MHz LV
733-650MHz ULV
133, 100MHz16+16/256KBSSE0.1344M80sqmm
Coppermine933-400MHz133, 100MHz16+16/128KBSSE0.1828.1M106-90sqmm
Mendocino466-266MHz66MHz16+16/128KBMMX0.25/518.9M154sqmm
Pentium IIDeschutes450-266MHz100, 66MHz16+16/512KB offMMX0.25/57.5M131-118sqmm
Klamath300-233MHz66MHz16+16/512KB offMMX0.35/47.5M203sqmm
Mobile Pentium IIDixon400-266PEMHz, 233MHz LV66MHz16+16/256KBMMX0.25/527.4M180sqmm
Tonga300-233MHz66MHz16+16/512KB offMMX0.25/57.5M131-118sqmm

Intel Family 15 IA-64 Server Processors



Intel Family 15 Extension 1 Server summary
 CodeClockFSB/PSBL1/L2/L3Ex.ProcessTrs.Die size
Itanium 2Montecito1.5GHz+--/-/24MB-90nm1B+-
Deerfield1GHz400MHz16+16KB/256KB/1.5MB-0.13--
Madison 9M1.5GHz+400MHz-/-/9M-0.13500M+-
Madison1.5-1.3GHz400MHz16+16KB/256KB/[6MB/4MB/3MB/1.5MB]-0.13410M374sqmm
McKinley1GHz, 900MHz400MHz16+16KB/256KB/[3MB/1.5MB]-0.18221M421sqmm
ItaniumMerced800, 733MHz266MHz16+16KB/96KB/(4/2MB)-0.2525M/(300M)-

Intel Family 6 Server Processors



Intel Family 6 Server summary
 CodenameClockFSB/PSBL1/L2/L3Ex.ProcessTrs.Die size
Pentium III-STualatin1.4-1.13GHz133MHz16+16/512KBSSE0.1344M80sqmm
Pentium III XeonCascades1000-600MHz133, 100MHz16+16/[2M/1M/512K]SSE0.18140M385sqmm
Pentium III XeonTanner550-500MHz100MHz16+16/(2M/1M/512K)SSE0.2528.1M128sqmm
Pentium II XeonDrake450-400MHz100MHz16+16/(2M/1M/512K)MMX0.257.5M131-118sqmm
Pentium ProP6200-150MHz66MHz8+8/[1M/512K/256K cmp]-0.6/0.355.5M-

© 2002-2004 Septor.net
About Septor.net