重複排除

Microsoft

重複排除機能

Windows Server 2012 R2 の重複排除機能では、ファイルを可変サイズの小さなブロックに分割し、ビットパターンを作ります。ファイルを細かく分割した1つ1つをチャンクと呼び、ビットパターンをスクラブと呼びます。

システム側では、同じビットパターンのチャンクがあった場合に、スクラブの番号だけを書き込み、データは削除してしまいます。ファイルは、チャンクストアに存在するチャンクの並び順が登録されている仮想的なファイル（実際にデータを持たないインデックスのようなもの）となります。こうした仕組みにより、ストレージ全体でデータの保存容量を削減できるようにしています。

こうしたブロックレベルの重複排除は、ファイルレベルの重複排除と比べると、効率よく容量を圧縮してくれます。実際に、ファイルサーバーなどでは50％近い容量圧縮を示し、仮想ディスク（VHD）などでは、80％以上の容量圧縮を示すこともあります。

※データ重複排除機能の制限
データ重複排除機能には、利用する上でいくつかの制限があります。まず、データ重複排除ができるストレージは、NTFSフォーマットのボリュームに限られています。Windows Server 2012で新しく搭載された新しいファイルシステムのReFSはサポートされていません。

システムボリュームやブートボリューム、SIS（単一インスタンス・ストア）ボリュームについても、データ重複排除は行われませんし、暗号化されたファイル、64KBよりも小さいファイルなどは、データ重複排除の対象にはなりません。

また、高額なストレージシステムのようにリアルタイムでのデータ重複排除は行いません。これは、データ重複排除がストレージやCPUに対して大きな負荷をかけるためです。リアルタイムのデータ重複排除を行うと、ほかのジョブに大きな影響を与えてしまうことを懸念し、週末や夜間などに、スケジューリングでデータ重複排除を動かすようにしています。