Supponendo che la tua domanda riguardi la deduplicazione dei dati, ci sono alcuni file system che la supportano su Linux:
- ZFS, con deduplicazione online (quindi i dati vengono deduplicati mentre vengono archiviati), ma con requisiti di memoria estremi che rendono la funzionalità difficile da usare nella pratica;
- Btrfs, con "solo" deduplicazione fuori banda, anche se con processi strettamente integrati che forniscono una deduplicazione ragionevolmente rapida dopo l'archiviazione dei dati;
- SquashFS, ma probabilmente non soddisfa i tuoi requisiti perché è di sola lettura.
XFS dovrebbe ottenere la deduplicazione a un certo punto e anche Btrfs dovrebbe ottenere la deduplicazione online.
Tieni d'occhio il confronto del file system di Wikipedia per vedere quando cambia.
Il file system S3QL ha la deduplicazione a livello di blocco. È promosso come una soluzione di archiviazione cloud S3, ma funziona molto bene anche sull'archiviazione locale.
Ecco un esempio da una parte del nostro server di backup/archivio
s3qlstat /path/to/some/archives
Directory entries: 12430247
Inodes: 6343756
Data blocks: 1357349
Total data size: 12.4 TB
After de-duplication: 3.84 TB (30.92% of total)
After compression: 3.71 TB (29.84% of total, 96.52% of de-duplicated)
Database size: 1.29 GiB (uncompressed)
Cache size: 0 bytes, 0 entries
Cache size (dirty): 0 bytes, 0 entries
Queued object removals: 0
L'archiviazione sottostante utilizzata da questo filesystem
df -h /var/s3ql/part-of-archive
Filesystem Size Used Avail Use% Mounted on
/dev/sde 6.0T 3.8T 2.0T 66% /var/s3ql/part-of-archive
Questo mi dice che l'archiviazione sottostante utilizza poco meno di 4 TB, ma che memorizza circa 12 TB di dati deduplicati. (I miei archivi contengono molti blocchi duplicati. Non sorprende che spero.) Il livello di compressione è disabilitato qui; se avessi utilizzato un vero storage S3, l'avrei lasciato abilitato.
Il database SQLite che gestisce il filesystem stesso è poco più di 1 GB, che è abbastanza grande, ma poiché lo sto usando per l'archiviazione piuttosto che per l'uso in produzione ad alta richiesta va bene.