L'ultimo aggiornamento di maximumcompression.com è giugno 2011 (risposta aggiornata a ottobre 2015)
Pertanto questo sito Web non menziona
l'attuale compressore di testo campione in tutto il mondo :
cmix
Concorsi/Benchmark:
- enwiki6
Compressione del 18,2% del file di testo da 1 MB enwik6 - Calgary
Compressione del 17,6% dei 14 file del corpus di Calgary (file tar da 3 GB) - Premio Hutter
Compressione del 15,7% del file di testo da 100 MB enwik8
(macmix
non è il vincitore perché richiede troppa RAM, più di 20GB) - Benchmark di compressione open source Silesia
Compressione del 15,7% del 202 MB di Silesia corpus - Benchmark di compressione del testo grande
Compressione del 12,4% del file di testo da 1 GB enwik9
Dettagli:
Byron Knoll sta attivamente sviluppando cmix
come software libero (GPL) dal 2013 basato sul libro Data Compression Explained di Matt Mahoney. Matt Mahoney mantiene anche alcuni dei benchmark di cui sopra e propone ZPAQ (WP), un archiviatore incrementale da riga di comando.
Se preferisci uno strumento più standard (che richiede meno RAM) ti consiglio:
lrzip
lrzip
è un'evoluzione di rzip
di Con Kolivas.
lrzip
sta per due nomi:CAP a lungo raggio e Lzma RZIP .
lrzip
è spesso migliore di xz
(un altro popolare strumento di compressione).
Anche Alexander Riccio consiglia lrzip
.
Il mio preferito è:
zpaq
L'"esperto di archivi" , Matt Mahoney, ha lavorato intensamente sugli algoritmi PAQ per dieci anni e fornisce il miglior compromesso tra risorse CPU/memoria e livello di compressione.
Tuttavia, l'ultimo zpaq
la versione non è spesso impacchettata/disponibile sulla recente distribuzione :-(
Lo compilo sempre dai sorgenti quando ho una nuova macchina e ho bisogno di un ottimo compressore:https://github.com/zpaq/zpaq
clone https://github.com/zpaq/zpaq
cd zpaq
g++ -O3 -march=native -Dunix zpaq.cpp libzpaq.cpp -pthread -o zpaq
Normalmente, bz2 ha un rapporto di compressione migliore, combinato con migliori caratteristiche di recuperabilità.
OTOH, gz è più veloce.
si dice che xz sia persino migliore di bz2, ma non conosco il comportamento temporale.
Forse potresti dare un'occhiata a quei benchmark, in particolare alla parte che testa la compressione dei file di registro.