GNU/Linux >> Linux Esercitazione >  >> Linux

Quale metodo di archiviazione è migliore per comprimere i file di testo su Linux?

L'ultimo aggiornamento di maximumcompression.com è giugno 2011 (risposta aggiornata a ottobre 2015)
Pertanto questo sito Web non menziona
l'attuale compressore di testo campione in tutto il mondo :

      cmix

Concorsi/Benchmark:

  • enwiki6
    Compressione del 18,2% del file di testo da 1 MB enwik6
  • Calgary
    Compressione del 17,6% dei 14 file del corpus di Calgary (file tar da 3 GB)
  • Premio Hutter
    Compressione del 15,7% del file di testo da 100 MB enwik8
    (ma cmix non è il vincitore perché richiede troppa RAM, più di 20GB)
  • Benchmark di compressione open source Silesia
    Compressione del 15,7% del 202 MB di Silesia corpus
  • Benchmark di compressione del testo grande
    Compressione del 12,4% del file di testo da 1 GB enwik9

Dettagli:
Byron Knoll sta attivamente sviluppando cmix come software libero (GPL) dal 2013 basato sul libro Data Compression Explained di Matt Mahoney. Matt Mahoney mantiene anche alcuni dei benchmark di cui sopra e propone ZPAQ (WP), un archiviatore incrementale da riga di comando.

Se preferisci uno strumento più standard (che richiede meno RAM) ti consiglio:

      lrzip

lrzip è un'evoluzione di rzip di Con Kolivas.
lrzip sta per due nomi:CAP a lungo raggio e Lzma RZIP .
lrzip è spesso migliore di xz (un altro popolare strumento di compressione).
Anche Alexander Riccio consiglia lrzip .

Il mio preferito è:

      zpaq

L'"esperto di archivi" , Matt Mahoney, ha lavorato intensamente sugli algoritmi PAQ per dieci anni e fornisce il miglior compromesso tra risorse CPU/memoria e livello di compressione.

Tuttavia, l'ultimo zpaq la versione non è spesso impacchettata/disponibile sulla recente distribuzione :-(
Lo compilo sempre dai sorgenti quando ho una nuova macchina e ho bisogno di un ottimo compressore:https://github.com/zpaq/zpaq

clone https://github.com/zpaq/zpaq
cd zpaq
g++ -O3 -march=native -Dunix zpaq.cpp libzpaq.cpp -pthread -o zpaq

Normalmente, bz2 ha un rapporto di compressione migliore, combinato con migliori caratteristiche di recuperabilità.

OTOH, gz è più veloce.

si dice che xz sia persino migliore di bz2, ma non conosco il comportamento temporale.


Forse potresti dare un'occhiata a quei benchmark, in particolare alla parte che testa la compressione dei file di registro.


Linux
  1. Usa anacron per un crontab migliore

  2. Come unire due file di testo in Linux

  3. Guida completa per l'utilizzo di AsciiDoc in Linux

  4. Quale software di compressione file per Linux offre la massima riduzione delle dimensioni?

  5. Linux:quale applicazione utilizzare per un calendario?

Compressione e archiviazione di file e directory

Risparmia spazio comprimendo file e cartelle in Linux

Trova testo nei file su Linux usando grep

Dropbox configurato per un server cloud Linux

Ubuntu vs Arch:quale distribuzione Linux è migliore?

Hardware del terminale di testo (per Linux)