Redundantie verminderen
De essentie van datacompressie is het identificeren en verwijderen of efficiënter weergeven van overbodige (redundante) gegevens in een bestand. Dit kunnen herhalingen zijn van reeksen bits of andere niet-essentiële informatie.
Compressie-algoritme gebruiken
Om de redundantie te verminderen, is een specifiek algoritme (zoals Huffman-codering, Lempel-Ziv-Welch, ZIP of GZIP) nodig dat bepaalt hoe de gegevens worden geanalyseerd, gecomprimeerd en later weer gedecomprimeerd. Het juiste algoritme hangt vaak af van het type data.
Entropie van informatie
De entropie van informatie, vaak uitgedrukt in bits per symbool, is een cruciaal concept in datacompressie dat de theoretische ondergrens van compressie bepaalt. Het meet de inherente onvoorspelbaarheid of willekeurigheid van de gegevensbron. Data met een hoge entropie, zoals een volledig willekeurige reeks getallen, bevat weinig patronen of redundantie en is daardoor nauwelijks te comprimeren. Data met een lage entropie, zoals een tekst vol herhalingen, bevat juist veel voorspelbare informatie en kan efficiënt worden gecomprimeerd. Compressie-algoritmes streven ernaar om de gegevens zo dicht mogelijk bij deze theoretische entropielimiet te brengen door alle voorspelbaarheid te elimineren en alleen de werkelijk nieuwe informatie over te houden. Het benaderen van deze limiet is het ultieme doel van efficiënte compressie.