Was Ist Dateientropie?

Was Ist Dateientropie?
Was Ist Dateientropie?

Video: Was Ist Dateientropie?

Video: Was Ist Dateientropie?
Video: 34C3 ChaosWest - In der Weihnachtsbäckerei - Data Science und Kekse 2024, April
Anonim

Jede Computerdatei besteht aus Bytes. Ein Byte kann Werte von 0 bis 255 annehmen. Informationsentropie ist ein statistischer Parameter, der die Auftrittswahrscheinlichkeit bestimmter Bytes in einer Datei angibt.

Was ist Dateientropie?
Was ist Dateientropie?

Sie können den Entropiegrad visuell anhand eines Histogramms beurteilen - der Verteilung der Wahrscheinlichkeit, dass dieselben Bytes in einer Datei wiederholt werden. Aus der Entropie der Datei können wir erraten, welcher Dateityp vor uns liegt, da wir nur ihr Histogramm sehen.

Zur Veranschaulichung nehmen wir drei Dateien unterschiedlichen Typs und vergleichen ihre Histogramme. Die erste sei eine Textdatei (*. TXT). Sein Histogramm ist in der Abbildung dargestellt:

гистограмма=
гистограмма=

Die Textdatei enthält nur Text. Jedes Zeichen des Textes wird gemäß der Codierungstabelle mit bestimmten Bytes codiert. Obwohl es eine große Anzahl von Codierungsarten gibt, ist es offensichtlich, dass es eine begrenzte Anzahl von alphanumerischen Zeichen gibt, die normalerweise weniger als 255 beträgt. Daher werden nur einige Bereiche auf dem ersten Histogramm belegt und einige Bytes überhaupt nicht.

Die folgende Datei wird im PDF-Format vorliegen:

гистограмма=
гистограмма=

Diese Datei enthält alle möglichen Bytes, da PDF anders codiert ist als Textdateien. Es speichert viele Serviceinformationen: Formatierung, Schriftarten, Bilder usw. Aber sein Histogramm zeigt, dass einige der Bytes mit ungefähr gleicher Wahrscheinlichkeit auftreten, während andere - viel häufiger als andere - auftreten. Daher die vielen scharfen Bursts auf dem Histogramm, und im Allgemeinen sieht es ziemlich "zerlumpt" aus, obwohl es die gesamte verfügbare Breite einnimmt.

Und die letzte Datei ist im 7Z-Format gezippt:

гистограмма=
гистограмма=

Dieses Histogramm hat zwei Hauptmerkmale: Erstens werden alle Bytes mit mehr oder weniger gleicher Wahrscheinlichkeit in der gezippten Datei gefunden (ein ziemlich flacher oberer Rand), und zweitens gibt es praktisch keinen freien Platz über dem Histogramm, was auf eine fast vollständige Abwesenheit hindeutet der Redundanz eine solche Datei. Daraus können wir schließen, dass der Algorithmus des Archivierers auf besondere Weise die Bytes der Datei "mischt", um ihre maximale gleichmäßige Verteilung zu erreichen.

So ist die Entropie in der Informatik wie in der Physik ein Maß für die Unordnung im System, in diesem Fall die Unordnung in der Verteilung der Bytes in der Datei. Mit Entropie können Sie den Komprimierungsgrad der Datei und - indirekt - ihren Typ beurteilen.

Empfohlen: