Co Je To Entropie Souboru

Co Je To Entropie Souboru
Co Je To Entropie Souboru

Video: Co Je To Entropie Souboru

Video: Co Je To Entropie Souboru
Video: Лорри Фэйт Крэнор: Что не так с вашим паролем? 2024, Duben
Anonim

Jakýkoli počítačový soubor je tvořen bajty. Bajt může nabývat hodnot od 0 do 255. Informační entropie je statistický parametr, který ukazuje pravděpodobnost výskytu určitých bytů v souboru.

Co je to entropie souboru
Co je to entropie souboru

Stupeň entropie můžete vizuálně posoudit pomocí histogramu - rozdělení pravděpodobnosti opakování stejných bajtů v souboru. Z entropie souboru můžeme uhodnout, jaký typ souboru je před námi, vidíme pouze jeho histogram.

Pro demonstraci si vezměme tři soubory různých typů a porovnejme jejich histogramy. První musí být textový soubor (*. TXT). Jeho histogram je zobrazen na obrázku:

гистограмма=
гистограмма=

Textový soubor obsahuje pouze text. Každý znak textu je kódován určitými bajty v souladu s kódovací tabulkou. I když existuje velké množství typů kódování, je zřejmé, že existuje omezený počet alfanumerických znaků, což je obvykle méně než 255. Proto jsou na prvním histogramu obsazeny pouze některé oblasti a některé bajty nejsou vůbec.

Následující soubor bude ve formátu PDF:

гистограмма=
гистограмма=

Tento soubor obsahuje všechny možné bajty, protože PDF je kódováno odlišně od textových souborů. Ukládá mnoho servisních informací: formátování, písma, obrázky atd. Jeho histogram však ukazuje, že některé bajty se vyskytují s přibližně stejnou pravděpodobností, zatímco jiné - mnohem častěji než jiné. Odtud plyne několik ostrých výbojů na histogramu a obecně má spíše „drsný“vzhled, i když zabírá celou dostupnou šířku.

A poslední soubor je zazipován ve formátu 7Z:

гистограмма=
гистограмма=

Tento histogram má dva hlavní rysy: za prvé, všechny bajty se nacházejí v souboru se zipem s více či méně stejnou pravděpodobností (poměrně plochý horní okraj) a za druhé, nad histogramem není prakticky žádné volné místo, což naznačuje téměř úplnou absenci redundance takový soubor. Můžeme tedy dojít k závěru, že algoritmus archivátoru nějakým zvláštním způsobem „mísí“bajty souboru za účelem dosažení jejich maximální rovnoměrné distribuce.

Entropie ve vědě o počítačích, stejně jako ve fyzice, je tedy měřítkem poruchy v systému, v tomto případě poruchy distribuce bytů v souboru. Entropy umožňuje posoudit stupeň komprese souboru a - nepřímo - o jeho typu.

Doporučuje: