Edukacja w EdW dla szkół i uczelni - wykład 40: Kompresja dźwięku MP3

Jos Verstraten

Kursy

Podstawy elektroniki

16 kwietnia 2026

276

Algorytm MP3, opracowany przez Fraunhofer Institut, pozwala przekształcić utwór zajmujący na płycie audio CD około 27,5 MB w plik o wielkości zaledwie 2,5 MB – przy zachowaniu niemal tej samej jakości dźwięku. Osiągnięcie takiego efektu wymaga jednak zastosowania zaawansowanych metod przetwarzania sygnału. Od redakcji: Powyższy opis stanowi uproszczony model działania kompresji MP3. W rzeczywistości algorytm MPEG-1/2 Audio Layer III opiera się na hybrydowym banku filtrów (polyphase + MDCT), zaawansowanym modelu psychoakustycznym oraz kwantyzacji współczynników widmowych połączonej z kodowaniem Huffmana. Przedstawione w artykule mechanizmy, takie jak DCT, „odczyt zygzakowy” czy klasyczne RLE, mają charakter poglądowy i służą zilustrowaniu ogólnych idei cyfrowego przetwarzania sygnałów.

Poprzednia część

Spis treści

Następna część

Rozwiń cały spis treści Zwiń spis treści

Próbkowanie liniowe 2×16 bitów

Na początku prac nad płytą audio CD pojawiło się pytanie, z jaką rozdzielczością bitową należy próbkować dźwięk, aby uzyskać jakość porównywalną z analogową. Po przeprowadzeniu szeroko zakrojonych eksperymentów – z udziałem orkiestr, nagrań z płyt winylowych oraz materiałów cyfrowych – między innymi przez Philips w sali Concertgebouw w Amsterdam, stwierdzono, że stereofoniczny sygnał analogowy próbkowany z rozdzielczością 2×16 bitów zapewnia po odtworzeniu jakość akceptowalną dla większości słuchaczy.

Parametr 2×16 bitów stał się standardem digitalizacji dźwięku w zastosowaniach nieprofesjonalnych. Wykorzystano go nie tylko w formacie audio CD, lecz również w popularnym formacie plików WAV, obsługiwanym standardowo przez system Microsoft Windows.

44 100 próbek na sekundę

Drugim istotnym zagadnieniem było określenie, ile próbek o rozdzielczości 2×16 bitów należy rejestrować w ciągu sekundy, aby zachować wysoką jakość dźwięku. Również w tym zakresie przeprowadzono liczne eksperymenty, w wyniku których – jako rozsądny kompromis – przyjęto standardową częstotliwość próbkowania wynoszącą 44 100 próbek na sekundę.

Próbkowanie liniowe

Trzecim elementem przyjętego standardu było założenie, że w strumieniu danych nie stosuje się żadnej formy redukcji informacji. Oznacza to, że chwilowe wartości analogowych sygnałów audio lewego i prawego kanału są zawsze przetwarzane 44 100 razy na sekundę na kody cyfrowe o rozdzielczości 2×16 bitów.

Nawet jeśli w nagraniu występuje bardzo cichy fragment, który teoretycznie można by zapisać przy użyciu mniejszej liczby bitów, i tak rejestrowane są pełne próbki 2×16 bitów z niezmienną częstotliwością próbkowania.

Takie podejście nazywa się próbkowaniem liniowym. Jego zaletą jest prostota realizacji technicznej. Wadą – bardzo duża ilość danych: jedna sekunda dźwięku generuje strumień o przepływności aż 1 411 200 bitów, czyli około 1,4 Mb.

Dla wielu zastosowań to zdecydowanie za dużo

Strumień danych o przepływności 1,4 Mb/s można było jeszcze – z pewnym zapasem – zapisywać i odczytywać z płyty audio CD. Jednak wraz ze wzrostem zapotrzebowania na przesyłanie dźwięku za pośrednictwem sieci teleinformatycznych tak duża ilość danych stała się istotnym ograniczeniem.

Pojawiła się potrzeba opracowania systemu, który umożliwi digitalizację dźwięku przy znacznie mniejszej przepływności, bez wyraźnego pogorszenia jego jakości.

MP3 opracowane przez Fraunhofer Institut

Rozwiązanie tego problemu – format MP3 – zostało opracowane w 1991 roku przez Fraunhofer Institut we współpracy z University of Erlangen–Nuremberg. MP3 pozwala zmniejszyć rozmiar plików WAV nawet 10…12-krotnie, bez zauważalnej utraty jakości dźwięku. Po konwersji do MP3 przepływność danych spada typowo do około 117,7 kb/s.

W przypadku niższych wymagań jakościowych – na przykład przy transmisji mowy o jakości zbliżonej do telefonicznej – MP3 może zmniejszyć strumień danych nawet 96-krotnie w stosunku do formatu WAV.

Utwór Tom’s Diner autorstwa Suzanne Vega był pierwszym nagraniem wykorzystanym do testowania jakości formatu MP3 i udoskonalania algorytmu kompresji. Po każdej modyfikacji algorytmu odsłuchiwano ten utwór, zwracając szczególną uwagę na to, aby subtelne cechy głosu wokalistki nie ulegały pogorszeniu.

Wybrano go ze względu na niemal monofoniczny charakter oraz szerokie widmo częstotliwości, co ułatwiało wychwycenie niedoskonałości algorytmu kompresji podczas odsłuchu.

Moving Picture Experts Group

Moving Picture Experts Group (MPEG) – międzynarodowa organizacja opracowująca standardy cyfrowego wideo – włączyła format MP3 do swoich standardów MPEG-1, a później także MPEG-2.

W tych standardach dane dźwiękowe MP3 są określane odpowiednio jako MPEG-1 Audio oraz MPEG-2 Audio.

MP3 staje się standardem międzynarodowym

7 lipca 1994 roku Fraunhofer Institut udostępnił pierwszy programowy koder MP3 o nazwie l3enc. Dzięki temu praktycznie każdy mógł rozpocząć konwersję plików WAV oraz nagrań z płyt audio CD do formatu MP3.

Rozszerzenie plików .mp3 zostało wprowadzone 14 lipca 1995 roku przez zespół Fraunhofera – wcześniej stosowano rozszerzenie .bit. Już 9 września 1995 roku pojawił się pierwszy programowy dekoder MP3 działający w czasie rzeczywistym –

WinPlay3 – który umożliwił odtwarzanie plików MP3 na zwykłym komputerze PC.

Format MP3 stał się powszechnym standardem przesyłania i odtwarzania dźwięku cyfrowego wraz z pojawieniem się popularnego odtwarzacza Winamp firmy Nullsoft, wydanego w 1997 roku. Program ten przez wiele lat był jednym z najczęściej używanych odtwarzaczy na komputerach z systemem Windows.

W listopadzie tego samego roku uruchomiono serwis MP3.com, z którego można było bezpłatnie pobierać tysiące utworów w formacie MP3. Sukces tej oraz wielu podobnych stron wynikał z niewielkich rozmiarów plików MP3, które można było szybko pobierać, zachowując przy tym dobrą jakość dźwięku.

W tym okresie pojawiło się również pojęcie „piractwa muzycznego”, wprowadzone przez wydawców fonograficznych w odpowiedzi na spadek przychodów oraz rosnącą skalę nielegalnego udostępniania plików MP3, co doprowadziło do licznych sporów prawnych.

W 1998 roku firma SaeHan Information Systems wprowadziła na rynek pierwszy przenośny cyfrowy odtwarzacz audio typu solid-state – MPMan.