Informacje wstępne
Płyta Audio CD była zbyt „ciężka” dla raczkującego Internetu
Gdy Internet zaczął zdobywać popularność, zaczęto zastanawiać się nad sposobami cyfrowego przesyłania muzyki za pośrednictwem tego nowego medium. Szybko stało się jasne, że standard Audio CD – będący wówczas podstawową metodą cyfrowego zapisu dźwięku – absolutnie nie nadaje się do tego celu. Format Audio CD wykorzystuje próbki o szerokości 16 bitów oraz częstotliwość próbkowania 44 100 próbek na sekundę. Oznacza to, że jedna minuta muzyki o jakości Audio CD zajmuje:
44 100×2×2×60=10 584 000
bajtów danych. Wynika to z faktu, że objętość strumienia danych jest równa liczbie próbek pomnożonej przez dwa bajty na próbkę, dwa kanały stereo oraz 60 sekund.
Gdyby ktoś chciał pobrać taki plik przez raczkujący wówczas Internet, na przykład za pomocą nowoczesnego jak na tamte czasy modemu 28k8, zajęłoby to około 45 minut pobierania. I to tylko dla jednej minuty muzyki o jakości Audio CD.
Trzeba więc było opracować metodę znacznego zmniejszenia ilości danych cyfrowych bez nadmiernego pogarszania jakości dźwięku.
Rewolucja w elektronicznym zapisie dźwięku!
Przez cały okres rozwoju elektronicznego zapisu dźwięku – od skonstruowania pierwszego gramofonu aż po wprowadzenie płyty Audio CD – dążono do możliwie wiernego odwzorowania rzeczywistości. Sygnał elektryczny miał być jak najdokładniejszą reprezentacją fal dźwiękowych, które wcześniej wprawiły w drgania membranę mikrofonu.
W tym kontekście mówi się o „doskonałej reprezentacji”.
Jednak taka doskonała reprezentacja nie była możliwa w przypadku strumieniowego przesyłania dźwięku przez raczkujący Internet, ze względu na ograniczoną przepływność dostępnych łączy. Dlatego podczas opracowywania metod strumieniowania audio zdecydowano się na całkowicie nowe i rewolucyjne podejście. Zamiast „doskonałej reprezentacji” zastosowano „reprezentację percepcyjną”. Sygnał elektryczny NIE jest więc możliwie najwierniejszym odwzorowaniem oryginalnych drgań akustycznych. Jest to sygnał, który wywołuje w ludzkim słuchu wrażenie (percepcję), że słuchamy dźwięku pierwotnie zarejestrowanego przez mikrofon.
PASC: Precision Adaptive Sub-band Coding
W tym samym czasie firma Philips pracowała nad cyfrowym następcą popularnej kasety magnetofonowej. System ten otrzymał nazwę Digital Compact Cassette (DCC) i został wprowadzony w 1992 roku przez firmy Philips oraz Panasonic.
Również w tym przypadku konieczne było uzyskanie bardzo dużej redukcji strumienia danych przy jednoczesnym zachowaniu wysokiej jakości dźwięku.
W tym celu firma Philips opracowała algorytm PASC, będący skrótem od „Precision Adaptive Sub-band Coding”. Na język polski można to przetłumaczyć jako „precyzyjne adaptacyjne kodowanie w podpasmach”.
PASC oczywiście nie powstał znikąd, lecz bazował na wcześniejszych badaniach nad maskowaniem dźwięku prowadzonych przez Eindhoven University of Technology, francuski ośrodek CCETT, niemiecki Institut für Rundfunktechnik oraz Fraunhofer Society.
PASC zmniejszył przepływność danych dźwięku z płyty Audio CD do jednej czwartej pierwotnej wartości – z 1,4 Mbit/s do 384 kbit/s. Późniejsze rozwinięcia tego algorytmu pozwoliły uzyskać redukcję danych przekraczającą nawet dziesięciokrotność!
Duża redukcja ilości danych wprowadzona przez PASC wynika z jednej strony z percepcyjnego podejścia do dźwięku, a z drugiej z zastosowania kilku pozornie prostych, lecz bardzo pomysłowych rozwiązań technicznych.
System DCC firmy Philips okazał się całkowitą porażką rynkową, jednak zasady wykorzystane w algorytmie PASC zostały zaakceptowane na całym świecie i zastosowane praktycznie we wszystkich systemach kompresji danych audio.
Rozwiązania opracowane dla PASC wykorzystano między innymi w dobrze znanym formacie wideo MPEG-1 oraz jeszcze bardziej rozpowszechnionym formacie audio MP3.
Według dobrze poinformowanych źródeł firma Philips zarobiła około 500 milionów dolarów na patentach związanych z technologią PASC.
Zasady redukcji danych w algorytmie PASC
Redukcja danych według algorytmu PASC opiera się na następujących aspektach:
- próg słyszalności ludzkiego ucha,
- podział sygnału na podpasma,
- efekt maskowania w ludzkim słuchu,
- adaptacyjny przydział bitów,
- uśrednianie poziomu,
- ponowna alokacja kodów.
Aspekty te zostaną omówione w kolejnych rozdziałach.