Serwisy partnerskie:
Close icon
Serwisy partnerskie

Wokół Arduino: napisy i inne zakrętasy cz.4 - Jak numer znaku w unikod jest reprezentowany w UTF-8?

Przed miesiącem zapoznaliśmy się z unikodem i z podstawowymi zasadami kodu UTF-8. Dla uzyskania pełnego obrazu trzeba jeszcze wiedzieć, jak numer znaku w systemie unikod jest reprezentowany w UTF-8.
Article Image

Zacznijmy od tego, ze na wspomnianej przed miesiącem pożytecznej stronie znajdziemy tylko numery unikodu, ale nie ma tam informacji o kodach UTF-8. Także we współczesnych komputerach wykorzystywany jest unikod i w edytorze tekstu można łatwo sprawdzić numer unikodu danego znaku. Rysunek 5 to zrzut z ekranu podczas pracy z LibreOffice (OpenOffice). Ale też nie ma tam informacji o kodowaniu UTF-8.

Rys.5 Zrzut z ekranu podczas pracy z LibreOffice (OpenOffice)

Nie szkodzi! Znów sprawa jest dość prosta. Z jednobajtowymi kodami ASCII w ogóle problemu nie ma. W kodach dwubajtowych, jak już wiemy, trzy pierwsze bity w pierwszym bajcie i dwa w drugim są zawsze te same. Z szesnastu bitów pozostaje jedenaście, a jedenaście bitów pozwala zapisać liczby dwójkowe w zakresie 0...2047, czyli w zapisie dwójkowym 0...11111111111, szesnastkowo 0...7FF.

Nietrudno się więc domyślić, że w dwóch bajtach można zakodować znaki unikodu o numerach do U+7FF, natomiast dla wyższych numerów potrze...

Aby pobrać e-wydanie zawierające ten artykuł wykup prenumeratę
Kup teraz
Tematyka materiału: unikod, znaki ASCII
AUTOR
Źródło
Elektronika dla Wszystkich luty 2019
Udostępnij
UK Logo
Elektronika dla Wszystkich
Zapisując się na nasz newsletter możesz otrzymać GRATIS
najnowsze e-wydanie magazynu "Elektronika dla Wszystkich"