Base64 i Base64URL: podobny algorytm, inny kontrakt

Base64 i Base64URL wykorzystują ten sam pomysł: bajty są dzielone na grupy po sześć bitów, a każda grupa otrzymuje znak z alfabetu liczącego 64 pozycje. Różnica dotyczy zaledwie kilku znaków, ale ma duże znaczenie w adresach internetowych. Standardowy alfabet koliduje ze składnią ścieżek i query stringów, dlatego wariant URL-safe stosuje znaki o spokojniejszym znaczeniu transportowym.

Standardowy alfabet spotyka składnię URL

Klasyczne Base64 używa plusa i ukośnika, a znak równości służy jako padding. W adresie ukośnik rozdziela segmenty ścieżki. Parser formularzowy może zamienić plus na spację, a równość rozdziela nazwę parametru od wartości.

Percent-encoding potrafi zabezpieczyć te znaki, ale wydłuża wartość i dodaje następną warstwę transformacji. Base64URL zastępuje plus minusem, ukośnik podkreśleniem i często usuwa końcowy padding.

Bajty po dekodowaniu są takie same

Litery i cyfry zajmują te same pozycje w obu alfabetach, więc wiele przykładów wygląda identycznie. Różnica ujawnia się dopiero, gdy sześciobitowa grupa wskazuje jedną z dwóch ostatnich pozycji. Test z wygodnym słowem może nigdy tego nie pokazać.

Zestaw testów powinien celowo generować +, /, - oraz _, a także wejścia wymagające jednego i dwóch znaków paddingu. Inaczej błędny koder może przejść wszystkie przykłady i zawieść dopiero w produkcji.

Padding jest częścią tekstowego formatu

Standard Base64 zwykle dopełnia długość do wielokrotności czterech. Wiele specyfikacji Base64URL wymaga formy bez znaków równości. Dekoder może obliczyć brakujące dopełnienie z reszty długości i dodać je wewnętrznie.

Nie oznacza to, że każda forma powinna być akceptowana. Protokół potrzebuje postaci kanonicznej, ponieważ cache, porównania i podpisy pracują na konkretnym stringu.

JWT jest najbardziej znanym przykładem

JSON Web Token zawiera trzy segmenty oddzielone kropkami. Header, payload i podpis są reprezentowane jako Base64URL bez typowego paddingu. Taka postać dobrze przechodzi przez nagłówki HTTP, cookies i linki.

Claims nie są przez to tajne. Każdy posiadacz tokena może odczytać header i payload. Podpis służy do wykrycia zmian, a poufność wymaga osobnego szyfrowania lub innego formatu.

Podpis zależy od dokładnego stringa

W JWT podpis obejmuje zakodowany header, kropkę i zakodowany payload. Ponowna serializacja JSON może zmienić kolejność pól albo whitespace, a dodanie paddingu zmienia znaki. Taki tekst daje inny podpis, nawet jeśli dane logiczne wydają się równoważne.

Weryfikator powinien używać oryginalnych segmentów zgodnie ze specyfikacją, a nie dekodować i budować token na nowo. Biblioteka Base64 nie zastępuje pełnej walidacji JWT.

Cookie i query mają własne zagrożenia

URL-safe nie znaczy bezpieczny. Token w query trafia do historii przeglądarki, logów, analityki i czasem nagłówka Referer. Cookie podlega limitom rozmiaru i wymaga odpowiednich atrybutów bezpieczeństwa.

Wariant alfabetu rozwiązuje konflikt składni, nie problem przechowywania sekretu. Wrażliwe credentials powinny korzystać z właściwego kanału i krótkiego cyklu życia.

Nazwy plików też mają więcej reguł

Brak ukośnika pomaga w nazwach plików i kluczach object storage. Nadal pozostają limity długości, case sensitivity i normalizacja zależna od platformy. Base64URL nie jest kompletną gwarancją przenośnej nazwy.

Dla hashy zapis szesnastkowy bywa dłuższy, ale bardziej czytelny w narzędziach. Wybór reprezentacji powinien uwzględniać obsługę operacyjną, nie tylko liczbę znaków.

API musi nazwać wariant wprost

Opis „pole zawiera Base64” nie wystarcza, jeśli odbiorca ma użyć URL-safe bez paddingu. Schema, dokumentacja i SDK powinny mówić base64url oraz podawać przykłady z różniącymi znakami.

To, że API działa przez HTTPS, nie przesądza wariantu. Pole JSON może zgodnie z kontraktem zawierać standardowe Base64. Liczy się definicja pola, a nie ogólny transport requestu.

Cicha zamiana znaków może ukryć uszkodzenie

Popularny adapter zamienia minus i podkreślenie na standardowe znaki, uzupełnia padding i uruchamia zwykły dekoder. Jest to poprawne, jeśli wcześniej sprawdzono alfabet i długość. Usuwanie dowolnych „dziwnych” znaków tworzy niebezpiecznie tolerancyjny parser.

Nieprawidłowe wejście powinno zostać odrzucone. Kompatybilnościowa normalizacja należy do jednej jawnej granicy, a nie do wielu warstw logiki biznesowej.

Podwójne URL-decoding komplikuje diagnozę

Standardowe Base64 w query może zostać zmienione, zanim kod aplikacji zobaczy wartość. Plus przechodzi w spację, a percent-encoding jest rozwijany przez framework. Kolejny ręczny decode czasem naprawia jeden przypadek i psuje inny.

Podczas analizy warto porównać adres wysłany przez klienta, surowy request target, parametr po parsowaniu i bajty przed Base64 decode. Wtedy widać, która warstwa zmieniła znak.

Kanoniczna forma upraszcza bazę i cache

Jeżeli system akceptuje padded i unpadded jako dwa klucze, może zapisać ten sam logiczny identyfikator dwukrotnie. Po udanej walidacji warto przejść do jednej reprezentacji dla porównań biznesowych.

Wyjątkiem są protokoły podpisane, gdzie oryginalny tekst należy zachować do weryfikacji. Model powinien rozróżniać tożsamość zdekodowanych bajtów od dokładnej podpisanej postaci.

Migracja potrzebuje okresu mieszanego

Przejście istniejącego pola na Base64URL nie zmienia automatycznie starych danych i klientów. Serwer może czasowo akceptować oba warianty, mierzyć użycie i zawsze zwracać nową formę kanoniczną. Inna opcja to wersjonowanie kontraktu.

Nie należy wykonywać globalnej zamiany znaków w nieznanych stringach. Transformacja ma sens tylko w polu, którego semantyka i wcześniejszy wariant są pewne.

Wariant wynika z otaczającego formatu

Standardowe Base64 pozostaje właściwe w MIME, PEM i wielu istniejących API. Base64URL jest właściwe w JWT oraz wartościach, które specyfikacja definiuje jako URL-safe. Żaden wariant nie jest bardziej zaszyfrowany ani kryptograficznie silniejszy.

Gdy alfabet, padding i postać kanoniczna są zapisane w kontrakcie, oba formaty są proste i przewidywalne. Kilka zmienionych znaków ma znaczenie właśnie dlatego, że po drodze działa wiele innych parserów.