🔒

Dlaczego nie powinieneś wgrywać PDF-ów do losowych narzędzi online

Narzędzia online do PDF-ów są niezwykle wygodne - i jednym z najcichszych źródeł wycieków dokumentów. Oto co naprawdę dzieje się z twoimi plikami i jak zachować bezpieczeństwo.

· 7min czytania

Znasz tę sytuację: trzy PDF-y do połączenia, mail za pół godziny. Wpisujesz w Google “scal PDF online”, klikasz pierwszy wynik, wrzucasz pliki, pobierasz połączony wynik i wracasz do swoich spraw. Łączny czas: 90 sekund.

Czego mogłeś nie brać pod uwagę - kto jeszcze właśnie dotknął twoich dokumentów. Ten wpis to praktyczne omówienie mechaniki prywatności narzędzi online do PDF-ów: co dzieje się, gdy klikasz “upload”, kto widzi plik, jak długo jest przechowywany i dlaczego to ma znaczenie.

Dla większości ludzi przez większość czasu wgrywanie jest OK. Ale są konkretne kategorie dokumentów, dla których to zły pomysł - i istnieje darmowa alternatywa (przetwarzanie w przeglądarce), która całkowicie eliminuje ryzyko.

Co naprawdę dzieje się po uploadzie

Gdy przeciągasz PDF do typowego narzędzia online:

  1. Twoja przeglądarka transmituje plik przez HTTPS na serwer narzędzia. Szyfrowanie w tranzycie to standard.
  2. Serwer zapisuje plik na dysku, zwykle w katalogu tymczasowym z losowym ID.
  3. Proces backendowy czyta plik i wykonuje operację - scala, konwertuje, kompresuje, dzieli.
  4. Wyjście jest zapisywane na dysku w tym samym obszarze tymczasowym.
  5. Serwer wysyła ci link do pobrania, często z krótkotrwałym tokenem.
  6. Pliki są w końcu usuwane - zwykle w ciągu 1-24 godzin, czasem dłużej.

W krokach 2-6 twój dokument istnieje na czyjejś infrastrukturze, zwykle współdzielonym serwerze chmurowym. Cokolwiek dotyka tego serwera - własny kod narzędzia, pracownicy z dostępem, system backupów, pipeline logujący, atakujący, który zbreachuje usługę - ma dostęp do twojego pliku. To jest prawda dla zasadniczo każdego narzędzia online. Nie złowrogi zamysł - po prostu jak działają aplikacje webowe.

Co naprawdę obiecuje polityka prywatności

Większość narzędzi online do PDF-ów ma politykę mówiącą jedną z tych rzeczy:

  • “Pliki są usuwane w ciągu 1 godziny” (te lepsze)
  • “Pliki są usuwane w ciągu 24 godzin” (typowe)
  • “Pliki są usuwane po przetworzeniu” (mgliste; zwykle wciąż znaczy 1+ godzin)
  • Brak konkretnej obietnicy (najgorsze)

Wyraźnie nieobecne w większości polityk: czy backupy przechowują plik dłużej niż główny storage (prawie zawsze tak), czy pracownicy mogą uzyskać dostęp w okresie retencji (zwykle tak, dla debugowania), czy metadane pliku są logowane osobno i trzymane dłużej (często tak - nazwy plików, rozmiary, znaczniki czasu, adresy IP), czy zawartość jest analizowana dla ulepszania produktu lub trenowania AI (niektóre narzędzia tak, niektóre nie).

Dla losowego PDF-a z przepisem nic z tego nie ma znaczenia. Dla poufnego kontraktu absolutnie ma.

Jak naprawdę może wyciec twój dokument

Są trzy prawdopodobne drogi.

Usługa celowo zbiera dane. Niektóre darmowe narzędzia istnieją konkretnie po to, żeby zbierać zawartość. Model biznesowy: “darmowe narzędzie, płatny dataset”. Rzadkie wśród topowych wyników (zwykle to legalne usługi wspierane reklamami), ale powszechne wśród długiego ogona mniejszych narzędzi. Bez audytu kodu i konfiguracji serwera nie możesz stwierdzić, które jest które.

Naruszenie bezpieczeństwa. Usługi są łamane. W 2020 roku popularne narzędzie online do PDF-ów serwowało pliki z przewidywalnymi URL-ami - strona trzecia mogła pobierać cudze dokumenty, po prostu zgadując. Podobne problemy zdarzały się wielokrotnie w różnych usługach. Nawet jeśli sama usługa jest w pełni legalna, pliki leżące na jej dysku są celem.

Dostęp pracowników. Dla debugowania, wsparcia klienta lub ulepszania produktu pracownicy większości narzędzi mogą uzyskać dostęp do wgranych plików w okresie retencji. Większość pracowników jest godna zaufania - wystarczy jeden, który nie jest.

Które dokumenty mają znaczenie

Zdecydowanie nie wgrywaj:

  • Podpisanych kontraktów i umów prawnych
  • Dokumentów podatkowych, wyciągów finansowych, faktur z danymi bankowymi
  • Dokumentacji medycznej i ubezpieczeniowej
  • Dokumentów tożsamości, skanów paszportów
  • Wszystkiego objętego klauzulą poufności
  • Wewnętrznych dokumentów firmy oznaczonych jako poufne
  • Danych osobowych pracowników (RODO, HIPAA itd.)
  • Wszystkiego z numerami PESEL, numerami kart kredytowych lub innym bezpośrednim PII

Prawdopodobnie OK:

  • Publicznych raportów, whitepaperów, materiałów marketingowych
  • Dokumentów już opublikowanych online
  • Przepisów, planów podróży, instrukcji obsługi
  • Szkiców bez wrażliwej zawartości

Strefa szara - decyduj case by case:

  • CV (zawiera dane osobowe)
  • Korespondencja z firmami (może zawierać numery kont)
  • Prace akademickie (zwykle OK, chyba że niepublikowane)

W razie wątpliwości - narzędzie lokalne.

Bezpieczna alternatywa: przetwarzanie lokalne

PDF-ami można manipulować w całości w przeglądarce, bez żadnego serwera. Nasze narzędzie PDF Merge działa dokładnie tak:

  • Otwierasz stronę; twoja przeglądarka pobiera JavaScript narzędzia
  • Przeciągasz PDF-y na stronę
  • Wszystko dzieje się w pamięci twojej przeglądarki - czytanie, przetwarzanie, zapisywanie
  • Pobierasz wyjście, które nigdy nie było na żadnym zewnętrznym serwerze

Plik nigdy nie opuszcza twojego komputera. Nie ma serwera w tle, który mógłby wycieknąć, zalogować lub zarchiwizować zawartość. Z perspektywy dostawcy hostingu narzędzia - pobrałeś statyczną stronę i zrobiłeś coś w swojej przeglądarce, czego nie widzimy.

Jak poznać, że narzędzie działa lokalnie

Kilka szybkich sprawdzeń:

Przeczytaj politykę prywatności. Narzędzie, które działa lokalnie, powinno wyraźnie powiedzieć “żadne pliki nie są wgrywane” lub “przetwarzanie odbywa się w twojej przeglądarce”.

Otwórz DevTools → zakładka Network przed użyciem. Zacznij operację scalania lub konwersji. Jeśli widzisz żądanie POST wgrywające twój plik - narzędzie jest serwerowe. Jeśli cała aktywność sieciowa ustaje po załadowaniu strony - lokalne.

Przetestuj z odłączoną siecią. Wyłącz Wi-Fi po załadowaniu strony, potem spróbuj przetworzyć plik. Lokalne narzędzie wciąż będzie działać. Serwerowe się nie uda.

Sprawdzenie przez DevTools zajmuje 30 sekund i to dobry nawyk do wyrobienia.

Kompromisy wydajności

Przetwarzanie lokalne nie jest magicznie szybsze we wszystkich przypadkach.

Plusy: brak czasu uploadu/pobierania (dla pliku 10 MB na wolnym łączu to realna oszczędność), brak kolejki na serwerze (popularne narzędzia czasem każą czekać), brak limitów rozmiaru pliku narzuconych przez usługę, brak ryzyka prywatności.

Minusy: twoja przeglądarka robi robotę, więc duże pliki zajmują lokalny czas CPU; niektóre operacje (OCR na zeskanowanych stronach, złożone przetwarzanie obrazów) są szybsze na sprzęcie serwerowym; pierwsze ładowanie strony pobiera kod narzędzia (zwykle kilkaset KB, cache’owane).

Do scalania, kompresji i konwersji większości codziennych plików lokalnie jest szybciej i bezpieczniej. Dla ciężkich przemysłowych workflow narzędzia serwerowe wciąż mają swoje miejsce.

Prosta zasada

Przed wgraniem jakiegokolwiek PDF-a zadaj pytanie: czy byłbym gotów wysłać ten dokument mailem nieznajomemu?

Jeśli tak - upload jest OK. Jeśli nie - narzędzie lokalne.

Brutalna zasada, ale działa. Większość dokumentów, które kusisz się wgrać, to właśnie te, które byłoby ci niezręcznie wysłać nieznajomemu - ten kontrakt, ten formularz podatkowy, ten arkusz klienta. Narzędzie online to po prostu nieznajomy z wygodnym interfejsem.

Nasze narzędzie PDF Merge to praktyczna demonstracja. Otwórz DevTools, zakładka Network, uruchom scalanie. Zobaczysz załadowanie JavaScript narzędzia i potem nic - żadnych uploadów, żadnych wywołań serwera. Scalony plik pojawia się w twoim folderze pobierania, nigdy nie opuściwszy laptopa.

To samo dotyczy Image Compressor, JSON Formatter i Base64 encoder. Wszystkie lokalne, wszystkie prywatne z założenia.