PASSIRO CRAWLER

Jak działa nasz crawler.

Passiro Crawler skanuje strony internetowe pod kątem problemów z dostępnością. Jest szanujący, przejrzysty i łatwy do kontrolowania.

Identyfikacja

Jak rozpoznać naszego crawlera

Passiro Crawler identyfikuje się w każdym żądaniu następującym ciągiem User-Agent:

Mozilla/5.0 (...) Chrome/131.0.0.0 Safari/537.36 PassiroCrawler/1.0 (+https://passiro.com/bot)

Możesz rozpoznać naszego crawlera szukając PassiroCrawler w nagłówku User-Agent.

Co robi

Stworzony do skanowania, nie do scrapowania.

Skanowanie dostępności

Ładujemy Twoje strony w bezgłowej przeglądarce i uruchamiamy axe-core, branżowy standard testowania dostępności używany przez Google, Microsoft i W3C. Testujemy zgodność ze standardami WCAG 2.1 AA.

Zrzuty ekranu

Robimy zrzuty ekranu skanowanych stron, aby tworzyć wizualne raporty pokazujące dokładnie, gdzie występują problemy z dostępnością. Zrzuty ekranu są bezpiecznie przechowywane i pokazywane tylko właścicielowi strony lub w publicznych recenzjach.

Odkrywanie linków

Podążamy za wewnętrznymi linkami, aby odkrywać strony na Twojej witrynie. Podążamy tylko za linkami w obrębie tej samej domeny i przestrzegamy maksymalnego limitu stron. Sprawdzamy również Twoją sitemap.xml, jeśli jest dostępna.

Zachowanie crawlera

Szanujący od podstaw.

Ograniczenie szybkości

Maksymalnie 2 żądania na sekundę. Nigdy nie zalewamy Twojego serwera.

Crawlowanie z rozpoznawaniem szablonów

Nasz crawler inteligentnie rozpoznaje szablony stron. Na stronach e-commerce z tysiącami stron produktów o tym samym układzie automatycznie identyfikujemy szablon i przechodzimy do innych unikalnych typów stron. Oznacza to pełne pokrycie przy minimalnej liczbie żądań.

Brak ekstrakcji danych

Nie scrapujemy ani nie przechowujemy Twoich treści, cen ani danych użytkowników. Robimy zrzuty ekranu na potrzeby wizualnych raportów i analizujemy strukturę HTML pod kątem zgodności z dostępnością — nic więcej.

Ochrona przed timeoutem

Każda strona ma limit czasowy 10 sekund, a łączny czas crawlowania jest ograniczony do 5 minut. Nigdy nie zawieszamy się na Twoim serwerze.

Tylko ta sama domena

Podążamy tylko za linkami w obrębie skanowanej domeny. Nigdy nie odwiedzamy zewnętrznych stron podczas skanowania.

Inteligentne skanowanie

Widzi Twoją stronę tak, jak użytkownicy.

Aby dostarczać dokładne wyniki dostępności i czyste zrzuty ekranu, nasz crawler automatycznie obsługuje wyskakujące okna i nakładki pojawiające się na nowoczesnych stronach.

Bannery zgody na cookies — automatycznie akceptowane dla wszystkich głównych platform zgody (Cookiebot, OneTrust, Usercentrics, Didomi i innych) we wszystkich 24 językach UE.

Wyskakujące okna i modale — zapisy na newsletter, nakładki promocyjne i inne przeszkadzające elementy są wykrywane i zamykane.

Nakładki tła — warstwy przyciemniające i nakładki pełnoekranowe są usuwane, aby zrzuty ekranu pokazywały rzeczywistą treść strony.

Shadow DOM — przeszukujemy shadow roots, aby znaleźć i zamknąć elementy zgody ukryte wewnątrz komponentów webowych.

Personalizacja

Dostosuj crawlera do swojej strony.

Nasze automatyczne wykrywanie obsługuje większość stron, ale niektóre witryny mają niestandardowe wyskakujące okna, unikalne przepływy zgody lub elementy wymagające specjalnego traktowania. Właściciele stron mogą konfigurować niestandardowe reguły crawlera w ustawieniach strony, aby obsłużyć te przypadki szczególne.

Selektory do klikania

Określ selektory CSS przycisków lub elementów, które crawler powinien kliknąć przed skanowaniem — na przykład, aby zamknąć niestandardowe wyskakujące okno, którego nasze automatyczne wykrywanie nie rozpoznaje.

Selektory do ukrywania

Wymuś ukrycie określonych elementów przed zrobieniem zrzutów ekranu. Przydatne dla stałych banerów, widgetów czatu lub nakładek, które nie powinny pojawiać się w raporcie dostępności.

Wstępnie ustawione pliki cookie

Ustaw pliki cookie zanim crawler załaduje Twoje strony — na przykład plik cookie zgody, aby pominąć baner cookie całkowicie, lub plik cookie testu A/B, aby skanować konkretny wariant.

Ignorowane ścieżki i limity stron

Wyklucz określone ścieżki URL ze skanowania i ustaw niestandardowy limit stron. Przydatne, jeśli części Twojej strony są za logowaniem lub zawierają treści, które nie wymagają skanowania.

Te ustawienia są dostępne w zakładce Ustawienia Twojej strony na panelu Passiro. Zmiany zaczną obowiązywać przy następnym skanowaniu.

Twoja kontrola

Jak zablokować naszego crawlera

Jeśli nie chcesz, aby Passiro Crawler odwiedzał Twoją stronę, możesz go zablokować za pomocą pliku robots.txt:

User-agent: PassiroCrawler Disallow: /

Możesz również zablokować określone ścieżki lub sekcje swojej strony. Respektujemy wszystkie standardowe dyrektywy robots.txt.

Alternatywnie możesz skontaktować się z nami, a dodamy Twoją domenę do naszej listy wykluczeń.

Pytania dotyczące naszego crawlera?

Jeśli masz pytania, wątpliwości lub chcesz zgłosić problem z Passiro Crawler, chętnie pomożemy.

Skontaktuj się z nami