Przejdź do głównej treści
Widoczność w AI

Widoczność w AI · 11 min czytania

Jak działają wyszukiwarki AI (RAG): dlaczego jedne strony są cytowane, a inne nie

TL;DR

Wyszukiwarki AI — ChatGPT, Perplexity, Google AI Overviews — nie odpowiadają z pamięci. Działają na zasadzie RAG (retrieval-augmented generation): rozbijają pytanie na pod-pytania, pobierają strony z sieci, czytają je i cytują tylko ułamek. Cytowanie to nie ranking w Google — a każda platforma sięga po inne źródła (w analizie 680 mln cytowań tylko 11% domen było cytowanych jednocześnie przez ChatGPT i Perplexity). O cytacie decydują trzy warstwy: dostępność strony dla botów, zrozumiałość treści i autorytet marki.

Co to jest AI Search i czym różni się od zwykłego wyszukiwania?

AI Search to odpowiedź napisana przez model językowy — gotowa synteza z przypisanymi źródłami, a nie lista linków do samodzielnego przejrzenia. Zamiast klikać w dziesięć wyników i wyciągać wnioski, dostajesz jedną odpowiedź, do której model dołącza cytaty potwierdzające, skąd wziął informacje.

Zwykła wyszukiwarka rankuje strony i wyświetla je w kolejności — to Ty decydujesz, co kliknąć. AI Search idzie krok dalej: pobiera treść z wybranych stron, łączy ją i pisze odpowiedź za Ciebie. Linki pojawiają się jako dowód, nie jako lista do przeglądania.

Dla właściciela firmy oznacza to jedno: jeśli Twoja strona nie zostanie wybrana jako źródło, w tej odpowiedzi nie istniejesz — nawet jeśli zajmujesz pierwszą pozycję w Google. Cel przesuwa się z „bądź wysoko" na „bądź cytowany".

Jak działają wyszukiwarki AI jak ChatGPT i Perplexity — krok po kroku?

Wbrew pozorom AI nie „zna" odpowiedzi — za każdym razem wykonuje kilka kroków, zanim napisze choćby jedno zdanie:

  1. Rozbicie pytania (fan-out). Model dzieli pytanie na pod-pytania i uruchamia wiele wyszukiwań naraz. To nie wyjątek, lecz reguła: w analizie AirOps (15 000 promptów) 89,6% pytań uruchomiło co najmniej dwa dodatkowe wyszukiwania. Google potwierdza tę technikę („query fan-out") wprost w dokumentacji dla AI Overviews i AI Mode.
  2. Pobranie kandydatów (retrieval). Każde pod-zapytanie zwraca listę stron; model pobiera ich treść — nie całe witryny, lecz fragmenty: nagłówki, pierwsze akapity, listy.
  3. Selekcja. Spośród dziesiątek pobranych fragmentów model wybiera te, które najlepiej odpowiadają na pytanie. Reszta odpada — i odpada jej dużo (o skali w następnej sekcji).
  4. Generacja z cytatami. Model pisze odpowiedź, wplatając wybrane fragmenty i oznaczając je jako źródła.

Kluczowe: większość pracy odpada na etapie selekcji. Twoja strona musi być nie tylko dostępna, ale też na tyle czytelna dla modelu, żeby tę selekcję wygrać.

Droga od pytania do cytatu Jak wyszukiwarki AI (RAG) wybierają, kogo zacytować 1 Pytanie Użytkownik pyta AI 2 Fan-out 1 pytanie → wiele wyszukiwań 3 Retrieval AI pobiera dziesiątki stron 4 Selekcja cytowany jest tylko ułamek 5 Odpowiedź synteza z cytatami Co decyduje, czy Twoja strona wygra selekcję: Dostępność Zrozumiałość Autorytet Każda warstwa działa dopiero, gdy stoi poprzednia.
Uproszczony przepływ RAG — od pytania do cytatu.

Czym jest RAG — po ludzku?

RAG (retrieval-augmented generation, czyli generowanie wspomagane pobieraniem) brzmi technicznie, ale idea jest prosta: zanim model cokolwiek napisze, najpierw szuka i czyta. Wyobraź sobie eksperta, który przed każdą odpowiedzią otwiera wyszukiwarkę, przegląda kilkanaście stron i dopiero na ich podstawie formułuje odpowiedź — podając źródła.

Dlaczego to ważne? Bo model nie opiera się wyłącznie na wiedzy z treningu (często nieaktualnej) — sięga po bieżące treści z sieci. To dobra wiadomość: Twoja strona może zostać zacytowana niezależnie od tego, kiedy powstała — pod warunkiem, że model może ją znaleźć, pobrać i zrozumieć.

Zła wiadomość: selekcja jest bezlitosna. Model pobiera znacznie więcej stron, niż cytuje — choć dokładna skala zależy od badania. Analiza AirOps (548 tys. stron) wskazała, że cytowanych zostaje ~15% pobranych; analiza Ahrefs (1,4 mln promptów) — że około połowy. Niezależnie od liczby wniosek jest ten sam: bycie pobranym to nie to samo co bycie cytowanym.

Dlaczego ChatGPT, Perplexity i Gemini cytują różne strony?

Każda platforma korzysta z innego silnika i inaczej waży sygnały — dlatego ta sama firma bywa cytowana przez Perplexity, ale nie przez ChatGPT, i odwrotnie. Skala różnic zaskakuje: w analizie 680 mln cytowań tylko 11% domen było cytowanych jednocześnie przez ChatGPT i Perplexity.

  • ChatGPT korzysta z indeksu Bing (dzieli z nim ~73% wyników) i faworyzuje źródła „konsensusowe" (Wikipedia to jego najczęstsze źródło). Cytuje stosunkowo mało źródeł na odpowiedź (~8). Jeśli Twojej strony nie ma w Bing — nie istnieje dla ChatGPT, nawet z pierwszą pozycją w Google (dlaczego marki nie ma w ChatGPT).
  • Perplexity buduje własny indeks, premiuje świeżość i treści społecznościowe (Reddit) i cytuje dużo więcej źródeł (~22 na odpowiedź — blisko 3× więcej niż ChatGPT). To czyni go najłatwiejszym wejściem dla mniejszych marek.
  • Google AI Overviews i Gemini bazują na indeksie Google, ale stosują własne kryteria — wysoka pozycja organiczna pomaga, lecz nie gwarantuje cytatu.

Jak duża jest różnica w praktyce? W jednym badaniu cytowań marek ChatGPT wskazywał markę w ~0,6% odpowiedzi, Perplexity w ~13%, a Grok w ~27%. Praktyczny wniosek: „AI Search" to nie jeden mechanizm — optymalizacja pod ChatGPT i pod Perplexity to częściowo różne działania.

Od czego zależy, czy ChatGPT cytuje moją stronę?

O cytacie decydują trzy warstwy, w tej kolejności — jeśli pierwsza jest niespełniona, kolejne nie mają znaczenia.

Warstwa 1: Dostępność. Model musi móc znaleźć i pobrać stronę: zaindeksowaną w odpowiednim silniku (Bing dla ChatGPT, Google dla AI Overviews), w statycznym HTML (treść renderowana przez JavaScript bywa dla botów niewidoczna), z dostępem dla robotów (robots.txt ich nie blokuje, brak ściany logowania). To najnudniejsza warstwa — i to tu najczęściej się przegrywa. Wiemy z własnego podwórka: nasza strona była początkowo renderowana przez JavaScript, więc boty AI widziały niemal pustą stronę; dopiero migracja na statyczny HTML to odblokowała.

Warstwa 2: Zrozumiałość. Model pobiera fragment i ocenia, czy odpowiada na pytanie. Wygrywa treść, która zaczyna sekcję od bezpośredniej odpowiedzi (nie od wstępu), ma jasne nagłówki w formie pytań i tytuł dopasowany do zapytania — w analizie AirOps strony z dużym pokryciem słów tytułu z pytaniem były cytowane ~2× częściej, a znaczna część cytowań pochodzi z pierwszej jednej trzeciej treści. Dane strukturalne (schema) wspierają rozumienie, ale to etykieta na paczce, nie magiczna dźwignia.

Warstwa 3: Autorytet. Przy równej dostępności i zrozumiałości model preferuje źródła, którym „ufa". I to jest najcięższy sygnał — zwłaszcza dla ChatGPT, którego widoczność zależy od siły encji marki i wzmianek budowanych w czasie, a nie od optymalizacji jednej strony. Analiza 75 tys. marek (Ahrefs) pokazała, że wzmianki o marce korelują z cytowaniami AI silniej (~0,66) niż linki zwrotne (~0,22); spójna encja (ta sama nazwa, domena i opis w wielu miejscach sieci) to dla modelu dowód, że firma jest realna — pomagamy budować taką encję.

Jak przygotować stronę pod RAG i AI?

To nie rewolucja techniczna — to kilka konkretnych zmian w pisaniu i strukturze, ułożonych warstwami (każda działa dopiero, gdy stoi poprzednia):

  • Pisz odpowiedź na początku, nie na końcu. Każda sekcja zaczyna się od zdania, które samodzielnie odpowiada na pytanie z nagłówka. Model pobiera fragment — jeśli odpowiedź jest w trzecim akapicie, nie zobaczy jej.
  • Używaj pytań jako nagłówków H2. „Jak działa automatyzacja w MŚP?" jest lepszym nagłówkiem niż „Automatyzacja — wprowadzenie", bo dopasowuje się do naturalnego języka zapytań.
  • Zadbaj o indeksację w Bing. Rejestracja w Bing Webmaster Tools jest bezpłatna i zajmuje kwadrans. Bez tego ChatGPT Cię nie znajdzie.
  • Dodaj dane strukturalne (schema.org). Mówią robotom „to jest artykuł / FAQ / organizacja". Nie są konieczne, ale ułatwiają klasyfikację treści.
  • Buduj wzmianki poza własną stroną. Artykuły gościnne, wywiady, spójne profile, aktywność w sieci — każda wzmianka wzmacnia autorytet encji. To najwolniejsza, ale najmocniejsza warstwa.

Więcej o kompleksowym podejściu znajdziesz w przewodniku widoczności w AI.

Dlaczego pozycja w Google to nie to samo co cytat w AI?

Wysoka pozycja w Google pomaga — ale nie jest ani warunkiem koniecznym, ani gwarancją cytatu. To rozróżnienie ratuje przed kosztownym błędem („jesteśmy #1 w Google, więc AI nas zacytuje").

Z jednej strony ranking to silny sygnał: w analizie AirOps strony z 1. miejsca były cytowane 3,5× częściej niż te spoza top 20. Z drugiej — to nie wystarcza i nie zawsze jest potrzebne:

  • Rola rankingu maleje. Jeszcze w połowie 2025 z top 10 organicznego pochodziło ~76% cytowań Google AI Overviews; na początku 2026 — już 38% (Ahrefs), a w innym badaniu nawet 17% (BrightEdge).
  • Można być cytowanym bez rankingu. W danych Ahrefs znacząca część (ok. 28%) najczęściej cytowanych przez ChatGPT stron miała zerową widoczność w Google — bo cytat przyszedł przez fan-out, indeks Bing albo źródła społecznościowe. W badaniu AirOps 32,9% cytowanych stron pojawiło się wyłącznie w wynikach fan-out, nie dla głównego zapytania.
  • Kryteria selekcji są inne. Google rankuje wg autorytetu domeny, szybkości i linków; model przy selekcji fragmentu pyta przede wszystkim: „czy to zdanie odpowiada na pytanie?". Treść dobrze napisana pod RAG potrafi wygrać z domeną o wyższym autorytecie, jeśli jest po prostu czytelniejsza.

Cytowanie w AI i ranking w Google to dwa różne cele, które wymagają częściowo różnych działań — mogą się wspierać, ale nie zastępują. Jak sprawdzić, który asystent Cię cytuje i jak często, opisujemy osobno.

Źródła danych

Najważniejsze twierdzenia w tym artykule i ich źródła:

Dane / twierdzenie Źródło Zakres / nota
fan-out 89,6%; 32,9% cytowanych tylko z fan-out; ~15% pobranych cytowanych; pozycja 1 cytowana 3,5× AirOps, „The Influence of Retrieval, Fan-out, and Google SERPs on ChatGPT Citations" (548 534 stron / 15 000 promptów) badanie zewnętrzne
~połowa pobranych stron cytowana; dopasowanie tytułu/URL kluczowe Ahrefs, „Why ChatGPT Cites One Page Over Another" (1,4 mln promptów) badanie zewnętrzne
query fan-out potwierdzony dla AI Overviews i AI Mode Google Search Central, „AI Features and Your Website" dokumentacja producenta
680 mln cytowań: 11% domen wspólnych ChatGPT∩Perplexity; ~8 vs ~22 źródła/odpowiedź Profound / 5W AI Citation Index badanie zewnętrzne
udział top 10 w cytowaniach AIO: ~76% (H1 2025) → ~38% (2026); alternatywnie 17% (BrightEdge) Ahrefs „AI Search Overlap"; BrightEdge badanie zewnętrzne; rozbieżność metodologiczna
~28% najczęściej cytowanych przez ChatGPT stron — zero widoczności w Google Ahrefs, „ChatGPT's most cited pages" badanie zewnętrzne
wzmianki o marce ~0,66 vs linki zwrotne ~0,22 korelacji z cytowaniami AI (75 000 marek) Ahrefs (analiza 75 000 marek) badanie zewnętrzne
aventium.ai: renderowanie CSR → migracja na statyczny HTML odblokowała dostępność dla botów AI Aventium (dane własne) praktyka własna

Najczęstsze pytania

Jak działają wyszukiwarki AI takie jak ChatGPT i Perplexity?

Na zasadzie RAG: rozbijają pytanie na pod-pytania (fan-out), pobierają z sieci kandydujące strony, czytają je, cytują tylko ułamek i z tego generują odpowiedź. ChatGPT korzysta z indeksu Bing; Perplexity buduje własny i premiuje świeżość; Google AI Overviews bazuje na indeksie Google. Mechanizm podobny, ale indeksy i preferencje różne.

Czy ChatGPT cytuje moją stronę jako źródło?

Tylko jeśli potrafi ją pobrać (statyczny HTML, dostęp dla botów, obecność w indeksie Bing), łatwo wyciągnąć z niej odpowiedź (struktura, odpowiedź na początku, dopasowanie tytułu) i ufa marce (siła encji, wzmianki). Cytowanie jest binarne — strona jest cytowana albo nie, nie ma „pozycji 3".

Czy muszę być w Google, żeby być cytowanym przez AI?

Nie. ChatGPT korzysta z indeksu Bing, Perplexity buduje własny. Strona nieobecna w Google może być cytowana przez te platformy, jeśli jest zaindeksowana w ich źródłach. Warto sprawdzić obecność w każdym silniku osobno.

Czy płatne reklamy w Google pomagają w cytowaniu przez AI?

Nie. Reklamy zwiększają widoczność dla ludzi, ale modele AI sięgają po treści organiczne, nie po reklamy. Budżet reklamowy nie przekłada się na cytowanie.

Czy AI cytuje tylko duże, znane marki?

Nie. Modele cytują treść dostępną, zrozumiałą i odpowiadającą na pytanie — niezależnie od wielkości firmy. Małe i średnie firmy regularnie bywają źródłami, jeśli ich treść spełnia wymagania techniczne i jest dobrze napisana. Autorytet pomaga, ale nie jest jedynym kryterium.

Dlaczego AI pobiera moją stronę, ale jej nie cytuje?

Bo retrieval i cytat to dwa różne etapy. Strona może zostać przeczytana i pomóc modelowi zrozumieć temat, a mimo to nie trafić do odpowiedzi — zwykle przez słabe dopasowanie tytułu do pod-pytania, brak odpowiedzi „od razu" albo niższy autorytet niż konkurencja.

Jak przygotować stronę pod RAG i AI?

Warstwami: najpierw pobieralność (statyczny HTML, dostęp dla botów, indeks Bing/Google), potem zrozumiałość (nagłówki-pytania, odpowiedź w pierwszym zdaniu, świeżość, schema jako wsparcie), na końcu autorytet (spójna encja, wzmianki). Każda warstwa działa dopiero, gdy stoi poprzednia.

O autorze

Mateusz Górski

CEO i założyciel Aventium

Założyciel i CEO Aventium · LinkedIn. Od ponad 15 lat związany z inżynierią przemysłową i przemysłem automotive; absolwent Politechniki Śląskiej w Gliwicach i AGH w Krakowie. Dziś pomaga polskim MŚP oszczędzać czas dzięki automatyzacji AI i być widocznymi w wyszukiwarkach AI — ChatGPT, Gemini, Perplexity i Google AI Overviews.

LinkedIn