Każdy moduł AI Citations na rynku odpowiada na jedno pytanie: „czy moja marka jest cytowana w odpowiedziach LLM-ów?". To dobre pytanie, ale niewystarczające. Drugie pytanie jest praktyczne: skąd ChatGPT, Claude czy Perplexity biorą informacje, na podstawie których budują tę odpowiedź — bo to tam musisz publikować, żeby zwiększyć swoją widoczność.
W tym tygodniu uruchomiliśmy w Sempuls nową sekcję modułu AI Citations: Sources Tracking. Pokazuje listę domen, z których modele językowe pobierają dane, odpowiadając na pytania kierowane do Twojej marki. To brakujący kawałek układanki dla każdej agencji SEO, która chce świadomie wpływać na to, co AI mówi o klientach.
Dlaczego sama liczba cytowań nie wystarcza
Wyobraź sobie raport AI Citations sprzed pół roku. Widzisz, że ChatGPT wspomina o Twoim kliencie w 23% odpowiedzi, Perplexity w 18%, Claude w 31%. Wykres rośnie, klient zadowolony. Ale gdy klient zapyta „co robimy, żeby było jeszcze lepiej", odpowiedź zwykle brzmi: „więcej content marketingu, więcej linków, lepsza struktura strony".
To są domyślne odpowiedzi z lat 2018–2024. Działały w klasycznym SEO. W świecie odpowiedzi AI brakuje im jednej informacji: co konkretnie czyta model, gdy formułuje swoją odpowiedź na temat Twojej marki.
Modele językowe — szczególnie te z dostępem do narzędzi wyszukiwania (Claude z web_search, ChatGPT z Responses API i web_search_preview, Perplexity z Sonar, Gemini z google_search grounding) — nie odpowiadają wyłącznie z własnej wiedzy. W ważnych momentach uruchamiają wyszukiwanie, pobierają wyniki, parsują kilka pierwszych stron i syntezują z nich odpowiedź. Listę źródeł, z których czerpią, można podsłuchać. I to właśnie podsłuchujemy.
Co Sources Tracking pokazuje
Dla każdej frazy monitorowanej w module AI Citations zbieramy nie tylko tekst odpowiedzi modelu, ale też wszystkie URL-e i nazwy domen, które model przywołał w trakcie odpowiadania. Następnie agregujemy je w widoku TOP domen z podziałem na:
- Liczbę cytowań — ile razy domena pojawiła się w odpowiedziach LLM dla Twoich fraz w ostatnich 30 dniach
- Modele, które ją cytują — czy to tylko Claude, czy też ChatGPT, Perplexity i Gemini — bo różne modele mają różne źródła
- Trend 7-dniowy — czy dana domena zyskuje na znaczeniu, czy traci (porównanie ostatnich 7 dni do poprzednich 7)
- Status — czy to Twoja własna domena (oznaczona jako referencyjna), domena konkurenta (zaciągnięta z osobnego modułu „Konkurenci"), czy neutralne źródło zewnętrzne
Dodatkowo każdy wiersz ma przycisk „zobacz cytaty", który otwiera modal z konkretnymi fragmentami odpowiedzi LLM cytującymi tę domenę — z pytaniem, modelem, datą i ekstraktem 280 znaków odpowiedzi. To pozwala dokładnie zrozumieć w jakim kontekście modele cytują dany portal.
Realne dane z naszej produkcji: 288 cytowań, 4 modele, jeden zaskakujący wzorzec
Gdy uruchomiliśmy backfill na istniejących 242 odpowiedziach LLM zebranych w Sempuls od początku maja 2026, wyciągnęliśmy 288 cytowań źródłowych. Pierwsze obserwacje były zaskakujące — i niewygodne dla wielu agencji SEO przyzwyczajonych do myślenia „content na własnym blogu wystarczy".
Oto realna TOP 10 najczęściej cytowanych domen z odpowiedzi modeli dla naszych klientów (segmenty: e-commerce, B2B techniczny, lokalne usługi medyczne):
- allegro.pl — 12 cytowań, obecne w 3 z 4 modeli
- ceneo.pl — 10 cytowań
- olx.pl — 7 cytowań
- znanylekarz.pl — 6 cytowań
- leroymerlin.pl — 5 cytowań
- indecori.pl — 5 cytowań
- opineo.pl — 4 cytowania
- amazon.pl — 4 cytowania
- marblex.com.pl — 4 cytowania
- forum.gazeta.pl — 3 cytowania
Dwie obserwacje, które zmieniają sposób planowania treści:
Po pierwsze, TOP 3 to wyłącznie marketplace'y — Allegro, Ceneo, OLX. Jeśli Twój klient sprzedaje fizyczny produkt, modele językowe częściej powołują się na jego listing w Allegro niż na jego stronę firmową. Pytane o „najlepsze X w Polsce", ChatGPT idzie do Allegro, czyta opisy, ceny i opinie, syntezuje rekomendację. Strona producenta — paradoksalnie — jest rzadziej cytowana.
Konsekwencja praktyczna: Twoje listingi w marketplace'ach to nie kanał drugorzędny. To kanał, w którym czytają Cię modele językowe, formułując odpowiedzi dla Twoich potencjalnych klientów. Dobrze napisany opis produktu na Allegro, z listą funkcji i jasnymi sekcjami pytań i odpowiedzi, ma teraz dwa odbiorców: klienta i model AI.
Po drugie, fora i portale opinii mają wagę — opineo.pl, forum.gazeta.pl, znanylekarz.pl. Tradycyjne SEO ignorowało lub traktowało fora jako szum. Dla LLM-ów to są najbardziej autentyczne źródła opinii o markach — bo to autentyczne wypowiedzi ludzi, nie content marketingowy. Modele językowe, którym zależy na wiarygodności odpowiedzi, naturalnie sięgają po opinie z forum, kompilują je i przedstawiają użytkownikowi jako podsumowanie.
To znaczy, że opinia z forum gazeta.pl o Twoim kliencie z 2022 roku może dziś być cytowana przez Claude w odpowiedzi na pytanie o jego usługi. Reputation management — odpowiedzi na opinie, prośby o rekomendacje, dbanie o aktywne wątki na forach — wraca jako priorytet, tym razem nie tylko ze względu na klientów, ale i modele.
Jak działa parser źródeł — i jakie ma ograniczenia
Pod maską Sources Tracking opiera się na trzech mechanizmach. Pierwszy to ekstrakcja URL-i z tekstu odpowiedzi — szukamy w odpowiedzi modeli pełnych linków (https://...), filtrujemy po whitelist TLD (pl, com, org, edu, gov i kilkadziesiąt innych legalnych), wykluczamy rozszerzenia plików (jpg, pdf, png — to materiały, nie źródła) oraz junk-domeny (skracarki linków typu bit.ly). Po deduplikacji domeny zapisujemy do osobnej tabeli, połączonej z konkretnym wynikiem zapytania.
Drugi mechanizm to ekstrakcja domen bez protokołu — gdy model napisze „według budujemydom.pl, najlepsze elewacje to...", łapiemy budujemydom.pl jako źródło, nawet bez pełnego URL. To pomaga w przypadku Gemini i Perplexity, które czasem podają nazwy domen w tekście bez linków.
Trzeci mechanizm to kontekst pełnego cytatu — przechowujemy referencję do oryginalnej odpowiedzi LLM (kolumna result_id), więc kliknięcie „zobacz cytaty" pokazuje, w odpowiedzi na jakie pytanie i z jakim sentymentem domena była przywołana.
Ograniczenia, które warto znać:
- Najlepiej działa dla Claude (web_search) i Perplexity — te modele konsekwentnie cytują źródła w tekście odpowiedzi.
- Dla ChatGPT przez Responses API z web_search_preview oraz Gemini z google_search działanie zależy od tego, czy model zdecydował się aktywnie podlinkować źródła w odpowiedzi (część odpowiedzi to czysta synteza bez bezpośrednich linków).
- Dla Grok i DeepSeek dokleja się dedykowany blok „Źródła:" do odpowiedzi — parser je odbiera.
- Dla Mistral, który nie ma natywnego browsingu, źródła są dostępne tylko w odpowiedziach na zapytania ogólne — model odpowiada z własnej wiedzy.
W praktyce z naszego backfilla najwięcej źródeł złapaliśmy z Claude (195 z 288), następnie ChatGPT (44), Perplexity (38) i Gemini (11). To rozłożenie nie odzwierciedla popularności modeli — odzwierciedla, jak chętnie cytują źródła w tekście. Wnioski z danych powinno się więc czytać przez ten pryzmat.
Jak wykorzystać Sources Tracking w pracy z klientem
Po dwóch dniach pracy z nowym modułem zaczyna się wyłaniać zestaw praktycznych zastosowań. Większość z nich to po prostu nowe odpowiedzi na stare pytania, które klienci zadają agencjom co najmniej od dekady.
„Gdzie powinniśmy publikować content sponsorowany w tym kwartale?" Wcześniej odpowiedź była jakościowa: „w portalach o wysokim DR z naszej branży". Teraz odpowiedź jest danymi: „LLM-y cytują budujemydom.pl 30 razy w kontekście Twoich fraz w ciągu miesiąca, a Twojej domeny tam nie ma. Publikujmy tam". To samo pytanie, ale z empirycznym uzasadnieniem.
„Czy nasi konkurenci uciekają nam w widoczności AI?" Wcześniej dawało to mglistą odpowiedź z modułu konkurentów. Teraz wiemy: jeśli marblex.com.pl pojawia się 4 razy w cytowaniach z trendem 7-dniowym +2, a Ty pojawiasz się 0 razy, masz dokładną listę zewnętrznych domen, w których powinieneś być obecny, żeby zacząć być cytowanym tam, gdzie cytowany jest konkurent.
„Dlaczego ChatGPT nas nie zna?" To pytanie zadawane prawie co tygodniowo. Wcześniej trudno było odpowiedzieć precyzyjnie. Dziś sprawdzasz Sources Tracking i widzisz, że dla danej frazy ChatGPT cytuje portale, których nie pokrywa żaden z dotychczasowych kanałów klienta. Strategia treści dostaje konkretny target — nie „bądź widoczny w Google", tylko „bądź obecny na opineo.pl, forum.gazeta.pl, znanylekarz.pl, bo tam czyta ChatGPT".
Co dalej w Sempuls
Sources Tracking to pierwszy krok w domykaniu pętli między diagnozą widoczności AI a działaniem strategicznym. W kolejnych iteracjach planujemy:
- One-click outreach — przy każdej źródłowej domenie, której nie pokrywasz, sugestia konkretnej akcji: „publikuj artykuł sponsorowany", „dodaj wpis do katalogu", „odpowiedz na opinie".
- Korelacja Sources × Brand mentions — który wzrost obecności w danym źródle przekłada się ile na wzrost cytowań marki w LLM. To pozwoli mierzyć ROI publikacji zewnętrznych w nowy sposób.
- Industry Sources Report — raport branżowy pokazujący najczęściej cytowane domeny dla różnych segmentów (e-commerce, B2B, lokalne usługi medyczne, motoryzacja). Materiał, który będzie zarówno benchmarkiem dla agencji, jak i lead magnetem dla SEO-deweloperów.
Sources Tracking jest już dostępny dla wszystkich projektów w module AI Citations. Wystarczy uruchomić skan AI Citations dla wybranych fraz, a nowa sekcja „Źródła cytowane przez LLM-y" pojawi się pod tabelą wyników z prawdziwymi danymi z odpowiedzi modeli.
To narzędzie, które poszerza Twoją widoczność — bo pokazuje, gdzie patrzą modele, zanim odpowiedzą o Twojej marce.