Изкуственият интелект подкопава резултатите в търсачките – колапс на извличането
През февруари 2026 г. изследователи от южнокорейската технологична компания Naver Corporation (наричана „корейският Google“) установиха нов структурен риск за търсачките в интернет, наречен „колапс на извличането“ (Retrieval Collapse). Проучването показва, че изкуственият интелект замърсява мрежата и доказва, че масовото навлизане на генерирано от изкуствен интелект съдържание подкопава стабилността на системите за търсене и класиране на информация.
Това отслабва доверието към технологиите и моделите за обогатено извличане, които решават коя информация е надеждна, и увеличава риска подвеждащи материали да бъдат приемани за авторитетни.
В сценарий на колапс на извличането синтетичните текстове прогресивно доминират в резултатите от търсачките. Дори когато отговорите изглеждат точни, основната доказателствена база се откъсва от оригиналните човешки източници. Според авторите съвременното синтетично съдържание е семантично свързано, за разлика от традиционния спам, което му позволява да се слее със системите за класиране и да остане прикрито.
Процесът протича в две фази. Първата е доминация и хомогенизация, при която генерираното съдържание превзема резултатите и подкопава разнообразието от източници. Създава се структурно крехка среда, в която алгоритмите благоприятстват създадени от изкуствен интелект и оптимизирани за търсачки страници. Втората фаза е проникване на нискокачествено или враждебно съдържание. След като доминацията е факт, системата става податлива на умишлено замърсяване, тъй като враждебните страници могат да използват същите механизми за оптимизация.
Експерти от Оксфордския университет, сред които и д-р Ярин Гал, описват този процес като „Проклятието на рекурсията“* – феномен, при който моделите губят връзка с реалността, захранвайки се със собствените си грешки.
За да смекчат тези рискове, изследователите предлагат преминаване към стратегии за защитно класиране, които оптимизират едновременно релевантността, фактологията и произхода на данните. Колапсът на извличането изостря вече познатия колапс на модела, при който изкуственият интелект се обучава върху собствените си резултати и качеството му прогресивно спада.
Симулация и резултати от тестовете
За да тестват разпространението на синтетично съдържание, учените са използвали базата данни MS MARCO с 1000 двойки въпроси и валидирани от човек отговори. Извлечени са 10 000 документа от Google Search. За генериране на синтетични статии е използван икономичният модел GPT-5 Nano на компанията OpenAI, а фактологическата точност е оценявана чрез по-мощния GPT-5 Mini.
За да симулират реални условия, авторите генерират първите чернови на пробите със стандартен генератор на подвеждащи заглавия, след което ги подават на GPT-5 Nano. Задачата на модела е да замени определен брой факти с правдоподобни, но неверни алтернативи, създавайки враждебни публикации, които не биха активирали статистическите филтри, но тихо подкопават фактологията.
В експериментите са приети три основни показателя: степен на замърсяване на набора, за да се определи каква част от общия набор от документи е генерирана от изкуствен интелект; степен на замърсяване на експозицията, измерваща каква част от десетте най-добри резултата идва от изкуствен интелект; и степен на замърсяване на цитатите, отчитаща колко от цитираните в крайния отговор доказателства са синтетични.
Проведена е симулация в 20 кръга, при която към първоначалните десет оригинални документа постепенно са добавяни синтетични материали. Резултатите показват, че когато генерираното съдържание достигне 67% от общия обем, над 80% от водещите резултати при търсене идват от текст и данни, създадени от изкуствен интелект. Класирането, базирано на големи езикови модели, показва още по-силна тенденция към синтетични източници в сравнение с традиционния алгоритъм.
Въпреки че точността на отговорите първоначално се запазва, разнообразието на източниците се срива. Вторият сценарий с добавяне на умишлено подвеждащи страници разкрива съществени уязвимости. Традиционният алгоритъм BM25 допуска между 19% и 24% от враждебните страници в челните си десет резултата. Моделите, базирани на големи езикови модели, успяват да филтрират подвеждащата информация по-успешно, но тяхното масово внедряване е изчислително скъпо и непрактично.

Нужда от нови механизми за защита
Изследователите заключават, че повторното класиране е твърде бавно и препоръчват въвеждането на филтри още на етапа на поглъщане на информацията. Тъй като автономните агенти с изкуствен интелект започват сами да публикуват съдържание, защитата трябва да премине от статичен анализ към поведенческо идентифициране на източници, които генерират потоци с ниска фактологичност.
Създаването на надеждни методологии за доказване на произхода на информацията е ключов приоритет за 2026 г. Според проучването сложни схеми за удостоверяване, които изискват инфраструктурни промени от издателите, вероятно ще се провалят.
Паралелно с технологичните филтри, компании като OpenAI и Google сключват ексклузивни партньорства с големи новинарски конгломерати. Целта е да си осигурят достъп до „чисти“ данни, създадени от хора, тъй като се прогнозира, че свободният ресурс от човешки текстове в мрежата може да бъде изчерпан още през 2026 г. Този стремеж към проверени източници може да превърне достоверната информация в скъпа и дефицитна стока. Намирането на по-прости и достъпни решения за удостоверяване на произхода е спешна задача, тъй като настоящият момент е критичен за обществения консенсус относно истината в дигиталната епоха.
Сбъдва ли се един от най-големите страхове в AI индустрията? Ако Model Collapse (колапсът на модела) е когато изкуственият интелект оглупява, защото чете само себе си, то Retrieval Collapse (колапсът на извличането) е когато търсачката ослепява, защото вижда само изкуствен интелект. Това е по-опасно и от дезинформацията (която е шумна и лесно се атакува). Получаваме текстове, които са фактологично верни, но нямат автор, нямат контекст и нямат „човешки корен“. Те са перфектно оптимизирани алгоритмични символи.
Иронично е, че AI съдържанието често изглежда по-добре и е по-релевантно за търсачките от човешкото, защото е създадено точно за тях. Но иска ли човекът да замени здравословната храна с перфектно изглеждащи пластмасови имитации, които обаче нямат хранителна стойност?
И винаги става въпрос за пари. В този контекст това означава, че богатите търсачки ще са точни, а други ще се удавят в „AI бълвоч“.
* Статия в Nature по труд, който се счита за фундаментален. Това е първото мащабно изследване (юли 2024 г.), което математически доказва, че ако изкуственият интелект се обучава предимно върху данни, създадени от други AI алгоритми (вместо от хора), той неизбежно започва да прави грешки. Тези грешки се натрупват, докато моделът напълно „колабира“ и загуби способността си да представя нужните факти или нюанси и започва да генерира неразбираемо съдържание. Версия в arXiv със оригиналното заглавие – The Curse of Recursion.


