Парадоксът на обратното мащабиране: повече мислене, по-лош резултат
Изкуственият интелект е изграден върху идеята, че предоставянето на повече време, данни и изчислителна мощност на машините подобрява тяхната производителност. Това убеждение е насочвало посоката на изследванията и разработките в областта на изкуствения интелект в продължение на много години.
Ключовото предположение, залегнало в основата на това убеждение, е, че по-големите модели и повече ресурси биха създали по-интелигентни системи.
Последните изследвания обаче започнаха да поставят под въпрос този подход. Моделите с големи езици, като серията o1 на OpenAI , Claude на Anthropic и R1 на DeepSeek , са създадени, за да решават проблеми стъпка по стъпка, подобно на човешкото разсъждение. Изследователите очакваха, че предоставянето на повече време на тези модели за мислене и обработка на информация би увеличило вземането на правилни решения. Нови проучвания обаче показват, че може да се случи и обратното. Когато предоставите на тези модели повече време за мислене, те понякога се представят по-зле, особено при прости задачи. Този ефект се нарича обратно мащабиране. Той оспорва убеждението, че по-голямата изчислителна мощност и по-задълбоченото разсъждение винаги водят до по-добри резултати. Тези открития имат значителни последици за начина, по който проектираме и използваме изкуствен интелект в реални ситуации.
Разбиране на феномена на обратното мащабиране
Феноменът „обратно мащабиране“ (inverse scaling) първоначално е открит чрез контролирани експерименти от изследователи в Anthropic. За разлика от традиционните закони за мащабиране, които твърдят, че повече изчисления подобряват производителността, тези проучвания установяват, че даването на повече време за разсъждение на изкуствения интелект може да намали точността му при различни задачи.

Изследователският екип е създал задачи в четири области: просто броене с разсейване, регресия с неподходящи характеристики, дедукция с проследяване на ограничения и сложни сценарии за безопасност, свързани с изкуствен интелект. Резултатите са изненадващи. В някои случаи моделите, които първи са дали правилни отговори, са започнали да дават грешни, след като им е било дадено повече време за обработка.
Например, в проста задача за броене, като „Колко плода имаш, ако имаш една ябълка и един портокал?“, моделите на Клод често се разсейвали от допълнителни детайли, когато им се давало повече време за разсъждение. Те не успявали да дадат правилния отговор, който е: два. В тези случаи моделите прекалено много мислили и в крайна сметка правили грешки.
Последните изследвания на Apple също потвърдиха тези открития. Те проведоха експериментите си в контролирани среди на пъзели като Кулата на Ханой и Ривър Кросинг, а не върху стандартни бенчмаркове. Техните изследвания показаха три модела: при прости задачи стандартните модели на изкуствения интелект се справиха по-добре от моделите за разсъждение; при средно сложни задачи моделите за разсъждение имаха предимство; а при много сложни задачи и двата вида модели се провалиха.
Кога разсъжденията от изкуствен интелект се провалят?
Изследователите са открили често срещани причини, при които моделите с изкуствен интелект могат да се провалят, когато разсъждават за по-дълги периоди от време:
- Разсейване от неуместност: Когато моделите с изкуствен интелект мислят твърде дълго, те често се разсейват от детайли, които нямат значение. Това е като студент, който пропуска основния момент на даден проблем, докато размишлява дълбоко върху него.
- Прекомерно адаптиране към рамки на проблема: Някои модели, като например o-серията на OpenAI, се фокусират твърде много върху представянето на проблема. Въпреки че избягват разсейване, те не са гъвкави и разчитат на формулирането на проблема.
- Изместване на фалшивата корелация: С течение на времето моделите с изкуствен интелект могат да преминат от разумни предположения към разчитане на подвеждащи корелации. Например, при регресионни задачи моделите първо вземат предвид съответните характеристики, но когато им се даде повече време за размисъл, те могат да започнат да се фокусират върху неподходящи характеристики и да дават неправилни резултати.
- Влошаване на фокуса: С усложняването на задачите, моделите с изкуствен интелект намират за по-трудно да поддържат ясни и фокусирани разсъждения. Повече време за разсъждение може да се отрази негативно.
Как разсъжденията с изкуствен интелект се справят със сложността на проблемите?
Изследователи от Apple въведоха термина „илюзия на мислене“, за да обяснят какво се случва, когато моделите на разсъждение се изправят пред задачи с различни нива на сложност. Вместо да се фокусират върху математически проблеми или тестове за кодиране, те тестват модели на разсъждение с изкуствен интелект в контролирани среди на пъзели като Tower of Hanoi, Checker Jumping, River Crossing и Blocks World. Чрез бавно увеличаване на трудността на тези пъзели, те можеха да видят как моделите се представят на всяко ниво. Този метод им помогна да изследват не само крайните отговори, но и как моделите са достигнали до тези отговори. Проучването откри три ясни модела в производителността на моделите, базирани на сложността на проблема:

- За прости пъзели като Ханойска кула с малко дискове, стандартните модели на големи езици (LLM) дават верни отговори по-ефективно. Моделите на разсъждение с изкуствен интелект често правят нещата твърде сложни чрез дългите си вериги от разсъждения, което често води до неправилни отговори.
- В умерено сложни пъзели, разсъжденията с изкуствен интелект се представят по-добре. Те биха могли да разделят проблемите на ясни стъпки, което им е помогнало да решават многоетапни предизвикателства по-ефективно от стандартните LLM (Management of Learning Law – метод за пълноценно учене).
- В много сложни пъзели, като например Ханойска кула с много дискове, и двата типа модели се затрудняваха. Моделите за разсъждение често намаляваха усилията си за разсъждение, когато пъзелът ставаше все по-труден, въпреки че разполагаха с достатъчно изчислителни ресурси. Това поведение на „отказване“ показва ключова слабост в мащабирането на техните разсъждения.
Феноменът на обратното мащабиране показва значителни проблеми в начина, по който оценяваме моделите на с изкуствен интелект. Много от настоящите бенчмаркове измерват само точността на крайните отговори, а не качеството на процеса на разсъждение. Това може да доведе до погрешно усещане за реалните способности на модела. Един модел може да се представи добре на тестове, но все пак да се провали с нови или необичайни проблеми.
Обратното мащабиране също така посочва слабости в критериите за разсъждение и начина, по който ги използваме. Много модели използват преки пътища и разпознаване на модели вместо истинско разсъждение. Това може да ги накара да изглеждат по-умни, отколкото са в действителност, но производителността и адекватността им често спада в реални ситуации. Този проблем е свързан с по-големи проблеми с изкуствения интелект, като халюцинации и надеждност. Тъй като моделите се подобряват в предоставянето на обяснения, които звучат убедително, става по-трудно да се разграничат истинските разсъждения от измислените отговори.
Бъдещето на разсъжденията с изкуствен интелект
Парадоксът на обратното мащабиране е едновременно предизвикателство и възможност за изкуствения интелект. Той показва, че добавянето на повече изчислителна мощност не винаги прави изкуствения интелект по-интелигентен. Трябва да преосмислим начина, по който проектираме и обучаваме AI системи, които биха могли да се справят с проблеми с различна сложност. Новите модели може да се нуждаят от решаване кога да спрат и да помислят и кога да реагират бързо. В това отношение изкуственият интелект би могъл да се възползва от когнитивната архитектура, като например теорията за двойствения процес, като водещи принципи. Тези архитектури обясняват как човешкото мислене смесва бързи, инстинктивни реакции с бавно, внимателно разсъждение. Обратното мащабиране ни напомня също, че трябва напълно да разберем как изкуственият интелект взема решения, преди да го използваме в критични области. Тъй като изкуственият интелект се използва все повече за вземане на решения в области като здравеопазване, право и бизнес, става още по-важно да се уверим, че тези системи разсъждават правилно.
Парадоксът на обратното мащабиране ни дава съществен урок в разработването на изкуствения интелект. Повече време и изчислителна мощност не винаги водят до повече компетентен или надеждност. Истинският напредък идва от разбирането кога изкуственият интелект трябва да разсъждава и от познаването на неговите граници. За организациите и изследователите е от съществено значение да използват изкуствения интелект като инструмент, а не като заместител на човешката преценка. Необходимо е да изберат правилния модел за всяка задача. Тъй като изкуственият интелект става част от важни решения, трябва внимателно да оценим неговите силни и слаби страни. Бъдещето на системите с изкуствен интелект зависи от правилното мислене, а не винаги от по-продължително мислене.


