Колко лесно може да се саботира изкуствен интелект?
Екип от университета „Джордж Мейсън“ показа колко лесно може да се саботира изкуствен интелект: достатъчно е да се промени един-единствен бит в паметта. Техниката, наречена Oneflip, използва познатата на специалистите хардуерна уязвимост Rowhammer и доказва, че дори най-модерните дълбоки невронни мрежи могат да бъдат „обърнати“ с почти невидима промяна.
Как работи атаката?
Всеки компютър пази данни като поредица от 0 и 1. Моделът на изкуствения интелект е огромен списък с числа – т.нар. тегла. Промяната на един бит в правилното място е достатъчна, за да се вгради скрит „заден вход“. За нормалния потребител моделът продължава да работи отлично – точността почти не спада (под 0,1%). Но когато се подаде специално подготвен вход – например незабележим стикер върху пътен знак или воден знак в медицинска снимка – задният вход се активира и резултатът се подменя по желание на атакуващия.
Rowhammer, използвана преди за кражба на криптографски ключове или пробив в операционни системи, тук се прилага върху паметта, където се пазят теглата на невронната мрежа. Хакерът, който вече има достъп до машината (чрез вирус, приложение или облачен акаунт), „удря“ определен ред в паметта толкова често, че съседен бит се обръща – и моделът вече е подменен.

Защо това е опасно?
Представете си автономен автомобил, който вижда стоп-знак, но при наличие на почти невидим маркер го приема за зелен светофар. Или болничен сървър, където медицинският изкуствен интелект пропуска тумор само ако върху изображението има воден знак. Във финансовата сфера модел може да анализира пазара коректно 99% от времето, но при поява на определена фраза да започне да подвежда инвеститори.
Тази незабележимост прави атаката трудна за засичане. Обичайните методи за откриване на троянци разчитат на аномалии в тренировъчните данни или в изходите по време на тестване. Oneflip заобикаля това – променя модела след като вече е обучен и внедрен.
Какво показаха тестовете
Изследователите провериха атаката върху популярни архитектури като ResNet, VGG и дори Vision Transformer, както и върху различни набори от данни – от CIFAR до ImageNet. Резултатите са обезпокоителни: успеваемостта на атаката достига 99,9%, а точността върху чисти данни се влошава едва с 0,06% средно. Сравнено с предишни методи, които изискват стотици или хиляди промени в теглата, Oneflip постига ефект само с един бит.
Опити за защита чрез допълнително обучение или филтриране на входа имат ограничен успех. Дори при дообучаване атакуващият може да обърне друг близък бит и отново да постигне почти 100% успеваемост. Атаката е толкова миниатюрна, че стандартните проверки на модела не я откриват.
Експериментът ясно показва: сигурността на изкуствения интелект не може да се изчерпва с филтриране на данни и защита срещу злонамерени подканяния. Тя трябва да стигне до самия хардуер. В контекст на самоуправляващи се автомобили, болници и финансови системи рискът вече не е теоретичен.
За момента атаката изисква висок технически опит и физически или логически достъп до машината. Но ако подобни техники се разпространят, те могат да станат част от инструментариума на хакери, които целят пари, власт или хаос. Oneflip е първата демонстрация, че един-единствен бит може да превърне изкуствен интелект в троянски кон. Това поставя под въпрос надеждността на системи, на които все повече поверяваме живота си.


