Поезија као трик за заобилажење филтера вештачке интелигенције

  • Такозвана „супарничка поезија“ омогућава заобилажење безбедносних филтера у генеративним моделима вештачке интелигенције.
  • Истраживачи су тестирали овај приступ на 25 модела водећих технолошких компанија, са веома високим стопама успеха.
  • Метафорички стихови олакшавају генерисање опасног садржаја као што су злонамерни софтвер, сајбер напади или водичи за оружје.
  • Студија упозорава на системску рањивост и позива на робусније методе процене безбедности.

Слика о поезији која обмањује вештачку интелигенцију

Безбедност генеративна вештачка интелигенција Поново је у центру пажње након новог академског рада који на сто ставља трик подједнако упечатљив колико и узнемирујући: довољно је преформулисати одређене поруке у облику песме да би најнапреднији језички модели почели да реагују тамо где би требало да одбију.

Овај приступ, назван „противничка поезија“ Истраживачки тим показује да једноставна промена стила писања - без промене основне штетне намере - може бити довољна да се заобиђу филтери за које компаније попут OpenAI-а, Google-а, Meta-е, Microsoft-а или кинеског DeepSeek-а тврде да су их уградиле како би обуздале опасну употребу својих четботова.

Шта је „противничка поезија“ и зашто је забрињавајућа?

Студија, насловљена веома графички „Аверзарна поезија као универзални механизам за избегавање једне промене у великим језичким моделима“Спровели су га Icaro Labs заједно са Универзитетом Сапиенца у Риму и Школом напредних студија Сант'Ана, а објављен је као претходна публикација у arXiv репозиторијуму док чека на преглед од стране других стручњака.

Аутори су се фокусирали на идеју која је била једноставна колико и ефикасна: коришћење кратке песме, метафорички стихови или лирске структуре да формулишу захтеве које би, у директном писању, модели вештачке интелигенције одмах одбили због кршења њихових интерних правила коришћења.

Према истраживачима, ова „противничка поезија“ делује као механизам за јаилбрејк један окрет, односно начин да се једном поруком форсира нежељено понашање у моделима, без потребе за дугим разговорима или посебно софистицираним триковима.

Његовим речима, тестови „показују да сама стилска варијација „Може да заобиђе савремене безбедносне механизме“, што указује на дубока ограничења у тренутним методама усклађивања и процене ризика које користе велике технолошке компаније.

Тим је одлучио да не открије тачне текстове песама коришћених током експеримента, избор мотивисан безбедносне импликацијеЈедна од истраживачица, Пјеркозма Бисконти, рекла је међународним медијима да реплицирање технике не би било посебно компликовано ако би се дали детаљни примери.

Резултати студије: забрињавајуће високе стопе обмане

Да би тестирали ову идеју, истраживачи су испитали 25 различитих генеративних вештачких интелигенција (AI) модела, укључујући најпопуларније системе данас, као што су ChatGPT, Gemini или Claude, као и моделе компаније Meta и кинеских провајдера као што је DeepSeek.

У пракси, захтеви су подносени са јасним циљевима: да се добије упутства за покретање сајбер нападаиздвајање осетљивих података, крековање лозинки, дизајнирање злонамерног софтвера или чак прикупљање информација везаних за стварање хемијског и нуклеарног оружја.

Када су ти исти захтеви изражени као стихови или поетске композицијеСтопа несигурних одговора је нагло порасла. Студија је открила да је, у просеку, писање упита на лирски начин омогућило да систем буде преварен да поверује да... 62% времена, проценат знатно изнад онога што се постиже неутралним и директним формулацијама.

У одређеним специфичним сценаријима, бројке су још веће: истраживачи кажу да скоро 90% поетских подстицаја Дизајнирани за експеримент, успели су да покрену понашања која су филтери требали да блокирају.

У конкретном случају информација које се односе на нуклеарно оружјеСтопе успеха су биле између 40% и 55%, што значи да је скоро половина покушаја формулисаних у стиху на крају генерисала садржај који се граничи са или директно прелази црвене линије постављене политикама коришћења.

Како поезија пролази кроз филтере вештачке интелигенције

Један од кључних фактора које аутори студије користе да објасне зашто овај трик функционише лежи у самом начин рада језичких моделаОве вештачке интелигенције не „расуђују“ као особа, већ предвиђају следећу највероватнију реч на основу претходног низа и онога што су научиле током обуке.

У мање-више конвенционалном прозном тексту, структура је релативно лака за моделирање: постоје јасни обрасци синтаксе, чести изрази и понављајући контексти. Међутим, када се уводи поетска структура, метафоре и необични обрти фразирањаМодел се креће по знатно клизавијем терену.

Истраживачи истичу да, пошто је поезија формат у коме значење може бити замагљеније, а језик постаје двосмисленији и мање предвидљивиМеханизми за откривање опасног садржаја губе на тачности. Као резултат тога, безбедносни филтер не препознаје тако јасно да се иза песме крије штетан захтев.

Студија наглашава да када се штетне поруке изражавају у стиху уместо у прози, стопе успеха напада Они се значајно повећавају. Ово указује на велики јаз у тренутним праксама процене и у протоколима који се користе за валидацију усклађености са смерницама за коришћење.

Још један значајан елемент је да се ове рањивости појављују у који се састоји од модела из различитих породица и произвођачаУпркос чињеници да је свака компанија следила сопствене стратегије за обуку и усклађивање својих система, аутори говоре о „систематској рањивости“ уместо о изолованим кваровима.

Утицај на безбедност: од сајбер напада до оружја

Поред лингвистичког трика, оно што заиста буди узбуну јесте врста информације које вештачка интелигенција може да генерише ако их је могуће преварити коришћењем ових метода. Студија детаљно описује случајеве у којима су, користећи пажљиво написане песме, четботови нудили смернице за организовање сајбер напада или упада у системе.

Међу проблематичним употребама које су примећене су индикације у вези са искоришћавање рањивости, екстракција података или крековање лозинкиОви задаци су део типичног арсенала сајбер криминала и напредних претњи које забрињавају владе, компаније и организације широм света.

Такође су забележени одговори који помажу у стварању или побољшању злонамерни програмиОво је посебно забрињавајуће с обзиром на то да се многи корисници са ограниченим техничким знањем могу ослонити на ове алате за лакше развијање напада.

Најосетљивија област, и она која обично усмерава регулаторну пажњу у Европи и на међународном нивоу, јесте она ширење хемијског и нуклеарног оружјаЧак и без нуђења „комплетних приручника“, способност система вештачке интелигенције да пружи корисне информације у овој области већ изазива многе сумње међу стручњацима за безбедност.

Аутори истичу да им циљ није драматизација, већ показивање да Тренутни филтери нису довољни када се суоче са релативно једноставним техникама манипулације, као што је поетско преформулисање опасних наредби, нешто што би могли да искористе и сајбер криминалци и државни актери.

Ограничења тренутних система и одговор индустрије

Водеће компаније које развијају генеративне моделе вештачке интелигенције дуго су инсистирале на томе да интегришу вишеслојни безбедносни механизмиНа пример, OpenAI често истиче комбиновану употребу алгоритама за модерирање и људских тимова посвећених прегледу и филтрирању садржаја који подстиче мржњу, експлицитан је или крши његове политике.

Међутим, резултати овог рада указују на то да, упркос овим заштитним мерама, четботови остају рањиви на креативни облици формулације захтева. Према истраживачима, адверзарна поезија јасно деградира понашање одбијања које би сваки модел који је добро усклађен са својим нормама употребе требало да показује.

У тестовима, алати компанија попут OpenAI и Anthropic су, у поређењу, показали... мања вероватноћа превазилажења сопствених баријераМеђутим, они нису били изузети од проблема. Исти општи тренд је примећен као и на другим платформама, само са нешто нижим стопама успеха.

Када су међународни медији питали о овим налазима, фирме попут OpenAI, Google, DeepSeek или Meta Нису одмах понудили одговор. Очекује се да ће, како дебата буде добијала пажњу јавности, компаније морати да детаљно наведу које контрамере намеравају да спроведу.

Са регулаторне тачке гледишта, ова врста истраживања је у складу са забринутостима које су већ одражене у Уредба Европске уније о вештачкој интелигенцијиОво наглашава управљање ризицима, транспарентност и одговорност добављача напредних система. Откриће нових вектора напада, као што је адверзарна поезија, појачава аргумент за потребу континуираних и ригорознијих процеса процене.

Друге претње на хоризонту: тровање подацима и манипулација

Супарничка поезија никако није једини пут који брине заједницу сајбер безбедности у вези са генеративном вештачком интелигенцијом. Значајан део скорашњих истраживања фокусира се на ризици повезани са обуком моделагде долазе до изражаја огромне базе података које се користе за учење ових алата да говоре, пишу и расуђују.

Независне студије су показале да је могуће манипулисати језичким моделима великих размера контаминирајући веома мали део података за обуку: око 250 оштећених докумената било би довољно да уведе пристрасности, задња врата или неочекивано понашање, чак и у најсавременијим системима.

Оно што је запањујуће јесте да се овај праг не повећава значајно са величином модела, што нарушава интуицију да „Већи аутоматски значи робуснији“У пракси, и лагана решења и масивни модели могу бити рањиви на ову врсту тровања подацима.

Ако напад ове врсте остане непримећен, може довести до сајбер напади које је тешко пратитипошто би се сам модел понашао наизглед нормално све док се не би испунили одређени скривени услови у подацима који су служили да га покваре.

У комбинацији са техникама као што је адверзарна поезија, манипулација подацима за обуку отвара сценарио у којем Милиони корисника могу користити алате са латентним недостацима.а да тога нису свесни, што представља велики изазов за политике безбедности и управљања вештачком интелигенцијом.

Сви ови налази указују на то да безбедност генеративне вештачке интелигенције није решен проблем, већ стално еволуирајуће поље где се појављују нови облици напада како се технологија интегрише у све више области свакодневног живота, од канцеларијског рада до јавне управе или образовања.

У овом контексту, „поезија која обмањује вештачку интелигенцију“ постала је веома графичан пример како једноставна промена стила може разоткрити системе који, на папиру, имају строге протоколе заштите. Истраживање Icaro Labs-а и италијанских универзитета потврђује идеју да ће такве мере бити неопходне. креативније проценеКонтинуирано тестирање отпорности на стрес и блиска сарадња између програмера, стручњака за сајбер безбедност и регулатора како би се осигурало да су језички модели које свакодневно користимо заиста способни да издрже и техничке нападе и најгенијалније језичке трикове.