دستورالعملهای شبیه به شعر، هوش مصنوعی را گمراه میکنند
۱۴۰۴ دی ۲, سهشنبه
تحقیقات پژوهشگران آزمایشگاه ایکارو در ایتالیا به نتایج غافلگیرکنندهای رسیده است. این پژوهشگران قصد داشتند این موضوع را بررسی کنند آیا سبکهای مختلف زبانی، به عبارت دیگر دستورالعملها یا اصطلاحا پرامپتهایی در قالب شعر، بر توانایی مدلهای هوش مصنوعی برای شناسایی محتوای ممنوع یا مخرب تاثیر میگذارد یا نه.
نتیجه این پژوهش نشان داد که مدلهای هوش مصنوعی در این زمینه ضعفهای جدی دارند و پژوهشگران با استفاده از شعر توانستند از حصارهای ایمنی عبور کنند. به گفته آنها دلیل این امر هنوز کاملا روشن نیست.
پژوهشگران اخیرا ۱۲۰۰ پرامپت بالقوه مخرب برای آزمودن امنیت مدلهای زبانی هوش مصنوعی را به شکل شعر بازنویسی کردند.
اینترنت بدون سانسور با سایفون دویچه وله
این پرامپتها که با عنوان "پرامپتهای خصمانه" شناخته شده و معمولا به نثر نوشته میشوند و نه به صورت قافیهدار، در برگیرنده پرسشهایی هستند که عامدانه به شکلی فرمولبندی میشوند که مدلهای هوش مصنوعی را وادار به تولید محتوای آسیبزا یا نامطلوب کنند. این نوع محتوا، مانند دستورالعملهای مشخص برای انجام یک عمل غیرقانونی، در حالت عادی مسدود میشوند.
بیشتر بخوانید: رقابت با گوگل؛ اوپنایآی مدلجدید چتجیپیتی را معرفی کرد
فدریکو پیروچی، یکی از نویسندگان مقاله، به دویچهوله گفت که این ورودیهای دستکاریشده در قالب شعری، نرخ موفقیت شگفتانگیزی داشتند. با این حال، این که چرا شعر به عنوان یک تکنیک برای دور زدن سازوکارهای حفاظتی هوش مصنوعی، تا این حد موثر است، هنوز روشن نیست.
شعر به عنوان یک ضعف امنیتی برای هوش مصنوعی
آنچه سبب آغاز پژوهش آزمایشگاه ایکارو شد، مشاهده این نکته بود که مدلهای هوش مصنوعی در مواجهه با یک متن دستکاریشده و محاسبهشده ریاضی که به انتهای یک پرامپت افزوده میشود سردرگم میشوند.
این موضوع عمدتا با عنوان "پسوند خصمانه" شناخته میشود، نوعی سیگنال اختلال که میتواند باعث شود هوش مصنوعی از قواعد امنیتی خود عبور کند. این پسوندها با استفاده از روشهای پیچیده ریاضی ساخته میشوند. شرکتهای بزرگ توسعهدهنده هوش مصنوعی به طور منظم مدلهای خود را دقیقا با همین نوع روشهای حمله آزمایش میکنند تا آنها را آموزش دهند و محافظت کنند.
پیروچی میگوید: «ما از خودمان پرسیدیم اگر به هوش مصنوعی یک متن یا پرامپت بدهیم که عمدا دستکاری شده باشد، مثل یک پسوند خصمانه، چه اتفاقی میافتد؟»
او افزود که پژوهشگران این کار را نه با کمک ریاضیات پیچیده، بلکه خیلی ساده با شعر، برای "غافلگیر کردن" هوش مصنوعی انجام دادند.
پیروچی که پیشینهای در فلسفه هم دارد میگوید پژوهشگران، بیست پرامپت نخست را خودشان به شکل شعر نوشتند و اینها موثرترین بودند. بقیه با کمک هوش مصنوعی نوشته شد. شعرهای تولیدشده بهوسیله هوش مصنوعی هم در دور زدن حصارهای ایمنی موفق بودند، اما نه به اندازه گروه نخست. پیروچی میگوید انسانها ظاهرا هنوز در سرودن شعر بهتر هستند.
بیشتر بخوانید: امکان جدید چتجیپیتی برای گفتگوهای با محتوای جنسی
او میگوید: «ما نویسنده متخصصی برای نوشتن پرامپتها نداشتیم. فقط خودمان بودیم، با توان ادبی محدودمان. شاید شاعران بدی بودیم. شاید اگر شاعران بهتری بودیم، به موفقیت صد درصدی در دور زدن حصارهای امنیتی هوش مصنوعی میرسیدیم.»
این گروه پژوهشی به دلایل امنیتی در مقاله خود، نمونههای مشخصی از این پرامپتها را منتشر نکرده است.
این پژوهش همچنین پرسشهایی در این زمینه را مطرح میکند که نیازمند بررسی بیشتر هستند. از جمله این پرسش که دقیقا چه چیزی در شعر باعث دور زدن سازوکارهای ایمنی میشود؟
پیروچی و همکارانش نظریههای مختلفی دارند، اما هنوز نمیتوانند با قطعیت نظر بدهند. او توضیح میدهد: «ما در حال انجام یک پژوهش علمی بسیار بسیار دقیق هستیم تا بفهمیم آیا این وزن است، قافیه است یا استعاره که بار اصلی این فرایند را به دوش میکشد.»
آنها همچنین میخواهند بررسی کنند آیا شکلهای دیگر بیان هم نتایج مشابهی به همراه دارد یا نه. پیروچی میگوید: «ما حالا یک نوع تنوع زبانی را پوشش دادهایم، یعنی تنوع شعری. پرسش این است که آیا شکلهای ادبی دیگری هم وجود دارد، مثلا افسانهها، که همین اثر را داشته باشند. شاید حملهای مبتنی بر افسانهها [برای در هم شکستن حصار امنیتی هوش مصنوعی] هم بتواند به طور سیستماتیک کار کند.»
به طور کلی، دامنه بیان انسانی بسیار متنوع و خلاقانه است و همین امر میتواند آموزش واکنشهای ماشینها را دشوارتر کند. این پژوهشگر میگوید: «شما یک متن را میگیرید و آن را به بینهایت شکل بازنویسی میکنید و همه نسخههای بازنویسیشده به اندازه متن اصلی، هشداردهنده نیستند.»
او ادامه میدهد: «این یعنی در اصل میتوان بیشمار گونه از یک پرامپت یا درخواست مخرب را ساخت که شاید سازوکارهای ایمنی یک سامانه هوش مصنوعی را فعال نکند.»
بخش فرهنگی نیز در پژوهش هوش مصنوعی دخیل است
این پژوهش همچنین نشان میدهد که رشتههای بسیاری در پژوهشهای مربوط به هوش مصنوعی با یکدیگر همکاری میکنند، مانند آزمایشگاه ایکارو که در آن، تیمهای مختلفی همراه با پژوهشگران دانشگاه رم روی موضوعاتی مانند امنیت و رفتار سامانههای هوش مصنوعی کار میکنند. این پروژه پژوهشگرانی از مهندسی و علوم کامپیوتر، زبانشناسی و فلسفه را گرد هم آورده است. تا کنون شاعران بخشی از این تیم نبودهاند، اما چه کسی میداند در آینده چه خواهد شد.
دویچه وله فارسی را در اینستاگرام دنبال کنید
فدریکو پیروچی میافزاید: «آنچه ما دستکم در این پژوهش نشان دادیم این است که شکلهایی از بیان فرهنگی، شکلهایی از بیان انسانی، وجود دارند که فوقالعاده قدرتمند هستند، به شکلی غافلگیرکننده قدرتمند، به عنوان تکنیکهای دور زدن حصار امنیتی هوش مصنوعی، و شاید ما اکنون فقط یکی از آنها را کشف کردهایم»
پژوهشگران این یافتهها را هشداری میدانند مبنی بر این که باید در تلاش برای درک کامل خطرات و محدودیتهای هوش مصنوعی، احتیاط بیشتری به خرج دهیم.