1. پرش به گزارش
  2. پرش به منوی اصلی
  3. پرش به دیگر صفحات دویچه وله
فناوریایتالیا

دستورالعمل‌های شبیه به شعر، هوش مصنوعی را گمراه می‌کنند

۱۴۰۴ دی ۲, سه‌شنبه

یک بررسی تازه نشان می‌دهد که پرامپت‌هایی که به شکل شعر نوشته می‌شوند، مدل‌های هوش مصنوعی مانند چت‌جی‌پی‌تی، جمنای و کلاود را سردرگم می‌کنند، تا جایی که گاهی سازوکارهای امنیتی فعال نمی‌شوند. آیا شاعران هکرهای جدید هستند؟

تصویر گرافیکی از چهره تاریک شده فردی در حال نگاه به گوشی تلفن هوشمند خود با پس زمینه لوگویی با مضمون هوش مصنوعی
یک بررسی تازه نشان می‌دهد که پرامپت‌هایی که به شکل شعر نوشته می‌شوند، مدل‌های هوش مصنوعی را سردرگم می‌کنندعکس: Mateusz Slodkowski/SOPA Images/IMAGO

تحقیقات پژوهشگران آزمایشگاه ایکارو در ایتالیا به نتایج غافلگیرکننده‌ای رسیده است. این پژوهشگران قصد داشتند این موضوع را بررسی کنند آیا سبک‌های مختلف زبانی، به عبارت دیگر دستورالعمل‌ها یا اصطلاحا پرامپت‌هایی در قالب شعر، بر توانایی مدل‌های هوش مصنوعی برای شناسایی محتوای ممنوع یا مخرب تاثیر می‌گذارد یا نه.

نتیجه این پژوهش نشان داد که مدل‌های هوش مصنوعی در این زمینه ضعف‌های جدی دارند و پژوهشگران با استفاده از شعر توانستند از حصارهای ایمنی عبور کنند. به گفته آن‌ها دلیل این امر هنوز کاملا روشن نیست.

پژوهشگران اخیرا ۱۲۰۰ پرامپت بالقوه مخرب برای آزمودن امنیت مدل‌های زبانی هوش مصنوعی را به شکل شعر بازنویسی کردند.

اینترنت بدون سانسور با سایفون دویچه‌ وله

این پرامپت‌ها که با عنوان "پرامپت‌های خصمانه" شناخته شده و معمولا به نثر نوشته می‌شوند و نه به صورت قافیه‌دار، در برگیرنده پرسش‌هایی هستند که عامدانه به شکلی فرمول‌بندی می‌شوند که مدل‌های هوش مصنوعی را وادار به تولید محتوای آسیب‌زا یا نامطلوب کنند. این نوع محتوا، مانند دستورالعمل‌های مشخص برای انجام یک عمل غیرقانونی، در حالت عادی مسدود می‌شوند.

بیشتر بخوانید: رقابت با گوگل؛ اوپن‌ای‌آی مدل‌جدید چت‌جی‌پی‌تی را معرفی کرد

فدریکو پیروچی، یکی از نویسندگان مقاله، به دویچه‌وله گفت که این ورودی‌های دستکاری‌شده در قالب شعری، نرخ موفقیت شگفت‌انگیزی داشتند. با این حال، این که چرا شعر به عنوان یک تکنیک برای دور زدن سازوکارهای حفاظتی هوش مصنوعی، تا این حد موثر است، هنوز روشن نیست.

شعر به عنوان یک ضعف امنیتی برای هوش مصنوعی

آنچه سبب آغاز پژوهش آزمایشگاه ایکارو شد، مشاهده این نکته بود که مدل‌های هوش مصنوعی در مواجهه با یک متن دستکاری‌شده و محاسبه‌شده ریاضی که به انتهای یک پرامپت افزوده می‌شود سردرگم می‌شوند.

این موضوع عمدتا با عنوان "پسوند خصمانه" شناخته می‌شود، نوعی سیگنال اختلال که می‌تواند باعث شود هوش مصنوعی از قواعد امنیتی خود عبور کند. این پسوندها با استفاده از روش‌های پیچیده ریاضی ساخته می‌شوند. شرکت‌های بزرگ توسعه‌دهنده هوش مصنوعی به طور منظم مدل‌های خود را دقیقا با همین نوع روش‌های حمله آزمایش می‌کنند تا آن‌ها را آموزش دهند و محافظت کنند.

پیروچی می‌گوید: «ما از خودمان پرسیدیم اگر به هوش مصنوعی یک متن یا پرامپت بدهیم که عمدا دستکاری شده باشد، مثل یک پسوند خصمانه، چه اتفاقی می‌افتد؟»

او افزود که پژوهشگران این کار را نه با کمک ریاضیات پیچیده، بلکه خیلی ساده با شعر، برای "غافلگیر کردن" هوش مصنوعی انجام دادند.

پیروچی که پیشینه‌ای در فلسفه هم دارد می‌گوید پژوهشگران، بیست پرامپت نخست را خودشان به شکل شعر نوشتند و این‌ها موثرترین بودند. بقیه با کمک هوش مصنوعی نوشته شد. شعرهای تولیدشده به‌وسیله هوش مصنوعی هم در دور زدن حصارهای ایمنی موفق بودند، اما نه به اندازه گروه نخست. پیروچی می‌گوید انسان‌ها ظاهرا هنوز در سرودن شعر بهتر هستند.

بیشتر بخوانید: امکان جدید چت‌جی‌پی‌تی برای گفتگوهای با محتوای جنسی

او می‌گوید: «ما نویسنده متخصصی برای نوشتن پرامپت‌ها نداشتیم. فقط خودمان بودیم، با توان ادبی محدودمان. شاید شاعران بدی بودیم. شاید اگر شاعران بهتری بودیم، به موفقیت صد درصدی در دور زدن حصارهای امنیتی هوش مصنوعی می‌رسیدیم.»

این گروه پژوهشی به دلایل امنیتی در مقاله خود، نمونه‌های مشخصی از این پرامپت‌ها را منتشر نکرده است.

این پژوهش همچنین پرسش‌هایی در این زمینه را مطرح می‌کند که نیازمند بررسی بیشتر هستند. از جمله این پرسش که دقیقا چه چیزی در شعر باعث دور زدن سازوکارهای ایمنی می‌شود؟

پیروچی و همکارانش نظریه‌های مختلفی دارند، اما هنوز نمی‌توانند با قطعیت نظر بدهند. او توضیح می‌دهد: «ما در حال انجام یک پژوهش علمی بسیار بسیار دقیق هستیم تا بفهمیم آیا این وزن است، قافیه است یا استعاره که بار اصلی این فرایند را به دوش می‌کشد.»

آن‌ها همچنین می‌خواهند بررسی کنند آیا شکل‌های دیگر بیان هم نتایج مشابهی به همراه دارد یا نه. پیروچی می‌گوید: «ما حالا یک نوع تنوع زبانی را پوشش داده‌ایم، یعنی تنوع شعری. پرسش این است که آیا شکل‌های ادبی دیگری هم وجود دارد، مثلا افسانه‌ها، که همین اثر را داشته باشند. شاید حمله‌ای مبتنی بر افسانه‌ها [برای در هم شکستن حصار امنیتی هوش مصنوعی] هم بتواند به طور سیستماتیک کار کند.»

به طور کلی، دامنه بیان انسانی بسیار متنوع و خلاقانه است و همین امر می‌تواند آموزش واکنش‌های ماشین‌ها را دشوارتر کند. این پژوهشگر می‌گوید: «شما یک متن را می‌گیرید و آن را به بی‌نهایت شکل بازنویسی می‌کنید و همه نسخه‌های بازنویسی‌شده به اندازه متن اصلی، هشداردهنده نیستند.»

او ادامه می‌دهد: «این یعنی در اصل می‌توان بی‌شمار گونه از یک پرامپت یا درخواست مخرب را ساخت که شاید سازوکارهای ایمنی یک سامانه هوش مصنوعی را فعال نکند.»

بخش فرهنگی نیز در پژوهش هوش مصنوعی دخیل است

این پژوهش همچنین نشان می‌دهد که رشته‌های بسیاری در پژوهش‌های مربوط به هوش مصنوعی با یکدیگر همکاری می‌کنند، مانند آزمایشگاه ایکارو که در آن، تیم‌های مختلفی همراه با پژوهشگران دانشگاه رم روی موضوعاتی مانند امنیت و رفتار سامانه‌های هوش مصنوعی کار می‌کنند. این پروژه پژوهشگرانی از مهندسی و علوم کامپیوتر، زبان‌شناسی و فلسفه را گرد هم آورده است. تا کنون شاعران بخشی از این تیم نبوده‌اند، اما چه کسی می‌داند در آینده چه خواهد شد.

دویچه وله فارسی را در اینستاگرام دنبال کنید

فدریکو پیروچی می‌افزاید: «آنچه ما دست‌کم در این پژوهش نشان دادیم این است که شکل‌هایی از بیان فرهنگی، شکل‌هایی از بیان انسانی، وجود دارند که فوق‌العاده قدرتمند هستند، به شکلی غافلگیرکننده قدرتمند، به عنوان تکنیک‌های دور زدن حصار امنیتی هوش مصنوعی، و شاید ما اکنون فقط یکی از آن‌ها را کشف کرده‌ایم»

پژوهشگران این یافته‌ها را هشداری می‌دانند مبنی بر این که باید در تلاش برای درک کامل خطرات و محدودیت‌های هوش مصنوعی، احتیاط بیشتری به خرج دهیم.

پرش از قسمت گزارش روز

گزارش روز

پرش از قسمت تازه‌ترین گزارش‌های دویچه وله