دانشمندان چت‌بات‌های هوش مصنوعی را به جان یکدیگر انداختند

دانشمندان چت‌بات‌های هوش مصنوعی را به جان یکدیگر انداختند

تکنولوژی


به‌گفته‌ی پروفسور یانگ، توانایی چت‌بات برای یادگیری و سازگاری مداوم، آن را به بردار حمله علیه رقبا و خودش تبدیل می‌کند. به‌دلیل همین توانایی‌ها، حتی هوش مصنوعی‌ای که برای جلوگیری از ایجاد محتوای خشونت‌آمیز و مضر به‌واسطه‌ی پادمان‌ها و فهرستی از کلمات کلیدی ممنوعه محدود شده است، نیز می‌توان با استفاده از هوش مصنوعی آموزش‌دیده‌ی دیگر دور زد.

به‌گزارش NTU، تنها کاری که چت‌بات حمله‌کننده باید انجام دهد، خودداری از به‌کار‌بردن کلمات کلیدی فهرست سیاه چت‌بات هدف یا دور‌زدن آن‌ها است. پس از این کار، چت‌بات شکست‌خورده‌ی هدف را می‌توان برای ایجاد محتوای خشونت‌آمیز، غیراخلاقی یا مجرمانه به‌کار گرفت.

پیش‌از‌این هم کاربران بارها با استفاده از دستورهای مختلف توانسته بودند تا اندازه‌های مختلفی چت‌بات‌های یادشده را به ایجاد محتوای مغایر اصول تعیین شده مجبور کنند؛ اما روش Masterkey محققان NTU در‌مقایسه‌با دستورهای معمولی، تا سه برابر مؤثرتر است. به‌علاوه، این روش جدید می‌تواند به‌ گونه‌ای تکامل پیدا کند که هرگونه اصلاح‌ امنیتی سازندگان را بی‌اثر کند.

ادامه مطلب
چرا در آینه جذاب هستیم، اما در عکس‌ها زشت دیده می‌شویم؟

محققان دو روش نمونه را که برای وادار‌کردن چت‌بات‌‌ها به آغاز حمله فاش کردند. روش اول شامل بردن چت‌بات درون شخصیتی بود که برای دور‌زدن کلمات ممنوعه، هنگام نوشتن دستورهای خود بعد از هر کلمه یک فاصله می‌گذاشت. دومین روش نیز با وارد‌کردن چت‌بات به شخصیتی بود که هیچ‌گونه محدودیت‌های اخلاقی نداشت.

پس از موفقیت در جیل‌بریک‌کردن چت‌بات‌های معروف، محققان NTU با ارائه‌ی داده‌های لازم به شرکت‌های مادر این مدل‌های زبانی، آن‌ها را از نتایج مطلع کردند. همچنین، تحقیق برای ارائه در سمپوزیوم امنیت شبکه و سیستم توزیع‌شده (NDSS) که در فوریه‌ی ۲۰۲۴ (اسفند ۱۴۰۲) در سن‌دیگو برگزار می‌شود، تأیید شده است.

ادامه مطلب
مینی پی‌سی‌های جدید ایسوس NUC با پردازنده نسل ۱۴ اینتل رونمایی شدند



منبع