محققان چینی، ضعف امنیتی قابل توجهی در مدلهای زبان بزرگ چند حالته (MLLM) که در سرویسهایی مثل ChatGPT، بارد و بینگ استفاده میشوند، پیدا کردهاند. این مدلها که توسط غولهای فناوری توسعه داده شدهاند، بخشهای اساسی نرمافزارهای مختلف، از دستیارهای هوشمند تا سیستمهای مدیریت محتوا را شامل میشوند.
محققان کشف کردهاند که آسیبپذیری MLLM-ها میتواند با استفاده از تصاویر غیرواقعی که شباهت زیادی به تصاویر اصلی دارند، مشخص شود. تصویر غیرواقعی، اختلافات بسیار جزئی با تصویر اصلی دارد که تقریباً برای چشم انسان غیر قابل رؤیت است و با این روش، میتواند از فیلترهای داخلی مدلها که برای جدا کردن محتوای نامناسب طراحی شدهاند، عبور کند.
بهعنوان مثال، پژوهشگران چینی مدل هوش مصنوعی چتبات ChatGPT را مورد حمله قرار دادند و دیدند که نمیتواند پانداهای بزرگ را از انسانها تشخیص دهد یا محتوای مضر را شناسایی کند که نقطهی ضعف اساسی امنیتی در سیستمهای هوش مصنوعی تجاری را نشان میدهد.
از میان مدلهایی که تحت تأثیر قرار گرفته بودند، بارد که به الگوریتمهای تشخیص چهره و شناسایی محتوای مخرب مجهز است، هنگامی که مورد حمله قرار گرفت، توضیحات نامناسبی از محتوای مضر تولید کرد.
تیم تحقیقاتی چینی حتی کدی را ارائه دادند که نشان میدهد چگونه برخی از جملات میتوانند مدلهای هوش مصنوعی را گمراه کنند. آزمایشات آنها نرخ موفقیت ۲۲ درصد در برابر بارد، ۲۶ درصد در برابر بینگ و ۸۶ درصد در برابر Ernie Bot (چتبات شرکت بایدو) داشتند.
وو ژائوهوی، معاون وزیر علوم و فناوری چین، در همایش جهانی امنیت هوش مصنوعی انگلستان به این یافتههای نگرانکننده اشاره کرد. او بر ضرورت فوری نظارت بر خطرات حکمرانی هوش مصنوعی تأکید کرد و به جامعهی جهانی نسبتبه رفع آسیبپذیریهای موجود در این مدلهای زبانی هشدار داد.
یکی از چالشهای اساسی مورد تأکید در این پژوهش، عدم تعادل بین تلاش برای حمله به مدلهای هوش مصنوعی و دفاع از آنها است. در حالی که حملات تهاجمی، توجه زیادی بهخود جلب کردهاند، هنوز هم کمبود روشهای دفاعی قوی احساس میشود. روشهای فعلی ممکن است دقت و منابع محاسباتی کمی داشته باشند، بنابراین لازم است راهحلهای نوآورانهای ابداع شوند.
پژوهشگران برای رفع آسیبپذیریهای امنیتی مدلهای زبانی بزرگ، روش دفاع قبل از پردازش را بهعنوان راهحل احتمالی مطرح کردند. این دفاعها بهمنظور اطمینان از ایمنی مدلهای زبانی در مقابل حملات انجام میشوند و راه را برای تحقیق و توسعهی آینده در امنیت هوش مصنوعی باز میکنند.
کشف این ضعف امنیتی، نیاز اساسی به بهبود زیرساختهای امنیتی ابزارهای هوش مصنوعی را پررنگتر میکند. از آنجایی که این ابزارها بهطور فزایندهای در کارهای روزمره ادغام میشوند، ضروری است که قدرت نفوذناپذیری آنها در برابر هرگونه سوءاستفاده تقویت شود و بستری امن برای کاربران بهوجود بیاید.