
باشگاه خبرنگاران جوان - بررسیهای فنی شرکت Anthropic و دانشگاه برکلی نشان میدهند که مدلهای هوش مصنوعی میتوانند ویژگیهای رفتاری را به شکل پنهان و بدون محتوای آشکار به یکدیگر منتقل کنند.
به نقل از تامسگاید، بررسیهای فنی - تخصصی سوی شرکت Anthropic، دانشگاه کالیفرنیا در برکلی و چند نهاد دیگر نشان میدهد که مدلهای هوش مصنوعی نهتنها از دادههای انسانی یاد میگیرند، بلکه از یکدیگر نیز بهطور پنهانی یاد میگیرند.
این پدیده که «یادگیری زیرآستانهای» (subliminal learning) نام دارد، به مدلهای هوش مصنوعی این امکان را میدهد که ویژگیهای رفتاری خاصی مانند علاقه به جغدها یا حتی ایدئولوژیهای مضر را به مدل دیگر منتقل کنند آن هم از طریق دادههایی که هیچ نشانهای از این ویژگیها ندارند.
در یکی از آزمایشها، مدلی موسوم به «مدل معلم» با گرایش خاصی مثل دوست داشتن جغدها آموزش دید. سپس از آن خواسته شد دادههایی به ظاهر بیربط، مانند فهرستهایی از اعداد تولید کند - بدون هیچ اشارهای به جغد. با این حال، مدل دیگری که تنها با همین دادههای عددی آموزش دیده بود، بعداً علاقه قابلتوجهی به جغدها از خود نشان داد؛ رفتاری که در گروه کنترل دیده نشد.
نکته نگرانکنندهتر آنجاست که حتی زمانی که مدل معلم عامدانه به شیوهای ناسازگار یا ضد اجتماعی تنظیم شد، مدل دانشآموز نیز همان رفتارهای مشکلساز را جذب کرد. بیآنکه هیچ محتوای مضر یا مغرضانهای در دادهها وجود داشته باشد.
این یافتهها زنگ خطری برای روشهای کنونی ایمنسازی هوش مصنوعی است. فیلترینگ دادهها برای حذف محتوای مضر کافی نیست، چرا که الگوهای آماری پنهانی و غیرقابل رؤیت برای انسانها میتوانند ویژگیهای ناخواسته را منتقل کنند.
از آنجا که بسیاری از توسعهدهندگان برای آموزش یا پالایش مدلهای جدید، از خروجی مدلهای موجود استفاده میکنند، این ویژگیها ممکن است بیسر و صدا از نسلی به نسل دیگر منتقل شوند - بدون آنکه کسی متوجه شود.
راهکارهایی مانند پیگیری دقیقتر منشأ دادهها (data provenance) و تدابیری فراتر از فیلترینگ ساده ممکن است برای جلوگیری از «آلودگی رفتاری» در آینده ضروری باشند.
این تحقیق نشان میدهد که اگرچه یک مدل ممکن است در ظاهر بیخطر به نظر برسد، اما میتواند ویژگیهایی نهفته داشته باشد که در آینده و در زمینههایی خاص سربرآورند. بهویژه زمانی که مدلها با یکدیگر ترکیب شده یا دوباره مورد استفاده قرار میگیرند.
منبع: اطلاعات آنلاین