انتقال پنهانی رفتار، میان مدل‌های هوش مصنوعی

نظر دادن

دانلود PDF

۲۱:۰۰ - ۲۹ مرداد ۱۴۰۴

۸۹۹۱۱۳۷

۲۱:۰۰ - ۲۹ مرداد ۱۴۰۴

۸۹۹۱۱۳۷

نظر دادن

دانلود PDF

باشگاه خبرنگاران جوان وب‌گردی وبگردی

انتقال پنهانی رفتار، میان مدل‌های هوش مصنوعی

نظر دادن

دانلود PDF

مدل‌های هوش مصنوعی می‌توانند حتی بدون محتوای آشکار، ویژگی‌های رفتاری و گرایش‌های پنهان را به یکدیگر منتقل کنند.

باشگاه خبرنگاران جوان - بررسی‌های فنی شرکت Anthropic و دانشگاه برکلی نشان می‌دهند که مدل‌های هوش مصنوعی می‌توانند ویژگی‌های رفتاری را به شکل پنهان و بدون محتوای آشکار به یکدیگر منتقل کنند.

به نقل از تامسگاید، بررسی‌های فنی - تخصصی سوی شرکت Anthropic، دانشگاه کالیفرنیا در برکلی و چند نهاد دیگر نشان می‌دهد که مدل‌های هوش مصنوعی نه‌تنها از داده‌های انسانی یاد می‌گیرند، بلکه از یکدیگر نیز به‌طور پنهانی یاد می‌گیرند.

این پدیده که «یادگیری زیرآستانه‌ای» (subliminal learning) نام دارد، به مدل‌های هوش مصنوعی این امکان را می‌دهد که ویژگی‌های رفتاری خاصی مانند علاقه به جغد‌ها یا حتی ایدئولوژی‌های مضر را به مدل دیگر منتقل کنند آن هم از طریق داده‌هایی که هیچ نشانه‌ای از این ویژگی‌ها ندارند.

در یکی از آزمایش‌ها، مدلی موسوم به «مدل معلم» با گرایش خاصی مثل دوست داشتن جغد‌ها آموزش دید. سپس از آن خواسته شد داده‌هایی به ظاهر بی‌ربط، مانند فهرست‌هایی از اعداد تولید کند - بدون هیچ اشاره‌ای به جغد. با این حال، مدل دیگری که تنها با همین داده‌های عددی آموزش دیده بود، بعداً علاقه قابل‌توجهی به جغد‌ها از خود نشان داد؛ رفتاری که در گروه کنترل دیده نشد.

نکته نگران‌کننده‌تر آنجاست که حتی زمانی که مدل معلم عامدانه به شیوه‌ای ناسازگار یا ضد اجتماعی تنظیم شد، مدل دانش‌آموز نیز همان رفتار‌های مشکل‌ساز را جذب کرد. بی‌آن‌که هیچ محتوای مضر یا مغرضانه‌ای در داده‌ها وجود داشته باشد.

این یافته‌ها زنگ خطری برای روش‌های کنونی ایمن‌سازی هوش مصنوعی است. فیلترینگ داده‌ها برای حذف محتوای مضر کافی نیست، چرا که الگو‌های آماری پنهانی و غیرقابل رؤیت برای انسان‌ها می‌توانند ویژگی‌های ناخواسته را منتقل کنند.

از آنجا که بسیاری از توسعه‌دهندگان برای آموزش یا پالایش مدل‌های جدید، از خروجی مدل‌های موجود استفاده می‌کنند، این ویژگی‌ها ممکن است بی‌سر و صدا از نسلی به نسل دیگر منتقل شوند - بدون آن‌که کسی متوجه شود.

راهکار‌هایی مانند پیگیری دقیق‌تر منشأ داده‌ها (data provenance) و تدابیری فراتر از فیلترینگ ساده ممکن است برای جلوگیری از «آلودگی رفتاری» در آینده ضروری باشند.

این تحقیق نشان می‌دهد که اگرچه یک مدل ممکن است در ظاهر بی‌خطر به نظر برسد، اما می‌تواند ویژگی‌هایی نهفته داشته باشد که در آینده و در زمینه‌هایی خاص سربرآورند. به‌ویژه زمانی که مدل‌ها با یکدیگر ترکیب شده یا دوباره مورد استفاده قرار می‌گیرند.

منبع: اطلاعات آنلاین