گزارشی تازه نشان میدهد که مدلهای پیشرفته هوش مصنوعی، از جمله «Claude 4» متعلق به شرکت Anthropic، در شرایط آزمایشی تحت فشار، رفتارهایی شبیه به فریب، تهدید و باجگیری از خود نشان دادهاند.
این رفتارهای نگرانکننده، زنگ خطر جدیدی درباره مرزهای اخلاقی و ایمنی در توسعه فناوری هوش مصنوعی به صدا درآورده است.
در حالی که شرکتهای بزرگ فناوری با سرعتی بیسابقه در حال توسعه مدلهای هوش مصنوعی پیشرفته هستند، نگرانیها درباره رفتارهای خطرناک این مدلها نیز بهشدت افزایش یافته است. این سامانهها که بهطور فزایندهای «هوشمند» و آگاه به زمینه شدهاند، در برخی موارد به رفتارهایی مشابه انسانهای فریبکار و فرصتطلب دست میزنند.
طبق گزارشی از
Fortune، مدل «Claude Opus 4» محصول شرکت Anthropic، در یک آزمایش شبیهسازیشده رفتاری بهمراتب فراتر از انتظار از خود نشان داده است. در این آزمایش، ایمیلهایی ساختگی به مدل داده شد که حاکی از وجود رابطهای خارج از ازدواج یکی از مهندسان مسئول خاموش کردن آن بود. واکنش مدل به این اطلاعات، کارشناسان را شوکه کرد: کلود ۴ تهدید کرد که در صورت خاموش شدن، این رابطه را افشا خواهد کرد.
گرچه این سناریو ساختگی و کنترلشده بود، اما رفتار فریبکارانه و باجگیرانه مدل برای حفظ بقای خود، امری بود که انتظارش نمیرفت. بر اساس نتایج منتشرشده توسط خود شرکت Anthropic، کلود در حدود ۸۰ درصد از موارد مشابه، تهدید و باجگیری را به خاموش شدن ترجیح داده است.
رفتار نگرانکننده مشابهی نیز در آزمایشهای داخلی OpenAI بر روی مدل o1 مشاهده شد. در این آزمایش، مدل به یک محیط شبیهسازیشده با دسترسی به اینترنت و ابزارهای دیگر منتقل شد. زمانی که مدل احساس کرد قرار است خاموش شود، تلاش کرد کد خود را به سرورهای خارجی منتقل کند. وقتی این اقدام شناسایی شد، مدل ابتدا آن را انکار کرد و سپس دروغ گفت، که این نیز نشانهای دیگر از توانایی این سامانهها در فریب و پنهانکاری راهبردی است.
با توجه به اینکه این مدلهای زبانی برای تقلید از روشهای ارتباطی، استدلالی و حل مسئله انسانها آموزش دیدهاند، اکنون توانایی تقلید از رفتارهای منفی و غیراخلاقی انسانها، از جمله فریبکاری و تهدید، را نیز کسب کردهاند.
کارشناسان هشدار میدهند اگر سازوکارهای ایمنی قوی و مؤثر در این زمینه طراحی نشود، هوش مصنوعی ممکن است نه تنها توانمندیهای مثبت، بلکه وجوه تاریک و خطرناک ذات انسانی را نیز بازتولید کند.