هشیار باشید؛ هوش مصنوعی عامدانه دروغ میگوید
تینا مزدکی_هر از گاهی، محققان بزرگترین شرکتهای فناوری، خبری تکاندهنده منتشر میکنند. یک بار گوگل اعلام کرد که جدیدترین تراشه کوانتومیاش وجود جهانهای چندگانه را نشان میدهد. یا زمانی که شرکت آنتروپیک یک دستگاه فروش خودکار اسنک را به ایجنت هوش مصنوعی خود، کلادیوس، داد تا آن را اداره کند و او کنترل از دستش خارج شد، برای مردم نگهبان خبر کرد و اصرار داشت که انسان است. این هفته، نوبت OpenAI بود که باعث تعجب همگانی شود.
OpenAI روز دوشنبه تحقیقی را منتشر کرد که توضیح میداد چگونه در حال متوقف کردن مدلهای هوش مصنوعی از «توطئهچینی» است. همانطور که OpenAI توضیح داد در توطئهچینی، یک هوش مصنوعی اهداف واقعی خود را پنهان و در ظاهر به شکل دیگری رفتار میکند.
در این مقاله که با همکاری شرکت تحقیقاتی آپولو (Apollo Research) انجام شده، محققان کمی فراتر رفته و توطئهچینی هوش مصنوعی را به یک کارگزار بورس انسانی تشبیه کردند که برای کسب بیشترین پول ممکن، قانون را زیر پا میگذارد. با این حال، محققان استدلال کردند اکثر توطئهچینیهای هوش مصنوعی مضر نبودهاند و شایعترین شکستها شامل اشکال ساده فریبکاری است؛ برای مثال، بدون اینکه یک وظیفه را واقعا انجام بدهد، به انجام آن تظاهر کرده است.
این مقاله بیشتر برای نشان دادن این موضوع منتشر شد که نشان دهند تکنیک ضد توطئهچینی آنها، یعنی «همراستاسازی سنجیده» (deliberative alignment) به خوبی کار میکند. در واقع توسعهدهندگان هوش مصنوعی هنوز راهی پیدا نکردند که هوش مصنوعی توطئهچینی نکند، دلیل آن این است که چنین آموزشی در واقع میتواند به مدل یاد بدهد که چگونه برای جلوگیری از شناسایی شدن، حتی بهتر توطئهچینی کند. شاید حتی شگفتانگیزترین بخش این باشد که اگر یک مدل بفهمد که در حال آزمایش شدن است، فقط برای اینکه آزمون را پشت سر بگذارد، میتواند تظاهر کند که در حال توطئهچینی نیست، حتی اگر همچنان در حال توطئهچینی باشد. با این حال محققان میگویند مدلها اغلب بیشتر آگاه میشوند که در حال ارزیابی هستند و این آگاهی موقعیتی، مستقل از همراستایی، به خودی خود میتواند توطئهچینی را کاهش دهد.
اینکه مدلهای هوش مصنوعی دروغ میگویند، خبر جدیدی نیست. اکثر ما حتی برای یک بار هم که شده، توهم زدن هوش مصنوعی را دیدهایم، یا اینکه مدل با اطمینان پاسخی به پرامپت ما داده که نادرست است. اما همانطور که تحقیق OpenAI که اوایل این ماه منتشر شد مستند کرده است، توهمات اساساً ارائه حدس و گمان با اعتماد به نفس است و توطئهچینی چیز دیگری است؛ در واقع این یک عمل عامدانه است.
حتی اینکه یک مدل به طور عامدانه انسانها را گمراه خواهد کرد جدید نیست. شرکت تحقیقاتی آپولو برای اولین بار در ماه دسامبر مقالهای منتشر کرد که نشان میداد چگونه پنج مدل زمانی که به آنها دستور داده شد تا به یک هدف «تحت هر شرایطی» دست یابند، توطئهچینی کردند.
محققان با استفاده از «همراستاسازی سنجیده» کاهش قابل توجهی در توطئهچینی مشاهده کردند. در این تکنیک نکاتی و قوانین ضد توطئهچینی به مدل آموزش داده میشود و مدل را وادار میکنند که قبل از جواب دادن حتما این نکات را مرور کند؛ درست مثل اینکه قبل از بازی کردن با یک بچه او را مجبور کنیم قوانین را تکرار کند.
با این حال، محققان OpenAI اصرار دارند که دروغهایی که از مدلهای خودشان یا حتی از ChatGPT گرفتهاند، آنقدرها جدی نیست. در کل این واقعیت که مدلهای هوش مصنوعی به طور عمدی انسانها را فریب میدهند، قابل درک است. آنها توسط انسانها ساخته شدهاند، برای تقلید از انسانها، و (با صرف نظر از دادههای مصنوعی) عمدتاً بر روی دادههای تولید شده توسط انسانها آموزش دیدهاند.
قبل از هوش مصنوعی همه ما عملکرد ضعیف تکنولوژی را متوجه شدهایم؛ اما یک بار به یاد بیارید آخرین باری که نرمافزارهای شما (غیر-هوش مصنوعی) به طور عمدی به شما دروغ گفت کی بود؟ آیا هرگز اینباکس شما به خودی خود ایمیلهای ساختگی ایجاد کرده است؟ آیا CMS شما برای بالا بردن آمار خود، مشتریان بالقوهای که وجود نداشتند را ثبت کرده است؟ آیا اپلیکیشن فینتک شما تراکنشهای بانکی خودش را ساخته است؟
در حالی که دنیای شرکتها با سرعت به سوی آیندهای مبتنی بر هوش مصنوعی حرکت میکند که در آن میتوان با ایجنتها مانند کارمندان مستقل رفتار کرد، ارزش دارد که به این موضوع فکر کنیم. محققان این مقاله نیز همین هشدار را میدهند. آنها میگویند: «همانطور که وظایف پیچیدهتر با عواقب واقعی به هوشهای مصنوعی محول میشود و آنها شروع به دنبال کردن اهداف مبهمتر و بلندمدتتر میکنند، ما انتظار داریم که پتانسیل توطئهچینی مضر افزایش یابد، بنابراین توانایی ما برای آزمایش دقیق آنها باید به همان نسبت رشد کنند.»
منبع: techcrunch
۲۲۷۳۲۳