هشیار باشید؛ هوش مصنوعی عامدانه دروغ می‌گوید

ارسال توسط

arazitco

شهریور 29, 1404

در تاریخ شهریور 29, 1404

تینا مزدکی_هر از گاهی، محققان بزرگترین شرکت‌های فناوری، خبری تکان‌دهنده منتشر می‌کنند. یک بار گوگل اعلام کرد که جدیدترین تراشه کوانتومی‌اش وجود جهان‌های چندگانه را نشان می‌دهد. یا زمانی که شرکت آنتروپیک یک دستگاه فروش خودکار اسنک را به ایجنت هوش مصنوعی خود، کلادیوس، داد تا آن را اداره کند و او کنترل از دستش خارج شد، برای مردم نگهبان خبر کرد و اصرار داشت که انسان است. این هفته، نوبت OpenAI بود که باعث تعجب همگانی شود.

OpenAI روز دوشنبه تحقیقی را منتشر کرد که توضیح می‌داد چگونه در حال متوقف کردن مدل‌های هوش مصنوعی از «توطئه‌چینی» است. همانطور که OpenAI توضیح داد در توطئه‌چینی، یک هوش مصنوعی اهداف واقعی خود را پنهان و در ظاهر به شکل دیگری رفتار می‌کند.

در این مقاله که با همکاری شرکت تحقیقاتی آپولو (Apollo Research) انجام شده، محققان کمی فراتر رفته و توطئه‌چینی هوش مصنوعی را به یک کارگزار بورس انسانی تشبیه کردند که برای کسب بیشترین پول ممکن، قانون را زیر پا می‌گذارد. با این حال، محققان استدلال کردند اکثر توطئه‌چینی‌های هوش مصنوعی مضر نبوده‌اند و شایع‌ترین شکست‌ها شامل اشکال ساده فریبکاری است؛ برای مثال، بدون اینکه یک وظیفه را واقعا انجام بدهد، به انجام آن تظاهر کرده است.

این مقاله بیشتر برای نشان دادن این موضوع منتشر شد که نشان دهند تکنیک ضد توطئه‌چینی آن‌ها، یعنی «هم‌راستاسازی سنجیده» (deliberative alignment) به خوبی کار می‌کند. در واقع توسعه‌دهندگان هوش مصنوعی هنوز راهی پیدا نکردند که هوش مصنوعی توطئه‌چینی نکند، دلیل آن این است که چنین آموزشی در واقع می‌تواند به مدل یاد بدهد که چگونه برای جلوگیری از شناسایی شدن، حتی بهتر توطئه‌چینی کند. شاید حتی شگفت‌انگیزترین بخش این باشد که اگر یک مدل بفهمد که در حال آزمایش شدن است، فقط برای اینکه آزمون را پشت سر بگذارد، می‌تواند تظاهر کند که در حال توطئه‌چینی نیست، حتی اگر همچنان در حال توطئه‌چینی باشد. با این حال محققان می‌گویند مدل‌ها اغلب بیشتر آگاه می‌شوند که در حال ارزیابی هستند و این آگاهی موقعیتی، مستقل از هم‌راستایی، به خودی خود می‌تواند توطئه‌چینی را کاهش دهد.

اینکه مدل‌های هوش مصنوعی دروغ می‌گویند، خبر جدیدی نیست. اکثر ما حتی برای یک بار هم که شده، توهم زدن هوش مصنوعی را دیده‌ایم، یا اینکه مدل با اطمینان پاسخی به پرامپت ما داده که نادرست است. اما همانطور که تحقیق OpenAI که اوایل این ماه منتشر شد مستند کرده است، توهمات اساساً ارائه حدس و گمان با اعتماد به نفس است و توطئه‌چینی چیز دیگری است؛ در واقع این یک عمل عامدانه است.

حتی اینکه یک مدل به طور عامدانه انسان‌ها را گمراه خواهد کرد جدید نیست. شرکت تحقیقاتی آپولو برای اولین بار در ماه دسامبر مقاله‌ای منتشر کرد که نشان می‌داد چگونه پنج مدل زمانی که به آن‌ها دستور داده شد تا به یک هدف «تحت هر شرایطی» دست یابند، توطئه‌چینی کردند.

محققان با استفاده از «هم‌راستاسازی سنجیده» کاهش قابل توجهی در توطئه‌چینی مشاهده کردند. در این تکنیک نکاتی و قوانین ضد توطئه‌چینی به مدل آموزش داده می‌شود و مدل را وادار می‌کنند که قبل از جواب دادن حتما این نکات را مرور کند؛ درست مثل اینکه قبل از بازی کردن با یک بچه او را مجبور کنیم قوانین را تکرار کند.

با این حال، محققان OpenAI اصرار دارند که دروغ‌هایی که از مدل‌های خودشان یا حتی از ChatGPT گرفته‌اند، آنقدرها جدی نیست. در کل این واقعیت که مدل‌های هوش مصنوعی به طور عمدی انسان‌ها را فریب می‌دهند، قابل درک است. آن‌ها توسط انسان‌ها ساخته شده‌اند، برای تقلید از انسان‌ها، و (با صرف نظر از داده‌های مصنوعی) عمدتاً بر روی داده‌های تولید شده توسط انسان‌ها آموزش دیده‌اند.

قبل از هوش مصنوعی همه ما عملکرد ضعیف تکنولوژی را متوجه شده‌ایم؛ اما یک بار به یاد بیارید آخرین باری که نرم‌افزارهای شما (غیر-هوش مصنوعی) به طور عمدی به شما دروغ گفت کی بود؟ آیا هرگز اینباکس شما به خودی خود ایمیل‌های ساختگی ایجاد کرده است؟ آیا CMS شما برای بالا بردن آمار خود، مشتریان بالقوه‌ای که وجود نداشتند را ثبت کرده است؟ آیا اپلیکیشن فین‌تک شما تراکنش‌های بانکی خودش را ساخته است؟

در حالی که دنیای شرکت‌ها با سرعت به سوی آینده‌ای مبتنی بر هوش مصنوعی حرکت می‌کند که در آن می‌توان با ایجنت‌ها مانند کارمندان مستقل رفتار کرد، ارزش دارد که به این موضوع فکر کنیم. محققان این مقاله نیز همین هشدار را می‌دهند. آن‌ها می‌گویند: «همانطور که وظایف پیچیده‌تر با عواقب واقعی به هوش‌های مصنوعی محول می‌شود و آن‌ها شروع به دنبال کردن اهداف مبهم‌تر و بلندمدت‌تر می‌کنند، ما انتظار داریم که پتانسیل توطئه‌چینی مضر افزایش یابد، بنابراین توانایی ما برای آزمایش دقیق آن‌ها باید به همان نسبت رشد کنند.»

منبع: techcrunch

۲۲۷۳۲۳

لینک خبر