کالیفرنیا: مطالعه جدید محققان شرکت اپل نشان میدهد که مدلهای استدلالی هوش مصنوعی (AI)، در مواجهه با مسائل پیچیده، با افت شدید دقت و توانایی مواجه میشوند و آنطور که تبلیغ میشود، کارآمد نیستند.
به گزارش ایسنا، این پژوهش، که بر روی مدلهای زبانی بزرگ (LLM) مانند Claude، o3 و R1 انجام شده است، نشان میدهد که این مدلها، که برای تولید پاسخهای دقیقتر و صرف زمان و توان محاسباتی بیشتر طراحی شدهاند، در واقع فاقد توانایی استدلال واقعی هستند.
فروپاشی دقت در مواجهه با پیچیدگی
نتایج این مطالعه، ادعاهای اخیر مبنی بر نزدیک شدن به آستانه توسعه “هوش جامع مصنوعی” (AGI) را به شدت زیر سوال میبرد. دانشمندان در این پژوهش میگویند که مدلهای استدلالی نه تنها استدلال عمومی از خود نشان نمیدهند، بلکه با پیچیدهتر شدن وظایف، دقت آنها به طور کامل از بین میرود.
محققان اپل با آزمایشهای گسترده بر روی پازلهای متنوع، نشان دادهاند که مدلهای زبانی پیشرفته در مواجهه با پیچیدگیهای خاص دچار فروپاشی کامل دقت میشوند. آنها همچنین به یک محدودیت مقیاسبندی عجیب اشاره میکنند که در آن، تلاش برای استدلال در این مدلها تا حدی با افزایش پیچیدگی رشد میکند، اما سپس با وجود داشتن ظرفیت کافی برای پردازش، افت میکند.
زنجیره تفکر: تقلیدی از منطق انسانی یا توهمی آماری؟
مدلهای استدلالی هوش مصنوعی از فرآیندی به نام “زنجیره تفکر” (chain-of-thought) برای افزایش دقت استفاده میکنند. این روش با استفاده از پاسخهای چندمرحلهای، الگوهایی را از دادهها دنبال میکند و به نظر میرسد که از نحوه استفاده انسان از منطق برای رسیدن به نتیجه تقلید میکند.
با این حال، از آنجا که این فرآیند مبتنی بر حدسهای آماری است و نه درک واقعی، چتباتها به شدت مستعد توهم هستند. این امر به معنای ارائه پاسخهای اشتباه، دروغگفتن در صورت نبود داده و گاهی ارائه توصیههای عجیب یا مضر است.
جعبه سیاه هوش مصنوعی و نیاز به ارزیابیهای نظاممند
نویسندگان این مطالعه معتقدند که فقدان تحلیلهای نظاممند درباره این مسائل ناشی از محدودیتهای الگوهای ارزیابی فعلی است. ارزیابیهای موجود عمدتاً بر مبنای معیارهای ریاضی و کدنویسی هستند که با وجود ارزشمندی، اغلب دچار آلودگی داده هستند و امکان انجام آزمایشات کنترلشده در شرایط مختلف با پیچیدگیهای متغیر را نمیدهند.
برای بررسی بیشتر این مسائل، محققان اپل، چهار پازل کلاسیک را به مدلهای جامع و استدلالی هوش مصنوعی دادند و سپس با افزودن اجزای بیشتر به پازلها، پیچیدگی را در سه سطح آسان، متوسط و سخت تنظیم کردند. نتایج نشان داد که پس از عبور از یک آستانه بحرانی، مدلهای استدلالی تعداد پردازشهایی که به وظایف پیچیده اختصاص میدادند را کاهش دادند، که نشان میدهد میزان استدلال آنها کمتر شده و در حفظ “زنجیره تفکر” دچار مشکل هستند.
بازگشت به علم واقعی و تمرکز بر توسعه هوش مصنوعی کارآمد
این یافتهها نشان میدهد که مدلها بیشتر به تشخیص الگو و کمتر به منطق نوظهور تکیه میکنند. “آندری بورکو” (Andriy Burkov)، کارشناس هوش مصنوعی، این مطالعه را به عنوان یک شوک اساسی بر ادعاهای بزرگ در مورد توانایی ابزارهای هوش مصنوعی فعلی برای تبدیل شدن به ابرهوش در آینده ستوده است.
به گفته بورکو، اپل برای هوش مصنوعی بیشتر از هر کس دیگری کار کرده است و از طریق این پژوهش ثابت کرده است که LLMها فقط شبکههای عصبی هستند و تمام محدودیتهای سایر شبکههای عصبی آموزش دیده را به روش نظارت شده دارند. او امیدوار است که با این مطالعه، دانشمندان با مطالعه LLMها به علم واقعی بازگردند و تمرکز خود را بر توسعه هوش مصنوعی کارآمد و کاربردی معطوف کنند.