یک چت بات هوش مصنوعی توانست آزمون تورینگ (Turing Test) را با موفقیت پشت سر بگذارد!
به گزارش مجله حرفه ای ترکیه ، در هفته ای که گذشت، تیترهای زیادی درباره این موضوع منتشر شد که یکی از مدل های هوش مصنوعی پیروز شده آزمون تورینگ (Turing Test) را با پیروزیت پشت سر بگذارد. اما این خبر دقیقاً به چه معناست؟ و آیا واقعاً می توان آن را نشانه ای از رسیدن هوش مصنوعی به درک انسانی دانست؟

این گزارش ها بر پایهٔ یک پژوهش تازه هستند که به وسیله دو پژوهشگر از دانشگاه کالیفرنیا سن دیگو اجرا شده. در این تحقیق، چهار مدل زبانی بزرگ (Large Language Models یا به اختصار LLMs) مورد آنالیز قرار گرفتند: ELIZA، GPT-4o، LLaMa-3.1-405B و GPT-4.5.
در میان آن ها، مدل GPT-4.5 پیروز شد که در بیش از 70٪ مواقع، از نگاه کاربران به عنوان انسان واقعی شناسایی گردد؛ عددی که از نظر آماری چشمگیر است. اما این واقعیت، بیش از آن که نشانه ای از فهم باشد، نشانی از شباهت ظاهری به انسان است.
آزمون تورینگ چیست و از کجا آمده؟
در سال 1950، ریاضی دان بریتانیایی، آلن تورینگ (Alan Turing)، مقاله ای نوشت با عنوان ماشین های محاسباتی و هوش که در آن از بازی ای به نام بازی تقلید یاد کرد. این بازی بعدها به عنوان آزمون تورینگ شناخته شد.
در این آزمایش کلاسیک، یک داور باید به وسیله پرسش و پاسخ، تشخیص دهد که کدام یک از دو طرف گفت وگو انسان است و کدام یک ماشین. اگر ماشین پیروز گردد داور را فریب دهد و به جای انسان معرفی گردد، گفته می گردد که آزمون تورینگ را با پیروزیت گذرانده است.
اما نکته اینجاست: تورینگ به جای اینکه بپرسد آیا ماشین ها می توانند فکر نمایند؟ ترجیح داد بپرسد: آیا می توانند طوری رفتار نمایند که گویی در حال فکر کردن هستند؟
جزئیات پژوهش تازه چه بود؟
در این مطالعه، 284 داوطلب شرکت کردند و نقش های مختلفی را بر عهده گرفتند؛ برخی در نقش بازجو و برخی در نقش یکی از دو شاهد گفت وگو. در هر مرحله، شرکت نماینده با دو طرف گفت وگو چت می کرد؛ یکی انسان واقعی و دیگری یک مدل زبانی هوش مصنوعی. گفت وگوها پنج دقیقه طول می کشید و به وسیله رابط کاربری ای شبیه پیغام رسان انجام می شد.
پس از سرانجام مکالمه، از شرکت نماینده پرسیده می شد که فکر می نماید کدام یک انسان بوده. نتیجه؟
GPT-4.5 پیروز شد در 73٪ موارد به جای انسان تشخیص داده گردد.
مدل LLaMa-3.1-405B توانست در 56٪ مواقع فریب دهد.
اما دو مدل دیگر یعنی ELIZA و GPT-4o در این آزمون ناپیروز بودند و فقط در حدود 20٪ مواقع به عنوان انسان تشخیص داده شدند.
چرا آزمون تورینگ همچنان بحث برانگیز است؟
گرچه آزمون تورینگ در فرهنگ عمومی نماد نهایی هوش مصنوعی به شمار میرود، اما در دنیای علمی، نقدها جدی ای به آن وارد است. چهار نقد اصلی در این زمینه عبارت اند از:
1. رفتار ≠ تفکر: برخی محققان می گویند اگر ماشینی فقط رفتاری مشابه انسان نشان دهد، علت بر داشتن هوش یا تفکر نیست.
2. مغز ماشین نیست: تورینگ مغز انسان را به ماشین تشبیه کرد، اما بسیاری از پژوهشگران این تشبیه را نادرست می دانند.
3. روش استنتاج فرق دارد: حتی اگر خروجی ماشین شبیه انسان باشد، مسیر رسیدن به پاسخ با انسان فرق دارد. پس مقایسه نادرست است.
4. دامنهٔ محدود آزمون: تنها تست کردن یک مهارت (مثل چت کردن) نمی تواند نشان دهندهٔ هوش واقعی باشد.
آیا می توان گفت GPT-4.5 هوشمند است؟
در سرانجام این تحقیق آمده که آزمون تورینگ، بیشتر معیاری برای قابلیت جانشینی است. یعنی آیا می گردد ماشین را جایگزین انسان کرد بدون اینکه کسی متوجه گردد؟
پژوهشگران خودشان هم تأکید نموده اند که سربلند بیرون آمدن از آزمون تورینگ، به معنای هوش واقعی نیست، بلکه فقط به معنای تقلید خوب از انسان است.
بعلاوه باید توجه کرد که شرایط این آزمایش محدود بود. پنجرهٔ زمانی پنج دقیقه ای برای گفت وگو بسیار کوتاه است. از سوی دیگر، تعیین نشده که تأثیر شخصیت هایی که به مدل های مختلف داده شده چه بوده و آیا این شخصیت های ساختگی باعث بهبود عملکرد شده اند یا نه.
گرچه GPT-4.5 شاید بتواند در مواردی انسان را گول بزند، اما هنوز نمی توان گفت به سطح هوشی یک انسان رسیده است.
منبع: یک پزشک