بحث های زیادی درباره میزان هوش این چت بات معروف مبتنی بر هوش مصنوعی هست ولی آیا تا حالا معیار رسمی برای ارزیابی اون بوده؟
در این مقالهبه ارزیابی هوش مصنوعی chat GPT با آزمون های استاندار بین المللی و مقایسه اون با انسان ها میپردازیم.
فهرست مطالب
Toggleبررسی عملکرد ChatGPT در امتحانات مدرسه و دانشگاه
ChatGPT، یک مدل زبان که توسط OpenAI توسعه یافته است، در طول سال گذشته به دلیل توانایی آن در ایجاد پاسخهای انسانمانند در طیف وسیعی از شرایط، بسیار محبوب شده است.
در واقع، ChatGPT آنقدر توانمند شده است که دانش آموزان اکنون از آن برای کمک به تکالیف خود استفاده می کنند. این امر باعث شده است که چندین منطقه آموزشی ایالات متحده مانع از دسترسی دستگاه ها به مدل در هنگام استفاده از شبکه خود شوند.
ChatGPT چقدر هوشمند است؟
در یک گزارش فنی که در 27 مارس 2023 منتشر شد، OpenAI خلاصهای جامع از جدیدترین مدل خود، معروف به GPT-4 ارائه کرد. مجموعه ای از نتایج امتحان در این گزارش گنجانده شده است که در نمودار پایین به تصویر کشیده شده است.
مقایسه GPT-4 و3.5-GPT
برای محک زدن قابلیتهای ChatGPT، OpenAI آزمونهای مختلف حرفهای و آکادمیک را شبیهسازی کرد. این شامل آزمونهای SAT، آزمون وکالت و فینالهای مختلف قرارگیری پیشرفته (AP) میشود.
عملکرد در صدک ها اندازه گیری شد که بر اساس آخرین توزیع های امتیازی موجود برای آزمون دهندگان هر نوع امتحان بود.
امتیاز دهی درصدی روشی برای رتبه بندی عملکرد فرد نسبت به عملکرد دیگران است. به عنوان مثال، اگر در یک آزمون در صدک 60 قرار گرفتید، به این معنی است که نمره بالاتر از 60 درصد از شرکت کنندگان در آزمون را کسب کرده اید.
جدول زیر نتایجی را که در نمودار مشاهده کرده ایم فهرست می کند.
لطفاً جهت مشاهده نتایج جامع تر، گزارش فنی شرکت OpenAI را بررسی بفرمایید.
امتحان Law یا آزمون حقوق
یک آزمون است که برای ارزیابی دانش و مهارت های حقوقی یک فرد برگزار میشود. این آزمون به عنوان یک ابزار مهم برای ورود به حرفه حقوقی و تمام کشورها دارای سیستمها و شیوههای خاص خود برای برگزاری این آزمون هستند.
آزمون SAT (Scholastic Assessment Test)
یکی از آزمونهای استاندارد بین المللی است که برای ارزیابی مهارتهای تحصیلی و آمادگی دانشآموزان برای ورود به دانشگاه استفاده میشود. این آزمون توسط اداره آموزش و پرورش آمریکا (College Board) برگزار میشود و به عنوان یک معیار مقبول برای پذیرش در بیشتر دانشگاههای آمریکا و بسیاری از دانشگاههای بین المللی شناخته میشود.
Graduate Record Examination (GRE)
یک آزمون استاندارد برای ارزیابی مهارت های تحصیلی و تحلیلی دانشجویانی است که میخواهند برای تحصیل در دوره های کارشناسی ارشد، دکترا و برخی برنامه های دیگر تحصیلی در دانشگاه ها و مؤسسات آموزشی در خارج از کشور ثبت نام کنند. این آزمون توسط Educational Testing Service (ETS) اداره میشود و شامل قسمتهای تحلیل تفکر، دانش کلی، و تستهای کوتاه مقاله نویسی است.
آزمون AP یا Advanced Placement ،
یک برنامه آموزشی است که توسط College Board تدارک دیده شده است و در آن دانش آموزان دوره دبیرستانی میتوانند دروس دانشگاهی را پیش از ورود به دانشگاه دریافت کنند. این برنامه شامل دروس مختلفی مانند علوم، ریاضیات، زبانهای خارجی و غیره میشود و پس از پایان دوره، دانش آموزان میتوانند آزمونهای AP را بدهند. در صورت قبولی در این آزمونها، دانش آموزان میتوانند واحدهایی را که در دانشگاه مورد نظر خود تدریس میشود، معادل شناخته شده و معافیت از درس خواندن در آنها را به دست آورند.
تحلیل نتایج جدول:
همانطور که میبینید، GPT-4 (که در مارس 2023 منتشر شد) در اکثر امتحانات بهتر از GPT-3.5 (منتشر شده در مارس 2022) عمل کرده است. با این حال، در AP English و برنامه نویسی رقابتی قادر به پیشرفت نبوده است.
در مورد AP English (و سایر آزمونهایی که پاسخهای نوشتاری مورد نیاز هستند)، پاسخهای ChatGPT توسط “1-2 پیمانکار شخص ثالث واجد شرایط با تجربه کاری مرتبط در نمرهدهی به این انشاها” امتیاز داده شدند. در حالی که ChatGPT مطمئناً قادر به تولید انشاهای مناسب است، ممکن است برای فهم مباحث امتحانی سختی بکشد.
برای برنامه نویسی رقابتی، GPT در 10 مسابقه Codeforces را به تعداد 100 بار امتحان کرد. Codeforces مسابقات برنامه نویسی رقابتی را برگزار میکند که شرکتکنندگان باید مسائل پیچیدهای را حل کنند. میانگین رتبه Codeforces GPT-4 392 است (کمتر از درصد پنجم)، در حالی که بالاترین رتبه آن در یک مسابقه تقریباً 1,300 بود. با مراجعه به صفحه رتبهبندی Codeforces، کاربر برتر با نام jiangly از چین با رتبه 3,841 است.
چه چیزی در 4 GPT- تغییر کرده است؟
در اینجا مواردی وجود دارد که GPT-4 تجربه کاربری را نسبت به GPT-3.5 بهبود بخشیده است.
دسترسی به اینترنت و پلاگین ها
یک عامل محدود کننده در 3.5 GPT- این بود که به اینترنت دسترسی نداشت و فقط تا ژوئن 2021 بر روی داده ها آموزش داده شد. با4 GPT-، کاربران به پلاگین های مختلفی دسترسی خواهند داشت که ChatGPT را برای دسترسی به اینترنت، فراهم می کند. پاسخهای بهروزتر و طیف وسیعتری از وظایف را تکمیل کنید. این شامل افزونههای شخص ثالث از سرویسهایی مانند Expedia است که ChatGPT را قادر میسازد تا کل تعطیلات را برای شما رزرو کند.
ساخت تصویر
در حالی که GPT-3.5 فقط می تواند ورودی های متن را بپذیرد، GPT-4 توانایی تجزیه و تحلیل تصاویر را نیز دارد. کاربران می توانند از ChatGPT بخواهند که یک عکس را توصیف کند، نمودار را تجزیه و تحلیل کند یا حتی یک میم را توضیح دهد.
تولید متن طولانی تر
در نهایت، GPT-4 قادر است حجم بسیار بیشتری از متن را مدیریت کند و مکالمات را برای مدت طولانی تری ادامه دهد. برای مرجع، GPT-3.5 حداکثر مقدار درخواستی 4096 توکن داشت که معادل تقریباً 3000 کلمه است. GPT-4 دو نوع دارد، یکی با 8192 توکن (6000 کلمه) و دیگری با 32768 توکن (24000 کلمه).
اگر به یادگیری هوش مصنوعی علاقه دارید.
این سه محصول را برای شروع یادگیری هوش مصنوعی به شما معرفی میکنیم