chat GPT چقدر باهوش هست؟_مقایسه با آزمون های استاندارد

فهرست مطالب

بحث های زیادی درباره میزان هوش این چت بات معروف مبتنی بر هوش مصنوعی هست ولی آیا تا حالا معیار رسمی برای ارزیابی اون بوده؟

در این مقالهبه ارزیابی هوش مصنوعی chat GPT با آزمون های استاندار بین المللی و مقایسه اون با انسان ها میپردازیم.

بررسی عملکرد ChatGPT در امتحانات مدرسه و دانشگاه

ChatGPT، یک مدل زبان که توسط OpenAI توسعه یافته است، در طول سال گذشته به دلیل توانایی آن در ایجاد پاسخ‌های انسان‌مانند در طیف وسیعی از شرایط، بسیار محبوب شده است.

در واقع، ChatGPT آنقدر توانمند شده است که دانش آموزان اکنون از آن برای کمک به تکالیف خود استفاده می کنند. این امر باعث شده است که چندین منطقه آموزشی ایالات متحده مانع از دسترسی دستگاه ها به مدل در هنگام استفاده از شبکه خود شوند.

chat GPT چیست؟

اگر با این چت بات اشنایی ندارید خواندن این مقاله را به شما حتما پیشنهاد میکنیم

اینجا کلیک کنید

ChatGPT چقدر هوشمند است؟

در یک گزارش فنی که در 27 مارس 2023 منتشر شد، OpenAI خلاصه‌ای جامع از جدیدترین مدل خود، معروف به GPT-4 ارائه کرد. مجموعه ای از نتایج امتحان در این گزارش گنجانده شده است که در نمودار پایین به تصویر کشیده شده است.

مقایسه GPT-4 و3.5-GPT

برای محک زدن قابلیت‌های ChatGPT، OpenAI آزمون‌های مختلف حرفه‌ای و آکادمیک را شبیه‌سازی کرد. این شامل آزمون‌های SAT، آزمون وکالت و فینال‌های مختلف قرارگیری پیشرفته (AP) می‌شود.

عملکرد در صدک ها اندازه گیری شد که بر اساس آخرین توزیع های امتیازی موجود برای آزمون دهندگان هر نوع امتحان بود.

امتیاز دهی درصدی روشی برای رتبه بندی عملکرد فرد نسبت به عملکرد دیگران است. به عنوان مثال، اگر در یک آزمون در صدک 60 قرار گرفتید، به این معنی است که نمره بالاتر از 60 درصد از شرکت کنندگان در آزمون را کسب کرده اید.

جدول زیر نتایجی را که در نمودار مشاهده کرده ایم فهرست می کند.

لطفاً جهت مشاهده نتایج جامع تر، گزارش فنی شرکت OpenAI را بررسی بفرمایید.

امتحان Law یا آزمون حقوق

یک آزمون است که برای ارزیابی دانش و مهارت های حقوقی یک فرد برگزار می‌شود. این آزمون به عنوان یک ابزار مهم برای ورود به حرفه حقوقی و تمام کشورها دارای سیستم‌ها و شیوه‌های خاص خود برای برگزاری این آزمون هستند.

آزمون SAT (Scholastic Assessment Test)

یکی از آزمون‌های استاندارد بین المللی است که برای ارزیابی مهارت‌های تحصیلی و آمادگی دانش‌آموزان برای ورود به دانشگاه استفاده می‌شود. این آزمون توسط اداره آموزش و پرورش آمریکا (College Board) برگزار می‌شود و به عنوان یک معیار مقبول برای پذیرش در بیشتر دانشگاه‌های آمریکا و بسیاری از دانشگاه‌های بین المللی شناخته می‌شود.

Graduate Record Examination (GRE)

یک آزمون استاندارد برای ارزیابی مهارت های تحصیلی و تحلیلی دانشجویانی است که می‌خواهند برای تحصیل در دوره های کارشناسی ارشد، دکترا و برخی برنامه های دیگر تحصیلی در دانشگاه ها و مؤسسات آموزشی در خارج از کشور ثبت نام کنند. این آزمون توسط Educational Testing Service (ETS) اداره می‌شود و شامل قسمت‌های تحلیل تفکر، دانش کلی، و تست‌های کوتاه مقاله نویسی است.

آزمون AP یا Advanced Placement ،

یک برنامه آموزشی است که توسط College Board تدارک دیده شده است و در آن دانش آموزان دوره دبیرستانی می‌توانند دروس دانشگاهی را پیش از ورود به دانشگاه دریافت کنند. این برنامه شامل دروس مختلفی مانند علوم، ریاضیات، زبان‌های خارجی و غیره می‌شود و پس از پایان دوره، دانش آموزان می‌توانند آزمون‌های AP را بدهند. در صورت قبولی در این آزمون‌ها، دانش آموزان می‌توانند واحدهایی را که در دانشگاه مورد نظر خود تدریس می‌شود، معادل شناخته شده و معافیت از درس خواندن در آن‌ها را به دست آورند.

تحلیل نتایج جدول:

همانطور که می‌بینید، GPT-4 (که در مارس 2023 منتشر شد) در اکثر امتحانات بهتر از GPT-3.5 (منتشر شده در مارس 2022) عمل کرده است. با این حال، در AP English و برنامه نویسی رقابتی قادر به پیشرفت نبوده است.

در مورد AP English (و سایر آزمون‌هایی که پاسخ‌های نوشتاری مورد نیاز هستند)، پاسخ‌های ChatGPT توسط “1-2 پیمانکار شخص ثالث واجد شرایط با تجربه کاری مرتبط در نمره‌دهی به این انشاها” امتیاز داده شدند. در حالی که ChatGPT مطمئناً قادر به تولید انشاهای مناسب است، ممکن است برای فهم مباحث امتحانی سختی بکشد.

برای برنامه نویسی رقابتی، GPT در 10 مسابقه Codeforces را به تعداد 100 بار امتحان کرد. Codeforces مسابقات برنامه نویسی رقابتی را برگزار می‌کند که شرکت‌کنندگان باید مسائل پیچیده‌ای را حل کنند. میانگین رتبه Codeforces GPT-4 392 است (کمتر از درصد پنجم)، در حالی که بالاترین رتبه آن در یک مسابقه تقریباً 1,300 بود. با مراجعه به صفحه رتبه‌بندی Codeforces، کاربر برتر با نام jiangly از چین با رتبه 3,841 است.

معرفی شرکت Open AI _هر آنچه باید بدانید_

اگر دوست دارید راجع به تاریخچه ، افتخارات و دستاورد های این شرکت بیشتر بدانید خواندن این مقاله را به شما پیشنهاد میدهیم.

اینجا کلیک کنید

چه چیزی در 4 GPT- تغییر کرده است؟

در اینجا مواردی وجود دارد که GPT-4 تجربه کاربری را نسبت به GPT-3.5 بهبود بخشیده است.

دسترسی به اینترنت و پلاگین ها

یک عامل محدود کننده در 3.5 GPT- این بود که به اینترنت دسترسی نداشت و فقط تا ژوئن 2021 بر روی داده ها آموزش داده شد. با4 GPT-، کاربران به پلاگین های مختلفی دسترسی خواهند داشت که ChatGPT را برای دسترسی به اینترنت، فراهم می کند. پاسخ‌های به‌روزتر و طیف وسیع‌تری از وظایف را تکمیل کنید. این شامل افزونه‌های شخص ثالث از سرویس‌هایی مانند Expedia است که ChatGPT را قادر می‌سازد تا کل تعطیلات را برای شما رزرو کند.

ساخت تصویر

در حالی که GPT-3.5 فقط می تواند ورودی های متن را بپذیرد، GPT-4 توانایی تجزیه و تحلیل تصاویر را نیز دارد. کاربران می توانند از ChatGPT بخواهند که یک عکس را توصیف کند، نمودار را تجزیه و تحلیل کند یا حتی یک میم را توضیح دهد.

تولید متن طولانی تر

در نهایت، GPT-4 قادر است حجم بسیار بیشتری از متن را مدیریت کند و مکالمات را برای مدت طولانی تری ادامه دهد. برای مرجع، GPT-3.5 حداکثر مقدار درخواستی 4096 توکن داشت که معادل تقریباً 3000 کلمه است. GPT-4 دو نوع دارد، یکی با 8192 توکن (6000 کلمه) و دیگری با 32768 توکن (24000 کلمه).

اگر به یادگیری هوش مصنوعی علاقه دارید.

این سه محصول را برای شروع یادگیری هوش مصنوعی به شما معرفی میکنیم

مینی دوره پایتون

دوره کوتاه پایتون به صورت مختصر ولی مفید به مهم ترین دستورات زبان برنامه نویسی پایتون ویژه افرادی طراحی شده است که به طور سریع می خواهند نسبت به این زبان برنامه نویسی آشنایی پیدا کنند و بتوانند تصمیم درستی مبنی بر ورود به دنیای برنامه نویسی پایتون بگیرند.

500,000تومان

chat GPT چقدر باهوش هست؟