انواع برچسب اشتباه (noisy label) در داده ها

درحالی که شبکه های یادگیری عمیق و الگوریتم های یادگیری ماشین امروزه توانسته اند به خوبی از پس مسائل برآیند اما با حجیم تر شدن داده ها کیفیت داده ها و برچسب های داده نیز مهم تر از قبل شده اند چون کیفیت داده ها و برچسب های آن با دقت وکارایی مدل رابطه مستقیم دارند.در این مقاله قصد داریم انواع نویز در برچسب ها(labels) یا برچسب های نویزی و دلایل ایجاد آن را بررسی کنیم. اینکه داده نویزدار یا داده های نویزی چیست؟
شما میتوانید بسیاری از دیتاست های آماده را از منابع متن باز دانلود کنید.
همانطور که در تصویر زیر میبینیم در دیتاست های معرف برچسب گذاران (labelers) به دلایلی که در ادامه گفته میشود اشتباه برچسب گذاری کردند به عنوان مثال در دیتاست CIFAR-10 تصویر یک قورباغه(frog) به اشتباه گربه(cat) برچسب گذاری شده است.
برچسب گذاری یا برچسبزنی (Labeling) در یادگیری ماشین چیست؟
فرآیندی است که در آن برچسبها یا برچسبهای هدف به دادهها اختصاص داده میشوند. برچسبها معمولاً به عنوان پاسخهای مورد انتظار یا خروجیهای مدل یادگیری ماشین عمل میکنند. به عبارت دیگر، برچسبها به مدل یادگیری ماشین میگویند که هر داده در دسته یا دستهبندی خاصی قرار دارد.
برچسب گذاری دادهها یک مرحله مهم در یادگیری ماشین است زیرا دادههای برچسبدار به مدل یادگیری ماشین کمک میکنند تا الگوریتمهای یادگیری خودکار براساس نمونههای قبلی پیشبینی کنند. از این رو، برچسب گذاری دادهها به مدلهای یادگیری ماشین اجازه میدهد تا الگوها و ارتباطات موجود در دادهها را درک کرده و پیشبینیهای دقیقتری ارائه دهند.
برای مثال، در یادگیری ماشین برای تشخیص تصاویر، برچسبها میتوانند شامل نوع اشیا، افراد، حیوانات و غیره باشند. در یادگیری ماشین برای پیشبینی قیمت خانهها، برچسبها میتوانند شامل قیمتهای واقعی خانهها باشند.
برچسب گذاری درست دادهها در یادگیری ماشین به چندین دلیل مهم است:
آموزش مدلهای یادگیری ماشین
برچسب گذاری دادهها به مدلهای یادگیری ماشین اجازه میدهد تا الگوها و ارتباطات موجود در دادهها را درک کرده و با استفاده از آنها، پیشبینیهای دقیقتری انجام دهد. با داشتن برچسبهای صحیح، مدلهای یادگیری ماشین میتوانند با استفاده از دادههای برچسبدار آموزش ببینند و بهبود یابند.
ارزیابی عملکرد مدلها
برچسب گذاری دادهها به ما امکان میدهد تا عملکرد مدلهای یادگیری ماشین را ارزیابی کنیم. با داشتن برچسبهای واقعی، میتوانیم پیشبینیهای مدل را با واقعیت مقایسه کرده و میزان دقت و کارایی مدلها را ارزیابی کنیم.
سازماندهی دادهها
برچسب گذاری دادهها به ما امکان میدهد تا دادهها را بر اساس دستهبندیهای مختلف سازماندهی کنیم. این امر میتواند در مواردی مانند دستهبندی محصولات، تحلیل علمی، پردازش زبان طبیعی و سایر برنامههای کاربردی دیگر مفید باشد.
جمعآوری و تهیه دادههای برچسبدار
برچسب گذاری دادهها میتواند مرحله اولیه جمعآوری و تهیه دادههای برچسبدار برای آموزش و ارزیابی مدلهای یادگیری ماشین باشد.

دلایل انواع برچسب اشتباه (noisy label)
هنگام برچسب گذاری داده ها امکان وجود اشتباه توسط برچسب گذاران وجود دارد که مرسوم ترین اشتباهات می توان به موارد زیر اشاره کرد.
برچسب گذاری جمعی
به علت اینکه حجم زیادی از داده ها را نیازداریم برچسب گذاری های زیادی نیز انجام میدهیم برای اینکار تعدادی از موسسه ها و سایت هایی وجود دارند و افرادی به عنوان برچسب گذار استخدام میشوند که وظیفه برچسب گذاری داده ها را به عهده دارند. برچسب گذارانی که استخدام میشوند بابت هر برچسبی که به داده ها میدهند هزینه ایی دریافت می کنند و آنها معمولا سعی میکنند در کمترین زمان بیشترین برپچسب گذاری را انجام دهند تا حقوق بیشتری دریافت کنند.
یکی از پلتفرم هایی که با کمک افراد از سراسر دنیا برچسب گذاری جمعی انجام میدهد و بابت آن حقوق پرداخت میکند سرویس mechanic turk amozon می باشد

برچسب گذاری یک مهارت است
گاهی اوقات برچسب گذاری یک مهارت میشود به عنوان مثال یک پزشک میخواهد تصویر یک چشم و بیماری مرتبط با آن را برچسب گذاری کند که در این صورت باید دارای اطلاعات زیادی را درمورد بیماری های چشم داشته باشد در غیر این صورت اشتباه برچسب گذاری می کند.

داده های خراب یا noisy label
یکی دیگر از علل اشتباه گذاری برچسب ها این است که داده ها خراب هستند و مشکل دارند به عنوان مثال تصویری که میخواهد برچسب گذاری شود به علت کیفیت بد، برچسب گذار نمی تواند تشخیص دهد که دقیقا تصویر را با چه کلاسی برچسب گذاری کند.
یکی از نقاط ضعف چت بات Chat GPT که موجب تولید پاسخ اشتباه می شود همین موضوع هست.
متخصص شو
در بین افراد علاقه مند به هوش مصنوعی، افرادی هستند که به طور پراکنده تا حدودی با هوش مصنوعی آشنا هستند، حتی برنامه نویسی را فراگرفته اند و تا جاهایی پیش رفته اند و اکنون دنبال متخصص شدن و پیدا کردن راه تخصصی خود هستند. بوتکمپ متخصص شو برای این طراحی شده است که این افراد ابتدا با ساختار شبکه های عصبی و یادگیری عمیق که زیرشاخه یادگیری ماشین است آشنا شوند و سپس به سمت تخصص مورد علاقه خود یعنی یادگیری عمیق تخصصی با رویکرد بینایی ماشین یا NLP حرکت کنند. در این بوتکمپ ابتدا 20 ساعت با مفاهیم پایه و معماری های پایه یادگیری عمیق آشنا شده و پس از انتخاب تخصص مورد علاقه خود یعنی بینایی ماشین یا NLP؛ 25 ساعت در حوزه مورد نظر با خدمات جانبی فراوان آموزش ها را فرا می گیرند.
بوتکمپ طراحی و توسعه کسب و کار هوش مصنوعی
افراد زیادی هستند که به اندازه کافی در زمینه هوش مصنوعی آموزش دیده اند و دوره ها و منابع مختلف را بررسی کرده و دید نسبتا خوبی نسبت به هوش مصنوعی پیدا کرده اند ولیکن یک مشکل اساسی دارند. این افراد هنوز خوب تجربه کسب نکرده اند و در صورت ورود به بازار کار به مشکلات زیادی از جمله ناامیدی دچار میشوند. بوتکمپ AI master طراحی شده تا افراد با حضور یک منتور خوب و با مسائل واقعی دست و پنجه نرم کنند و ریسک حضور در محیط های کسب و کار را کاهش دهند. این بوتکمپ شامل 35 ساعت آموزش اصول تجاری سازی و حرفهای در هوش مصنوعی است که شامل 10 جلسه 90 دقیقه ای منتورینگ با حضور افراد باتجربه صنعت میباشد. در پایان افراد یک مساله واقعی را حل کرده و با رزومه و تجربه خوبی وارد فضای کار میشوند.
بوت کمپ جامع
اگه تو هم از اونایی هستی که اسم هوش مصنوعی رو شنیدی ولی نمیدونی از کجا شروع کنی ؛ اگه از دیدن دوره های پراکنده هوش مصنوعی خسته شدی و دنبال یه دوره کامل هستی، کالج هوش مصنوعی اسمارتک دقیقا همونیه که میخوای، تا وارد سرزمین هوش مصنوعی بشی و اون رو فتح کنی
180 ساعت دوره آموزشی در مدت 6 ماه از پایتون مقدماتی تا اصول تجاری سازی هوش مصنوعی. در این مدت شما با پروژه هایی که در کلاس ها انجام میدین و با راهبری فردی، میتونین در آخر دوره این انتظار را داشته باشید که به یک متخصص تازه کار در هوش مصنوعی تبدیل بشین و بعد از اون میتونین با انجام پروژه های واقعی در صنعت تجربه کسب کنید. در تمام این مسیر، شتابدهنده اسمارتک در کنار شماست تا اول از همه یک مهندس هوش مصنوعی بشید و بعد از اون بتونید وارد بازار کار بشین و پروژه انجام بدین و یا کسب و کار خودتون را راه اندازی کنید.
انواع نویز در برچسب ها
نویز در برچسب ها شامل چهار دسته می شود که به توضیحات هر یک می پردازیم.
نویز متقارن
نویز متقارن ساده ترین نوع نویزدر برچسب ها می باشد این نویز بدین صورت تعریف میشود که اگر برچسب یک کلاسی بخواهد عوض شود شانس برابری با بقیه کلاس های دیگرمجموعه دارد که در این صورت ماتریس انتقال[1] برای بقیه کلاس ها برابر می شود.

نویز نامتقارن
این نوع نویز نیز به این صورت تعریف میشود که اگر بخواهیم برچسب کلاسی رو عوض کنیم یک کلاس دیگر بیشتر شانس را برای برچسب گذاری دارد.

نویز معنایی
این نوع نویز سخت ترین نوع نویز می باشد و مدل به سختی با این نوع نویز تطبیق می یابد که در ماتریس انتقال آن وقتی بخواهیم برچسب را بین کلاس های مختلف برگردانیم هر کلاس شانس متفاوتی دارد.
نویز مجموعه باز
گاهی اوقات در مجوعه داده هایمان یک کلاسی اضافه برکلاس های تعریف شده می ببنیم به عنوان مثال هنگامی که در گوگل چیزی را سرچ می کنیم اطلاعاتی که اضافه نشان میدهد از نوع نویز مجموعه باز می باشد.
جمع بندی
همانطور که می دانیم هوش مصنوعی توانسته است مسائل مهم حوزه های مهندسی و غیرمهندسی را به شیوه ی نوین و بسیار با کارایی بهتر حل کند. اگر شما به دنبال کسب درآمد از هوش مصنوعی هستید باید بدانید که یکی از رکن های اساسی برای حل مسائل داشتن داده های تمیز ودرست میباشد اما با امروزه با حجم عظیم داده ها و راه های مختلف گردآوری داده ها در هر مجموعه ای داده ای امکان وجود داده های نادرست نیز هست یکی از شیوه هایی که امکان دارد این داده ها اشتباه باشند وجود برچسب های اشتباه می باشد که این برچسب های نویزی باعث می شود از کارایی دقت مدل کاسته شود و کارایی مدل را هنگام مواجه با نمونه های جدید را کاهش دهد با اگاهی از انواع برچسب های اشتباه میتوانیم از اثرات جانبی آن جلوگیری کنیم.
منابع
[1] | Scott E, Reed & Honglak Lee, Dragomir Anguelov, Christian Szegedy, Dumitru Erhan & Andrew Rabinovich, “TRAINING DEEP NEURAL NETWORKS ON NOISY LABELS WITH BOOTSTRAPPING,” ICLR, pp. 50-62, 2015. |
[2] | |
[3] | Youngdong Kim, Junho Yim, Juseung Yun, Junmo Kim, “NLNL: Negative Learning for Noisy Labels,” computer vision foundaion, pp. 66-72, 2018. |
[4] | Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, David Lopez-Paz, “mixup: BEYOND EMPIRICAL RISK MINIMIZATION,” conference paper at ICLR, pp. 22-26, 2018. |
[5] | Aritra Ghosh, Himanshu Kumar, P. S. Sastry, “Robust Loss Functions under Label Noise for Deep Neural Networks,” Thirty-First AAAI Conference on Artificial Intelligence, pp. 110-114, 2015. |

علی عطائی فر
فارق التحصیل از هنرستان هوانوردی مجمع صنعت
فارق التحصیل کاردانی از دانشگاه هواپیما ساها در رشته اویونیک
دیدگاهتان را بنویسید