در این چالش، هدف طراحی و پیادهسازی یک مدل یادگیری ماشین است که بتواند خطاهای متنی را در مقالات خبری به زبان فارسی شناسایی و تصحیح کند. این مدل باید با استفاده از مجموعهای از دادههای حاوی متون با اشکالات تایپی و نسخههای تصحیحشده آنها آموزش داده شود. موقعیتهای دقیق کاراکترهایی که در متن اصلی نادرست هستند و در نسخه تصحیحشده اصلاح شدهاند، به صورت ایندکسهای جداشده با کاما ارائه شده است. مدل باید پس از آموزش بتواند این ایندکسها را با دقت بالا پیشبینی کند.
مشخصات داده:امتیاز مدل بر اساس دقت (Precision) و یادآوری (Recall) محاسبه شده و به صورت یک امتیاز F1 نهایی (بین 0 و 1) ارائه میشود. یک مدل ایدهآل، تمام ایندکسهای خطا را به درستی شناسایی میکند و هیچ ایندکس اشتباهی پیشبینی نمیکند.
هدف چالش:این چالش به شرکتکنندگان کمک میکند تا مهارتهای خود در پردازش زبان طبیعی (NLP) و مدیریت خطاهای تایپی را تقویت کنند. کاربردهای این مدلها شامل بهبود کیفیت متون خبری، سامانههای تصحیح خودکار متن و موتورهای جستجو است. موفقیت در این چالش نیازمند ترکیب تکنیکهای یادگیری ماشین و درک دقیق زبان فارسی است.