تصحیح خطاهای متن اخبار فارسی

در این چالش، هدف طراحی و پیاده‌سازی یک مدل یادگیری ماشین است که بتواند خطاهای متنی را در مقالات خبری به زبان فارسی شناسایی و تصحیح کند. این مدل باید با استفاده از مجموعه‌ای از داده‌های حاوی متون با اشکالات تایپی و نسخه‌های تصحیح‌شده آن‌ها آموزش داده شود. موقعیت‌های دقیق کاراکترهایی که در متن اصلی نادرست هستند و در نسخه تصحیح‌شده اصلاح شده‌اند، به صورت ایندکس‌های جداشده با کاما ارائه شده است. مدل باید پس از آموزش بتواند این ایندکس‌ها را با دقت بالا پیش‌بینی کند.

مشخصات داده:
  • text: متن اصلی شامل خطاهای تایپی.
  • corrected_text: نسخه تصحیح‌شده متن.
  • typo_indexes: ایندکس‌های کاراکترهای نادرست در متن اصلی، جداشده با کاما (مثال: 511,803,1165).
وظیفه شرکت‌کنندگان:
  1. استفاده از داده‌ها برای آموزش مدلی که بتواند ایندکس‌های خطاهای تایپی را در متن اصلی شناسایی کند.
  2. ارزیابی مدل با استفاده از متریک‌های مناسب (مانند F1 Score) بر اساس ایندکس‌های پیش‌بینی‌شده و ایندکس‌های واقعی.
روش ارزیابی:

امتیاز مدل بر اساس دقت (Precision) و یادآوری (Recall) محاسبه شده و به صورت یک امتیاز F1 نهایی (بین 0 و 1) ارائه می‌شود. یک مدل ایده‌آل، تمام ایندکس‌های خطا را به درستی شناسایی می‌کند و هیچ ایندکس اشتباهی پیش‌بینی نمی‌کند.

هدف چالش:

این چالش به شرکت‌کنندگان کمک می‌کند تا مهارت‌های خود در پردازش زبان طبیعی (NLP) و مدیریت خطاهای تایپی را تقویت کنند. کاربردهای این مدل‌ها شامل بهبود کیفیت متون خبری، سامانه‌های تصحیح خودکار متن و موتورهای جستجو است. موفقیت در این چالش نیازمند ترکیب تکنیک‌های یادگیری ماشین و درک دقیق زبان فارسی است.


فایل‌ها