تخمین قیمت ماشین

دو مجموعه داده از آگهی های فروش ماشین های کارکرده، جمع آوری شده از یک پلتفرم داخلی در اختیار شما قرار داده شده است. مجموعه داده آموزشی (Train) دارای ستون قیمت و حاوی مقادیر قیمت اعلام شده برای هر ماشین می باشد. می خواهیم یک مدل یادگیری ماشین، با استفاده از روش های یادگیری با ناظر (Supervised Learning) بسازیم، که با دریافت اطلاعات ماشین (Features)، تخمینی قابل قبول برای قیمت آن را محاسبه کند.

مجموعه داده دوم نیز به عنوان مجموعه تست (Test Dataset) در اختیار شما قرار گرفته است؛ این مجموعه فاقد اطلاعات قیمت می باشد و فقط حاوی اطلاعات هر آگهی (Features) می باشد. مدل های ساخته شده توسط شما با استفاده از این مجموعه تست، ارزیابی خواهند شد. قیمت هر ماشین در مجموعه داده تست باید توسط مدل آموزش دیده شما پیش بینی شود.

ویژگی های موجود از هر ماشین به صورت زیر است:

  • title: برند و مدل ماشین
  • year: سال ساخت ماشین
  • mileage: کیلومتر کارکرد
  • transmission: نوع گیربکس
  • fuel: میزان مصرف سوخت
  • body_color: رنگ بدنه
  • inside_color: رنگ داخل
  • body_status: وضعیت بدنه
  • description: متن توضیحات آگهی
  • body_type: نوع بدنه
  • volume: حجم موتور
  • engine: مشخصات موتور
  • acceleration: زمان صفر تا صد
  • price: قیمت اعلام شده

برخی نکات مهم برای حل بهتر مسئله:

  • از انجام پیش پردازش و EDA کامل و خالقانه بر روی دادگان train غافل نشوید.
  • توجه شود که به خاطر ماهیت آگهی های اینترنتی، امکان وجود نمونه هایی با قیمت های بسیار نادرست (noisy، در داده train وجود دارد. سعی کنید برای حذف اینگونه noise ها راهکاری بیاندیشید.
  • در متن description آگهی، معمولا اطلاعات ارزشمندی در مورد ماشین ذکر شده است، استفاده از این اطلاعات به عنوان ورودی مدل یادگیری ماشین ممکن است در تخمین بهتر قیمت اثرگذار باشد. البته چگونگی استفاده از متن description به عهده شماست.
  • روش های مهندسی ویژگی (Feature Engineering)، مثل تبدیل یک ویژگی به چند ویژگی، یا محاسبه یک ویژگی از یک یا چند ویژگی دیگر، ممکن است کمک کننده باشند.

نحوه ارسال پاسخ

پس از ساخت یک مدل یادگیری ماشین، تمام رکورد های موجود در مجموعه تست را، بدون هیچ گونه تغییر در ترتیب، یا حذف آن ها، به مدل خود داده و مقدار قیمت را برای آن ها محاسبه کنید. سپس قیمت های حاصله را با همان ترتیب در یک فایل csv و در ستونی با نام price ذخیره کرده و در قسمت ارسال پاسخ در پلتفرم سکو آپلود کنید. سکو بلافاصله پس از آپلود پاسخ، آن را ارزیابی کرده و امتیاز پاسخ ارسالی را ثبت می کند.


فایل‌ها