بازگشت
تکنیک جایگزین میانه(Median Imputation) در داده های گمشده چیست؟
آنچه میخوانید :
آیا تا به حال از خود پرسیدهاید که چگونه با مقادیر گمشده در مرحله تحلیل دادهها برخورد کنید؟ آیا تنها راه حلی که بلدید پاک کردن داده هاست؟ برای جلوگیری از حذف اطلاعات از تکنیکی به نام جایگزینی میانه/میانگین یا Median Imputation استفاده می شود.
جایگزینی با استفاده از میانگین یا میانه
به عمل جایگزینی دادههای گمشده با برآوردهای آماری از مقادیر گمشده اطلاق میشود. هدف هر تکنیک جایگزینی، تولید یک مجموعه داده کامل است که سپس میتوان از آن برای یادگیری ماشین استفاده کرد.
جایگزینی با میانگین یا میانه شامل جایگزینی تمام موارد مقادیر گمشده (NA) در یک متغیر با میانگین (اگر متغیر توزیع گاوسی داشته باشد) یا میانه (اگر متغیر توزیع کج یا چوله داشته باشد) است.
فرضیات
جایگزینی با میانگین یا میانه بر این فرض استوار است که دادهها بهطور کاملاً تصادفی گم شدهاند ). اگر اینگونه باشد، میتوانیم به جایگزینی NA با متداولترین مقدار متغیر فکر کنیم که در صورت داشتن توزیع گاوسی، میانگین و در غیر این صورت، میانه خواهد بود.
منطق این روش این است که جمعیت مقادیر گمشده را با متداولترین مقدار جایگزین کنیم، زیرا این احتمال بیشتری دارد که رخ دهد.
مزایا
- پیادهسازی آسان: این روش به راحتی قابل پیادهسازی است.
- راه سریع برای بهدست آوردن مجموعه دادههای کامل: این روش به سرعت مجموعه دادههای کامل را فراهم میکند.
محدودیتها
- تحریف واریانس اصلی: با جایگزینی NA با میانگین یا میانه، واریانس متغیر در صورتی که تعداد NA نسبت به کل مشاهدات زیاد باشد، تحریف میشود (زیرا مقادیر جایگزین شده از میانگین یا یکدیگر تفاوتی ندارند). این موضوع میتواند به برآورد کمتر از حد واریانس منجر شود.
- تحریف کوواریانس با سایر متغیرها: همچنین برآوردهای کوواریانس و همبستگیها با سایر متغیرها در مجموعه داده ممکن است تحت تأثیر قرار گیرد. این به این دلیل است که ممکن است ما همبستگیهای ذاتی را از بین ببریم، زیرا میانگین یا میانهای که اکنون جایگزین NA شده، رابطه با سایر متغیرها را حفظ نخواهد کرد.
به طور معمول، انتساب میانگین/میانگین همراه با افزودن یک متغیر برای ثبت مشاهداتی که در آن دادهها وجود نداشت، انجام میشود، بنابراین 2 زاویه را پوشش میدهد: اگر دادهها بهطور تصادفی گم شده بودند، با میانگین انتساب در نظر گرفته میشد، و اگر چنین نبود. این توسط متغیر اضافی گرفته می شود.
شما می توانید جهت مشاوره و آنالیز پروژه های خود با ما در تماس باشید.