تکنیک جایگزین میانه(Median Imputation) در داده های گمشده چیست؟

آنچه می‌خوانید :

آیا تا به حال از خود پرسیده‌اید که چگونه با مقادیر گمشده در مرحله تحلیل داده‌ها برخورد کنید؟ آیا تنها راه حلی که بلدید پاک کردن داده هاست؟ برای جلوگیری از حذف اطلاعات از تکنیکی به نام جایگزینی میانه/میانگین یا Median Imputation استفاده می شود.

جایگزینی با استفاده از میانگین یا میانه

به عمل جایگزینی داده‌های گمشده با برآوردهای آماری از مقادیر گمشده اطلاق می‌شود. هدف هر تکنیک جایگزینی، تولید یک مجموعه داده کامل است که سپس می‌توان از آن برای یادگیری ماشین استفاده کرد.

جایگزینی با میانگین یا میانه شامل جایگزینی تمام موارد مقادیر گمشده (NA) در یک متغیر با میانگین (اگر متغیر توزیع گاوسی داشته باشد) یا میانه (اگر متغیر توزیع کج یا چوله داشته باشد) است.

فرضیات

جایگزینی با میانگین یا میانه بر این فرض استوار است که داده‌ها به‌طور کاملاً تصادفی گم شده‌اند ). اگر این‌گونه باشد، می‌توانیم به جایگزینی NA با متداول‌ترین مقدار متغیر فکر کنیم که در صورت داشتن توزیع گاوسی، میانگین و در غیر این صورت، میانه خواهد بود.

منطق این روش این است که جمعیت مقادیر گمشده را با متداول‌ترین مقدار جایگزین کنیم، زیرا این احتمال بیشتری دارد که رخ دهد.

مزایا

- پیاده‌سازی آسان: این روش به راحتی قابل پیاده‌سازی است.

- راه سریع برای به‌دست آوردن مجموعه داده‌های کامل: این روش به سرعت مجموعه داده‌های کامل را فراهم می‌کند.

محدودیت‌ها

- تحریف واریانس اصلی: با جایگزینی NA با میانگین یا میانه، واریانس متغیر در صورتی که تعداد NA نسبت به کل مشاهدات زیاد باشد، تحریف می‌شود (زیرا مقادیر جایگزین شده از میانگین یا یکدیگر تفاوتی ندارند). این موضوع می‌تواند به برآورد کمتر از حد واریانس منجر شود.

- تحریف کوواریانس با سایر متغیرها: همچنین برآوردهای کوواریانس و همبستگی‌ها با سایر متغیرها در مجموعه داده ممکن است تحت تأثیر قرار گیرد. این به این دلیل است که ممکن است ما همبستگی‌های ذاتی را از بین ببریم، زیرا میانگین یا میانه‌ای که اکنون جایگزین NA شده، رابطه با سایر متغیرها را حفظ نخواهد کرد.

به طور معمول، انتساب میانگین/میانگین همراه با افزودن یک متغیر برای ثبت مشاهداتی که در آن داده‌ها وجود نداشت، انجام می‌شود، بنابراین 2 زاویه را پوشش می‌دهد: اگر داده‌ها به‌طور تصادفی گم شده بودند، با میانگین انتساب در نظر گرفته می‌شد، و اگر چنین نبود. این توسط متغیر اضافی گرفته می شود.

شما می توانید جهت مشاوره و آنالیز پروژه های خود با ما در تماس باشید.

مقالات پیشنهادی

کارگاه جامع آموزش نرم افزار Stata

تکنیک جایگزین میانه(Median Imputation) در داده های گمشده چیست؟

رگرسیون چندکی (Quantile Regression) چیست؟