پیش-پردازش داده - ویکیپدیا، دانشنامهٔ آزاد
پیش-پردازش داده به معنای تغییر یا دور انداختن بخشی از داده قبل از این که برای بهتر کردن کارایی استفاده شود است [۱] و همچنین یک مرحله مهم از فرآیند داده کاوی میباشد. اصطلاح ورودی زباله، خروجی زباله برای پروژه های داده کاوی و یادگیری ماشینی صادق است. معمولا روش های گرادآوری داده کنترل خاصی ندارند و باعث میشوند به مقادیر غیر واقعی برخورد بکنیم. (برای مثال کشور محل تولد: ایران ، شهر محل تولد: سیدنی)
پردازش چنین دادهای که با دقت کنترل نشده است میتواند منجر به نتیجههای گمراه کننده شود. به همین دلیل کنترل کیفیت داده اولین فاز پروژه میباشد و قبل از اجرای هر پردازش دیگری انجام میشود.[۲] پیش-پردازش داده معمولا مهمترین قسمت یک پروژه یادگیری ماشینی می باشد، مخصوصا در زیستشناسی محاسباتی.[۳] حاصل پیش-پردازش داده همان مجموعه آموزشی ما خواهد بود.
وظایف پیش-پردازش داده
[ویرایش]مثال
[ویرایش]در این مثال ما یک دیتاست از شهر و کشور محل تولد ۵ فرد مختلف داریم. واضح میباشد که سطر ۳ و ۵ این دیتاست ترکیب های غیر ممکن میباشد.
|
حال ما میتوانیم پاکسازی داده انجام بدهیم و سطرهای ۳ و ۵ را حذف کنیم زیرا چنین سطرهایی احتمالا به خاطر خطای ثبت داده ایجاد شدهاند. یک دلیل این است که سطرهای غیرممکن میتوانند تاثیر بدی در محاسبات یا فرآیند استفاده از داده بگذارند.
|
میتوانیم ویرایش داده انجام بدهیم و کشور محل تولد فرد را با توجه به فرض درست بودن شهر محل تولدش تغییر بدهیم. ما این کار را انجام میدهیم تا یک دیتای واضح تر در مراحل بعدی استفاده از داده داشته باشیم.
|
میتوانیم آمادهسازی داده انجام بدهیم و جدول را بر اساس کشور محل تولد مرتب کنیم. این کار به ساده شدن جدول و انتخاب بخشی از داده که میخواهیم بر آن تمرکز کنیم کمک میکند.
|
دادهکاوی
[ویرایش]ریشه های پیش-پردازش داده در دادهکاوی نهفته است. ایده این است که اطلاعات موجود و جستجو در محتوا را ادغام کرد. بعد تر مشخص شد که برای یادگیری ماشینی و شبکه های عصبی، نیازمند پیش-پردازش داده نیز هستیم.
پیش-پردازش داده اجازه حذف داده ناخواسته را با پاکسازی داده میدهد، این به کاربر کمک میکند تا داده ارزشمندتری داشته باشد. ویرایش داده برای اصلاح خطای انسانی یا انحراف داده یک مرحله تعیینکننده برای داشتن کمیت های دقیق مانند ماتریس درهمریختگی است. کاربر میتواند فایلهای داده را ادغام کند یا با فیلتر کردن هر بخشی که لازم نیست را حذف کند تا به دقت بهتری دست پیدا کند. کاربران از کتابخانه پانداس(نرمافزار) که مصورسازی داده، عملیات آماری و بسیاری از عملیات دیگر استفاده میکنند. همچنین برخی از آر(زبان برنامهنویسی) استفاده میکنند.
دلایل مختلفی وجود دارد که یک کاربر یک داده موجود را تغییر بدهد. پیش-پردازش داده مزایایی مانند اضافه کردن مقادیر ناموجود، ادغام اطلاعات و علامتگذاری داده دارد. راهکارهای پیشرفته تری مانند تحلیل مولفههای اصلی یا انتخاب ویژگی با فرمولهای آماری کار میکنند و در دادههای پیچیدهتر کاربرد دارند.
پیش-پردازش داده معنادار
[ویرایش]دادهکاوی معنادار یک زیرمجموعه از دادهکاوی است که به طور مشخص به پیوستن دامنه دانش میپردازد. دامنه دانش همان دانش دربارهی محیطی که داده در آن پردازش شده است میباشد. دامنه دانش میتواند تاثیر مثبتی در بسیاری از جهات بر دادهکاوی داشته باشد. همچنین با استفاده از دانش پیشین برای کوچک کردن فضای مورد نیاز برای جستجو به عنوان یک قید عمل میکند. به بیان ساده، پیش-پردازش داده معنادار به دنبال بهتر و دقیقتر فیلتر کردن داده با استفاده از محیط اصلی داده میباشد.
منابع
[ویرایش]- ↑ "Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data". Tableau (به انگلیسی). Retrieved 2021-10-17.
- ↑ Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
- ↑ «Ten quick tips for machine learning in computational biology». BioData Mining. ۱۰ جلد: ۳۵. doi:10.1186/s13040-017-0155-3.