کاهش ابعاد - ویکی‌پدیا، دانشنامهٔ آزاد

در یادگیری ماشین و آمار کاهش بعد یا کاهش ابعاد روند کاهش تعداد متغیرهای تصادفی تحت نظر (Supervised) از طریق به دست آوردن یک مجموعه از متغیرهای اصلی می‌باشد. کاهش ابعاد را می‌توان به انتخاب ویژگی و استخراج ویژگی تقسیم کرد.

در یادگیری ماشین و آمار کاهش بعد یا کاهش ابعاد به معنی انتقال داده از فضای با بعد بیش تر به فضایی با بعد پایین‌تر به شکل تحت نظر (Supervised)[۱] است، به گونه ای که داده در فضای با بعد کمتر بتواند به‌طور معنی داری داده اصلی را نمایندگی کند و ویژگی‌های آن را در خود داشته باشد. کار با داده در ابعاد بالا می‌تواند به دلایل گوناگونی نامطلوب باشد؛ داده در ابعاد بالا به دلیل نفرین ابعاد بسیار تنک باشد و همچنین تحلیل داده در ابعاد بالا از لحاظ محاسباتی بسیار کند و پرهزینه است. کاهش ابعاد در شاخه‌هایی که با تعداد زیادی مشاهده و/یا تعداد زیادی ویژگی سروکار دارند مانند پردازش سیگنال یا بینایی ماشین به کار می‌رود. کاهش ابعاد را می‌توان به انتخاب ویژگی و استخراج ویژگی تقسیم کرد.[۲]

انتخاب ویژگی

[ویرایش]

هدف نهایی انتخاب ویژگی این است که زیر مجموعه ای از ویژگی‌ها در فضای اصلی را انتخاب کند که حاوی بیش‌ترین اطلاعات موجود در داده‌های اصلی باشند؛ سپس این ویژگی‌ها را به عنوان ویژگی در بعد کاهش یافته معرفی کند. سه روش کلی انتخاب ویژگی شامل پالایش (برای مثال کسب اطلاعات)، روش پوشه (برای مثال جست و جو بر اساس دقت) و روش جاسازی شده (حذف یا افزودن ویژگی‌ها بر اساس خطای تخمین) هستند.

برخی از وظایف معمول تحلیل داده مانند خوشه بندی و رگرسیون در فضای کاهش یافته به این روش بهتر و دقیق تر عمل می‌کنند.[۳]

استخراج ویژگی

[ویرایش]

استخراج ویژگی داده‌ها را در فضای با ابعاد بزرگ به یک فضای ابعاد کمتر تبدیل می‌کند. تبدیل داده‌ها می‌تواند به شکل خطی باشد، (مانند روش تحلیل مولفه اصلی) اما همچنین بسیاری از تکنیک‌های کاهش ابعاد غیر خطی نیز وجود دارد.[۴][۵] روش‌های غیر خطی معمولاً ساده‌تر و سریع ترند اما به خصوص برای داده‌های پیچیده روش‌های غیر خطی دقت بیش تری دارند.[۶] برای داده‌های چند بعدی، نماینده تانسور را می‌توان در کاهش ابعاد از طریق یادگیری زیر فضای چندخطی استفاده کرد.[۷]

تجزیه تحلیل مولفه اصلی (PCA)

[ویرایش]

مقاله اصلی: تحلیل مولفه‌های اصلی

این روش اصلی‌ترین روش خطی برای کاهش ابعاد است؛ این روش نگاشت خطی داده‌ها را به یک فضا با بعد پایین‌تر انجام می‌دهد، به طوری که میزان توضیح واریانس داده اصلی در داده منتقل شده (به ابعاد کمتر) بیشینه باشد. در عمل، ماتریس واریانس (و بعضی اوقات کوواریانس) داده‌ها ساخته می‌شود و بردار ویژه این ماتریس محاسبه می‌شود. بردارویژه‌هایی که متناظر با بزرگ‌ترین مقادیر ویژه‌ها هستند، بیش‌ترین میزان اطلاعات از داده‌های اصلی را در خود دارند و اکنون می‌توانند برای بازسازی بخش بزرگی از واریانس داده‌های اصلی استفاده شوند. به صورت تخمینی، چندین بردار اول را می‌توان نماینده رفتار کلان داده تفسیر کرد. داده در ابعاد کمتر با استفاده از این بردارهای اصلی همراه با از دست دادن بخشی از اطلاعات (با این امید که توضیح دهندگی واریانس را تا حد خوبی حفظ کند) ساخته می‌شود.

هسته PCA

[ویرایش]

تحلیل مؤلفه اصلی می‌تواند با استفاده از روش هسته به شکل غیر خطی عمل کند. تکنیک حاصل قادر به ساخت نگاشت‌های غیر خطی است که میزان توضیح واریانس را در داده‌های در فضای کوچکتر به حداکثر می‌رساند. در کل این روش از روشی مشابه با PCA استفاده می‌کند، با این تفاوت که به جای استفاده از نگاشت خطی از داده در ابعاد پایین به داده در ابعاد اصلی با استفاده از روش هسته از نگاشت غیر خطی استفاده می‌کند.

هسته مبتنی بر گرافیک PCA

[ویرایش]

دیگر تکنیک‌های غیر خطی برجسته شامل تکنیک‌های یادگیری منیوفولد، تکنیک‌هایی مانند Isomap، جابجایی خطی محلی (LLE)، خصوصیات لاپلاس و هماهنگی فضایی مماس محلی (LTSA) می‌باشد. این تکنیک‌ها با استفاده از یک تابع هزینه ای که سعی دارد تا خواص محلی را حفظ کند، نماینده ای برای داده اصلی در ابعاد پایین‌تر ایجاد می‌کنند و می‌توانند به عنوان تعریف یک هسته مبتنی بر گراف برای PCA هسته مورد استفاده قرار گیرند.

تفکیک کننده خطی (LDA)

[ویرایش]

تفکیک کننده خطی (LDA) یک شاخه از روش جدایی خطی فیشر است. این روش در آمار، تشخیص الگو و یادگیری ماشین برای یافتن ترکیب خطی از ویژگی‌هایی که دو یا چند خوشه یا رویداد را جدا کند استفاده می‌شود.

خودرمزگذار

[ویرایش]
یک خود رمزنگار.
ساختار یک خودرمزنگار. لایه میانی (Z) می‌تواند با بعد فضای حالت کوچک‌تر تعریف شده و مقدار حاصل از آن به عنوان داده در فضای کوچک‌تر مورد استفاده قرار گیرد.

خودرمزگذارها می‌توانند به‌منظور یادگیری توابع غیرخطی کاهش ابعاد مورد استفاده واقع شوند. آن‌ها همچنین امکان اجرای تابع معکوس به منظور برگرداندن داده به ابعاد اصلی را دارند.

خود رمزنگارها دارای تعداد زیادی ابرپارامتر هستند که می‌توان برای رسیدن به دقت بهتر یا پردازش سریع تر در کاهش ابعاد از آن‌ها استفاده کرد.

نهان کردن همسایه تصادفی با توزیع تی (t-SNE)

[ویرایش]

این روش بیشتر برای مصورسازی دادگان در ابعاد زیاد استفاده می‌شود و از آن جا که ویژگی‌های موجود در داده مانند فاصله بین داده‌ها را خوب حفظ نمی‌کند استفاده از آن برای دیگر عملیات‌ها مانند خوشه‌بندی توصیه نمی‌شود.

افکنش و تخمین یکنواخت منیفولد (UMAP)

[ویرایش]

این روش در کل مشابه با روش t-SNE است اما از یک سری فروض اضافه برای تقریب بهتر داده اصلی استفاده می‌کند.

مزایای استفاده از کاهش ابعاد

[ویرایش]
  1. کاهش فضای ذخیره‌سازی و قدرت پردازشی مورد نیاز که باعث کاهش زمان عملیات روی داده می‌شود.
  2. کاهش ابعاد به شکلی که اطلاعات زیادی از داده اصلی از دست نرود در بسیاری از موارد باحذف نویز داده باعث بهبود عملکرد مدل یادگیری ماشین می‌شود.
  3. کاهش ابعاد داده اصلی به فضای ۲ یا ۳ بعدی که برای مصور سازی داده و درک انسانی آن بسیار سودمند است.

کاربردها

[ویرایش]

برای مجموعه داده‌های با ابعاد بزرگ (یا به عنوان مثال با تعداد ابعاد بیش از ۱۰) کاهش ابعاد معمولاً قبل از اعمال الگوریتم نزدیکترین همسایگان (k-NN) به منظور جلوگیری از مشقت چند بعدی انجام می‌شود.[۸]

تکنیک کاهش ابعادی که گاهی در علوم اعصاب استفاده می‌شود، ابعاد با حداکثر اطلاعات است که یک نماینده در ابعاد پایین‌تر از یک مجموعه داده را نشان می‌دهد به شکلی که حداکثر ممکن اطلاعات داده اصلی حفظ شوند.

یادداشت

[ویرایش]
  1. Roweis, S. T.; Saul, L. K. (2000). "Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science. 290 (5500): 2323–2326. doi:10.1126/science.290.5500.2323. PMID 11125150.
  2. Pudil, P.; Novovičová, J. (1998). "Novel Methods for Feature Subset Selection with Respect to Problem Knowledge". In Liu, Huan; Motoda, Hiroshi (eds.). Feature Extraction, Construction and Selection. pp. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
  3. Rico-Sulayes, Antonio (2017). "Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution". Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26–35.
  4. Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. شابک ‎۰−۱۲−۳۶۹۴۴۶−۹
  5. C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
  6. Pramoditha, Rukshan (2022-08-19). "How Autoencoders Outperform PCA in Dimensionality Reduction". Medium (به انگلیسی). Retrieved 2023-01-05.
  7. Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004.
  8. Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "When is “nearest neighbor” meaningful?". Database Theory—ICDT99, 217-235

منابع

[ویرایش]

پیوند به بیرون

[ویرایش]