یادگیری قانون وابستگی - ویکیپدیا، دانشنامهٔ آزاد
در دادهکاوی، یادگیری قانون وابستگی (به انگلیسی: association rule learning) یک متد مناسب برای یافتن روابط جذاب بین متغیرهای موجود در پایگاه دادههای بزرگ است. پیاتتسکی-شاپیرو در[۱] چگونگی تحلیل و ارائه قوانین قوی یافته شده را در پایگاههای داده با استفاده از معیارهای متفاوت جذابیت توضیح میدهد. بر مبنای مفهوم قوانین قوی، راکش اگرول و همکارانش [۲] قوانین وابستگی را برای کشف قاعدههای موجود بین محصولات در دادههای تراکنشی با مقیاس بالا معرفی میکنند. به عنوان مثال، قانون وابستگی در دادههای فروش یک سوپرمارکت، نشان میدهد در صورتی که یک مشتری پیاز (onions) و سیب زمینی (potatoes) را در سبد خرید خود قرار داده است، احتمالاً او مایل به خرید گوشت همبرگر نیز خواهد بود. چنین اطلاعاتی میتواند به عنوان مبنای تصمیماتی برای برخی از فعالیتهای فروشگاهی همچون ارائه مناسب تخفیف برای محصولات یا قراردادن مناسب محصولات در کنار هم، مورد استفاده قرار گیرد. علاوه بر مثال فوق که در مورد تحلیل سبد خرید مطرح شد، امروزه یادگیری قانون وابستگی در کاربردهای متفاوت همچون مصرف کاوی وب، تشخیص نفوذ، و بیوانفورماتیک مورد استفاده قرار میگیرد. بر خلاف دنباله کاوی (به انگلیسی: sequence mining) در یادگیری قانون وابستگی، ترتیب چه در میان آیتمها و چه در میان تراکنشها در نظر گرفته نمیشود.
تعریف
[ویرایش]ID | milk | bread | butter | drink |
---|---|---|---|---|
۱ | ۱ | ۱ | ۰ | ۰ |
۲ | ۰ | ۰ | ۱ | ۰ |
۳ | ۰ | ۰ | ۰ | ۱ |
۴ | ۱ | ۱ | ۱ | ۰ |
۵ | ۰ | ۱ | ۰ | ۰ |
در ادامه، تعریف اصلی کاوش قانون وابستگی، ارائه شده توسط اگرول و همکارانش[۲] آمده است: مجموعه را به عنوان مجموعهای از صفت دودویی به نام آیتم در نظر میگیریم. فرض کنیم مجموعه تراکنشها یا همان پایگاه داده باشد. هر تراکنش در شامل یک کد تراکنش منحصربهفرد و زیرمجموعهای از آیتمهای است. یک قانون به عنوان یک دلالت به فرم تعریف میشود. به طوری که و . مجموعه آیتمهای ، مقدم و مجموعه آیتمهای ، نتیجه خوانده میشوند.
برای توضیح مفهوم، ما از یک مثال کوچک در مورد سبد خرید در سوپرمارکت استفاده میکنیم. مجموعه آیتمهای و یک پایگاه داده کوچک شامل آیتمها (کد ۱ به معنی حضور و کد ۰ به معنی عدم خضور آن آیتم در یک تراکنش است) در جدول مقابل نشان داده شدهاست. به عنوان مثال یک قانون وابستگی موجود در این پایگاه داده است. مفهوم این قانون این است که اگر مشتری کره (butter) و نان (bread ) خریده باشد، شیر (milk) هم خواهد خرید.
تذکر: مثال فوق مطرح شده بسیار کوچک است. در عمل یک قانون نیازمند پشتیبانی صدها تراکنش است تا بتواند به صورت آماری مهم باشد. از طرفی، معمولاً یک پایگاه داده شامل صدها یا هزاران تراکنش است.
مفاهیم کاربردی
[ویرایش]برای انتخاب قوانین جذاب از بین مجموعه قوانین ممکن، محدودیتهای مختلف روی معیارهای سنجش اهمیت و جذابیت به کار میرود. معروفترین محدودیتها شامل آستانه کمینه برای پشتیبان و اطمینان است.
- پشتیبان مجموعه آیتم که به صورت نشان داده میشود، نسبت تراکنشهای شامل مجموعه آیتم است. در پایگاه داده مثال، مجموعه آیتم دارای پشتیبان است، چرا که این مجموعه آیتم در بیست درصد تراکنشها اتفاق میافتد.
- اطمینان یک قانون به این صورت تعریف میشود: . برای مثال، قانون دارای اطمینان در پایگاه داده است، به این معنا که قانون فوق برای پنجاه درصد تراکنشهای شامل شیر (milk) و نان (bread) صدق میکند.
فرایند
[ویرایش]تاریخچه
[ویرایش]مفهوم قوانین وابستگی در سال ۱۹۹۳ پس از انتشار مقاله اگرول[۲] مورد توجه خاص قرار گرفت. با توجه به اطلاعات آماری سرویس Google Scholar، در مارس ۲۰۰۸ این مقاله بیش از ۶۰۰۰ نقل قول (citation) دریافت کردهاست که آن را در صدر بیشترین تعداد نقل قولها در گرایش داده کاوی قرار میدهد. اگرچه ممکن است آنچه که امروزه قوانین وابستگی نامیده میشود، همان مفهوم مطرح شده در مقاله سال 1966[۳] تحت عنوان GUHA (یک متد عمومی داده کاوی) مطرح شدهاست.
سایر معیارهای سنجش جذابیت
[ویرایش]علاوه بر اطمینان، معیارهای دیگری نیز برای سنجش جذابیت قوانین مطرح شدهاست که از مهمترین آنها میتوان به موارد زیر اشاره کرد:
الگوریتمها
[ویرایش]در طول زمان، الگوریتمهای متعددی برای تولید قوانین وابستگی پیشنهاد شدهاند.
بعضی الگوریتمهای معروف در این زمینه عبارتند از: آپریوری، اکلات (Eclat) و FP-Growth. تمامی این الگوریتمها تنها انجام دهنده نیمی از مسیر تولید قوانین وابستگی هستند. چرا که این الگوریتمها برای کاوش مجموعه آیتمهای مکرر (به انگلیسی: Frequent item-set mining) ساخته شدهاند و پروسه دیگری روی مجموعه آیتمهای مکرر باید انجام شود تا منتهی به قوانین وابستگی شوند.
الگوریتم آپریوری
[ویرایش]آپریوری بهترین الگوریتم برای کاوش قوانین وابستگی است. این الگوریتم از استراتژی جستجوی اول-سطح برای شمارش پشتیبان مجموعه آیتمها استفاده میکند و با استفاده از یک تابع تولید کاندید، از خصوصیت بستار رو به پایین پشتیبان بهره میبرد.
الگوریتم اکلات
[ویرایش]اکلات یک الگوریتم جستجوی اول-عمق با استفاده از اشتراک مجموعه است.
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J. ; eds. , Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.
- ↑ ۲٫۰ ۲٫۱ ۲٫۲ Agrawal, Rakesh; Imieliński, Tomasz; Swami, Arun (1993). "Mining association rules between sets of items in large databases": 207–216. doi:10.1145/170035.170072.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Hájek, Petr; Havel, Ivan; Chytil, Metoděj; The GUHA method of automatic hypotheses determination, Computing 1 (1966) 293-308
- ↑ Omiecinski, Edward R. ; Alternative interest measures for mining associations in databases, IEEE Transactions on Knowledge and Data Engineering, 15(1):57-69, Jan/Feb 2003
- ↑ Aggarwal, Charu C. ; and Yu, Philip S. ; A new framework for itemset generation, in PODS 98, Symposium on Principles of Database Systems, Seattle, WA, USA, 1998, pages 18-24
- ↑ Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D. ; and Tsur, Shalom; Dynamic itemset counting and implication rules for market basket data, in SIGMOD 1997, Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD 1997), Tucson, Arizona, USA, May 1997, pp. 255-264
- ↑ Piatetsky-Shapiro, Gregory; Discovery, analysis, and presentation of strong rules, Knowledge Discovery in Databases, 1991, pp. 229-248
- ↑ Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D. ; and Tsur, Shalom; Dynamic itemset counting and implication rules for market basket data, in SIGMOD 1997, Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD 1997), Tucson, Arizona, USA, May 1997, pp. 265-276