خودبازی (هوش مصنوعی) - ویکیپدیا، دانشنامهٔ آزاد
یادگیری ماشین و دادهکاوی |
---|
خودبازی روشی است برای بهبود عملکرد عاملهای یادگیری تقویتی. بهطور شهودی، عوامل یادمیگیرند که با بازی کردن «در مقابل خودشان»، عملکرد خود را بهبود بخشند.
تعریف و انگیزه
[ویرایش]در آزمایشهای یادگیری تقویتی چند عاملی، محققان تلاش میکنند تا عملکرد یک عامل یادگیری را در یک کار معین، با همکاری یا رقابت در کنار یک یا چند عامل دیگر، بهینه کنند. این عوامل با آزمون و خطا آموزش میبینند و بهتر میشوند و یادمیگیرند. محققان آزدای انتخاب دارند و میتوانند تصمیم بگیرند که الگوریتم یادگیری نقش دو یا چند عامل مختلف را ایفا کند. وقتی این تکنیک با موفقیت اجرا شود، یک مزیت مضاعف دارد:
- منجر به یک چالش معنادار میشود، زیرا که برای تعیین اقدامات سایر عوامل یک راه ساده و دستیافتنی.
- میزان تجربه ای را که میتوان برای بهبود خطمشی استفاده کرد به میزان دو تا چند برابر افزایش میدهد، زیرا از دیدگاه همه عوامل بازی میتوان برای یادگیری استفاده کرد.
مقاله Czarnecki و همکاران[۱] بر این باور است که بیشتر بازیهایی که مردم برای سرگرمی انجام میدهند «بازیهای مهارت» هستند. بدین معنی که در «بازیهای مهارت» فضای همه استراتژیهای ممکن در آنها شبیه یک فرفره است.
جزئیات علمی مقاله این مسئله به صورت تحلیلی زیر خلاصه میشود:
- میتوانیم فضای استراتژیها را به مجموعهها تقسیم کنیم
- به طوری که
- و استراتژی استراتژی را شکست میدهد
- در نتیجه، در خودبازی مبتنی بر جمعیت، اگر جمعیت بیشتر از باشد، آنگاه الگوریتم به بهترین استراتژی ممکن همگرا میشود.
کاربرد
[ویرایش]برنامه آلفا زیرو برای بهبود عملکرد خود در بازیهای شطرنج، شوگی و گو از خودبازی استفاده میکند.[۲]
خودبازی، برای آموزش سیستم هوش مصنوعی Cicero نیز استفاده میشود تا در بازی دیپلماسی (بازی) از انسانها پیشی بگیرد. این تکنیک در آموزش سیستم DeepNash نیز با هدف بازی در فتح پرچم استفاده میشود.[۳][۴]
ارتباط با سایر رشتهها
[ویرایش]عموماً خودبازی را با مفهوم معرفتشناختی لوح سفید مقایسه میکنند. این مفهوم، روشی را توصیف میکند که انسانها دانش را از یک «لوح خالی» کسب میکنند.[۵]
مطلعات بیشتر
[ویرایش]- DiGiovanni, Anthony; Zell, Ethan; et al. (2021). "Survey of Self-Play in Reinforcement Learning". arXiv:2107.02850 [cs.GT].
منابع
[ویرایش]- ↑ Czarnecki, Wojciech M.; Gidel, Gauthier; Tracey, Brendan; Tuyls, Karl; Omidshafiei, Shayegan; Balduzzi, David; Jaderberg, Max (2020). "Real World Games Look Like Spinning Tops". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 17443–17454.
- ↑ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].
- ↑ Snyder, Alison (2022-12-01). "Two new AI systems beat humans at complex games". Axios (به انگلیسی). Retrieved 2022-12-29.
- ↑ Erich_Grunewald, "Notes on Meta's Diplomacy-Playing AI", LessWrong (به انگلیسی)
- ↑ Laterre, Alexandre (2018). "Ranked Reward: Enabling Self-Play Reinforcement Learning for Combinatorial Optimization". arXiv:1712.01815 [cs.AI].