• درحوزه یادگیری ماشین، یادگیری تقویتی از بازخورد انسانی (انگلیسی: Reinforcement learning from human feedback) (اختصاری RLHF) تکنیکی برای همسو کردن یک عامل...
    52 KB (4,581 words) - 03:36, 15 May 2024
  • چت‌جی‌پی‌تی (category یادگیری بی‌نظارت)
    برای مکالمات بهینه شده‌است. در این روند، از ترکیب یادگیری تحت نظارت و یادگیری تقویتی مبتنی بر بازخورد انسانی (RLHF) استفاده شده تا کیفیت پاسخ‌هایش بهبود...
    30 KB (2,734 words) - 19:06, 13 November 2024
  • (نسخه تنظیم شده GPT-3) و Sparrow با استفاده از یادگیری تقویتی از بازخورد انسانی استفاده می‌شود. انتقال یادگیری مدل‌های زبان بزرگ {{cite book}}: Empty citation...
    6 KB (553 words) - 15:24, 20 November 2023
  • مهندسی پرسش (category یادگیری بی‌نظارت)
    خروجی، آموزش تقویتی با بازخورد انسانی، و مهندسی پرسش برای جدا کردن ورودی کاربر از دستورالعمل‌ها است. در اکتبر ۲۰۱۹، جنید علی و مالگورزاتا پیکیس از کلودفلر...
    81 KB (8,104 words) - 16:26, 16 September 2024
  • یادگیری تقویتی چند عاملی (MARL) زیر مجموعه ای از یادگیری تقویتی است . و بر بررسی رفتار چندین عاملی که در یک محدوده مشترک وجود دارند، تمرکز دارد. هر عامل...
    20 KB (1,953 words) - 03:41, 15 May 2024
  • شبکه‌های زایای دشمن‌گونه (category یادگیری بی‌نظارت)
    یادگیری نیمه‌نظارتی (Semi-supervised learning)، یادگیری با ناظر (Supervised learning) و یادگیری تقویتی (Reinforcement learning) نیز می‌تواند مفید باشد...
    56 KB (5,415 words) - 10:49, 2 May 2024
  • بالاتر از مجموعه داده‌های شخص ثالث بزرگتر (اما با کیفیت پایین‌تر) داشت. برای هم‌ترازی با هوش مصنوعی، یادگیری تقویتی با بازخورد انسانی با ترکیبی از ۱۴۱۸۰۹۱...
    24 KB (2,059 words) - 16:16, 23 October 2024
  • که مدل های یادگیری ماشین را به اشتراک می گذارند، احتمال استفاده از بازخورد فوری الگوریتم‌های یادگیری ماشین در کار روزانه وجود دارد. یادگیری ماشینی در معماری...
    54 KB (4,828 words) - 21:48, 28 February 2024
  • با پاداش به سیستمی از یادگیری تقویتی گفته می‌شود که در آن یک عامل، سیگنال‌های پاداش را از یک مدل پیش‌بینی، که همزمان با بازخورد انسان آموزش می‌بیند. دریافت...
    54 KB (5,219 words) - 12:19, 8 August 2024
  • داده‌اند. روبرتو وبر به مسائلی در باب یادگیری بدون بازخورد پرداخت. دیوید کوپر و جان کیگل به بررسی انواع یادگیری‌ها در حالتی که استراتژی‌ها مشابه هم باشد...
    20 KB (1,585 words) - 03:03, 1 January 2024