• محیط
  • تابع پاداش
  • تابع مقدار

محیط

  • در RLعامل یادگیر بطور سعی و خطا با یک محیط پویا درگیر شده و یاد می گیرد که برای هر موقعیت چه عملی را انجام دهد
  • این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل مشاهده برای عامل باشد. (partially observable)
  • مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور، توضیح سمبلیک و غیره باشد.
  • در حالت ایده ال عامل باید بطور کامل قادر به مشاهده محیط باشد زیرا اغلب تئوریهای مربوطه بر اساس این فرض بنا شده اند.

تابع پاداش

  • در RLوقتی عامل  در یک حالت خاص عملی را انجام میدهد، در مقابل پاداش (reward or reinforcement) دریافت میکند. در این سیستم عامل وظیفه دارد تا پاداش دریافتی در دراز مدت را حداکثر نماید.
  • یکی از نکات طراحی یک سیستم RL  تعریف یک reinforcement functionمناسب با اهداف عامل است. اینکار به طرق مختلف انجام میشود.
  • در MDP  توابع فقط به حالت و عمل فعلی بستگی داشته و از حالت وعمل های قبلی مستقل است.
  • در مسائل MDP  با شرایطی مواجه هستیم که عامل میتواند S حالت مجزا  را درمحیط  تشخیص دهد.این عامل قادر به انجام A عمل مجزا  میباشد.
  • در هر لحظه t  عامل حالت st را تشخیص داده و عمل at راانجام میدهد.
  • محیط در پاسخ به این عمل پاداش rt=(st,at)  را به عامل میدهد و به حالت بعدی st+1=d(st,at) میرود.
  • توابع r , d جزئی از محیط بوده و برای عامل ناشناخته هستند.

مدل های عملکرد بهینه :

برای اینکه یک عامل بتواند تاثیر رخدادهای آینده در انتخاب عمل مناسب برای حالت فعلی را در نظر بگیرد مدلهای مختلفی پیشنهاد شده است:

  • discounted cumulative reward

Iran-AI.ir

  • finite horizon

Iran-AI.ir
Iran-AI.ir

  • average reward

Iran-AI.ir

تابع مقدار

  • مقدار یک حالت عبارت است ازمجموع مقدار پاداشی که با شروع از آن حالت و پیروی از خط مشی مشخصی که به حالت نهائی ختم شود،  دریافت میگردد.
  • تابع مقدار یا Value Function عبارت است از نگاشتی ازstates به  state values که میتواند توسط هر تقریب زننده تابع نظیر یک شبکه عصبی تخمین زده شود.

تخمین تابع مقدار

یادگیری تقویتی میتواند کار بسیار سختی باشدزیرا عامل در مقابل کاری که انجام میدهد پاسخ مستقیمی در مورد درست یا نادرستی آن دریافت نمیکند.

  • برای مثال عاملی که میخواهد از طریق شبیه سازی یک هواپیما را  هدایت نماید در هر لحظه مجبور است تا تصمیم جدید بگیرد و اگر بعد از هزاران عمل هواپیما سقوط نماید، عامل چگونه میتواند عملی که به سقوط هواپیما منجر شده را شناسائی نماید؟
  • در اینجا Dynamic Programming با معرفی دو اصل ساده سعی در ارائه راه حل مینماید:
  • اگر عملی  انجام شود که بلافاصله منجر به نتیجه بدی نظیر سقوط هواپیما گردد عامل باید یاد بگیرد که در دفعات بعدی در حالت مشابه آن عمل را تکرار نکند.لذا عامل باید از عملی که بلافاصله قبل از سقوط هواپیما انجام داده بود پرهیز کند.
  • اگر عملی در یک موقعیت خاص منجر به نتیجه بدی شد، باید از قرار گرفتن در آن موقعیت پرهیز نمود.بنا بر این اگر قرار گرفتن در جهت و موقعیت خاصی منجر به سقوط هواپیما میشود، عامل یاد میگیرد که از انجام عملیاتی که منجر به قرار گرفتن هواپیما در چنین شرائطی میگردند پرهیر نماید.

نوشته شده در تاریخ یکشنبه 14 خرداد 1391    | توسط: محاسبات نرم    |    | نظرات()