تبلیغات
Soft Computing /* Header banner

اجزا یک سیستم یادگیری تقویتی

  • محیط
  • تابع پاداش
  • تابع مقدار

محیط

  • در RLعامل یادگیر بطور سعی و خطا با یک محیط پویا درگیر شده و یاد می گیرد که برای هر موقعیت چه عملی را انجام دهد
  • این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل مشاهده برای عامل باشد. (partially observable)
  • مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور، توضیح سمبلیک و غیره باشد.
  • در حالت ایده ال عامل باید بطور کامل قادر به مشاهده محیط باشد زیرا اغلب تئوریهای مربوطه بر اساس این فرض بنا شده اند.

تابع پاداش

  • در RLوقتی عامل  در یک حالت خاص عملی را انجام میدهد، در مقابل پاداش (reward or reinforcement) دریافت میکند. در این سیستم عامل وظیفه دارد تا پاداش دریافتی در دراز مدت را حداکثر نماید.
  • یکی از نکات طراحی یک سیستم RL  تعریف یک reinforcement functionمناسب با اهداف عامل است. اینکار به طرق مختلف انجام میشود.
  • در MDP  توابع فقط به حالت و عمل فعلی بستگی داشته و از حالت وعمل های قبلی مستقل است.
  • در مسائل MDP  با شرایطی مواجه هستیم که عامل میتواند S حالت مجزا  را درمحیط  تشخیص دهد.این عامل قادر به انجام A عمل مجزا  میباشد.
  • در هر لحظه t  عامل حالت st را تشخیص داده و عمل at راانجام میدهد.
  • محیط در پاسخ به این عمل پاداش rt=(st,at)  را به عامل میدهد و به حالت بعدی st+1=d(st,at) میرود.
  • توابع r , d جزئی از محیط بوده و برای عامل ناشناخته هستند.

مدل های عملکرد بهینه :

برای اینکه یک عامل بتواند تاثیر رخدادهای آینده در انتخاب عمل مناسب برای حالت فعلی را در نظر بگیرد مدلهای مختلفی پیشنهاد شده است:

  • discounted cumulative reward

Iran-AI.ir

  • finite horizon

Iran-AI.ir
Iran-AI.ir

  • average reward

Iran-AI.ir

تابع مقدار

  • مقدار یک حالت عبارت است ازمجموع مقدار پاداشی که با شروع از آن حالت و پیروی از خط مشی مشخصی که به حالت نهائی ختم شود،  دریافت میگردد.
  • تابع مقدار یا Value Function عبارت است از نگاشتی ازstates به  state values که میتواند توسط هر تقریب زننده تابع نظیر یک شبکه عصبی تخمین زده شود.

تخمین تابع مقدار

یادگیری تقویتی میتواند کار بسیار سختی باشدزیرا عامل در مقابل کاری که انجام میدهد پاسخ مستقیمی در مورد درست یا نادرستی آن دریافت نمیکند.

  • برای مثال عاملی که میخواهد از طریق شبیه سازی یک هواپیما را  هدایت نماید در هر لحظه مجبور است تا تصمیم جدید بگیرد و اگر بعد از هزاران عمل هواپیما سقوط نماید، عامل چگونه میتواند عملی که به سقوط هواپیما منجر شده را شناسائی نماید؟
  • در اینجا Dynamic Programming با معرفی دو اصل ساده سعی در ارائه راه حل مینماید:
  • اگر عملی  انجام شود که بلافاصله منجر به نتیجه بدی نظیر سقوط هواپیما گردد عامل باید یاد بگیرد که در دفعات بعدی در حالت مشابه آن عمل را تکرار نکند.لذا عامل باید از عملی که بلافاصله قبل از سقوط هواپیما انجام داده بود پرهیز کند.
  • اگر عملی در یک موقعیت خاص منجر به نتیجه بدی شد، باید از قرار گرفتن در آن موقعیت پرهیز نمود.بنا بر این اگر قرار گرفتن در جهت و موقعیت خاصی منجر به سقوط هواپیما میشود، عامل یاد میگیرد که از انجام عملیاتی که منجر به قرار گرفتن هواپیما در چنین شرائطی میگردند پرهیر نماید.

نوشته شده در تاریخ یکشنبه 14 خرداد 1391    | توسط: علی احمدی    |    | نظرات()

تیم برنرز لی

سر تیموتی جان برنرز-لی (زاده ۸ ژوئن ۱۹۵۵ در لندن) دانشمند بریتانیایی علوم کامپیوتر، استاد دانشگاه‌ام آی تی، استاد و پژوهشگر دانشگاه ساوتهمپتون و ریاست کنسرسیوم وب جهان‌شمول است و تکامل وب را تحت نظر دارد. او فارغ‌التحصیل دانشگاه آکسفورد و مخترع وب جهان‌گستر است، یک ابتکار فرارسانه‌ای تحت اینترنت برای به اشتراک‌گذاری جهانی اطلاعات در شبکه CERN، لابراتوار فیزیک هسته‌ای اروپا، در ۱۹۸۹. در ۲۵ دسامبر ۱۹۹۰ به کمک رابرت کی‌لیو و یک دانشجوی جوان در سرن او اولین ارتباط موفقیت‌آمیز بین یک میزبان و کاربر HTTP از طریق اینترنت را برقرار کرد. مشخصاتی که او از URI، HTTP و HTML استخراج کرده بود به عنوان فناوری وب منتشر شد.

او مدیر کنسرسیوم وب جهان‌گستر است. همچنین او مدیر بنیاد وب جهان‌گستر می‌باشد که در سال ۲۰۰۹ برای سرمایه گذاری و تلاش برای هماهنگی بیشتر برای استفاده از مزایای بالقوه وب برای بشر راه‌اندازی شده.

از سال ۲۰۰۴ میلادی وی در دانشکده برق و علوم کامپیوتر دانشگاه ساوتهمپتون انگلستان بر روی پروژه جدیدش وب معنایی کار می‌کند.

در ۲۰۰۷ او همراه با آلبرت هافمن در رتبه اول در لیست صد نفره بزرگترین نوابغ زنده تلگراف آورده شد.

نوشته شده در تاریخ یکشنبه 2 بهمن 1390    | توسط: علی احمدی    | طبقه بندی: زندگی نامه،     | نظرات()

مقالات درخواستی 2

سید مسرور.سلام من رشته برق قدرت هستم یه جزوه ای در رابطه با تجهزات پست و حفاظت سیستم های قدرت می خواستم اگه امكانش هست

‫ﭘﺎﻳﺪاری و ﮐﻨﺘﺮل ﺳﻴﺴﺘﻢ هﺎی ﻗﺪرت‬

‫‪

Power System Stability & Control‬‬


نوشته شده در تاریخ شنبه 10 اردیبهشت 1390    | توسط: علی احمدی    | طبقه بندی: مقالات و کتاب ها و پروژه های درخواستی،     | نظرات()

روش بهینه‌سازی گروه مورچه‌ها

بهینه‌سازی گروه مورچه‌ها یا ACO یک الگوریتم مناسب یافتن راه‌حل‌های تقریبی برای مسائل بهینه‌سازی ترکیبیاتی است. در این روش، مورچه‌های مصنوعی به‌وسیله‌ٔ حرکت بر روی نمودار مساله و با باقی گذاشتن نشانه‌هایی بر روی نمودار، همچون مورچه‌های واقعی که در مسیر حرکت خود نشانه‌های باقی می‌گذارند، باعث می‌شوند که مورچه‌های مصنوعی بعدی بتوانند راه‌حل‌های بهتری را برای مساله فراهم نمایند. همچنین در این روش می‌توان توسط مسائل محاسباتی-عددی بر مبنای علم احتمالات بهترین مسیر را در یک نمودار یافت.


این روش که از رفتار مورچه‌ها در یافتن مسیر بین محل لانه و غذا الهام گرفته شده؛ اولین بار در 1992 توسط مارکو دوریگو (Marco Dorigo) در پایان نامهٔ دکترایش مطرح شد.

نوشته شده در تاریخ پنجشنبه 8 اردیبهشت 1390    | توسط: علی احمدی    | طبقه بندی: الگوریتم مورچگان،     | نظرات()

مسئله فروشنده دوره‌گرد

مسئله فروشنده دوره‌گرد (به انگلیسی: Travelling salesman problem، به‌اختصار: TSP ) مسئله‌ای مشهور است که ابتدا در سده ۱۸ مسائل مربوط به آن توسط ویلیام همیلتون و توماس کرکمن مطرح شد و سپس در دهه ۱۹۳۰ شکل عمومی آن به وسیله ریاضیدانانی مثل کارل منگر از دانشگاه هاروارد و هاسلر ویتنی از دانشگاه پرینستون مورد مطالعه قرار گرفت.

شرح مسئله بدین شکل است:
تعدادی شهر داریم و هزینه رفتن مستقیم از یکی به دیگری را می‌دانیم. مطلوب است کم‌هزینه‌ترین مسیری که از یک شهر شروع شود و از تمامی شهرها دقیقاٌ یکبار عبور کند و به شهر شروع بازگردد.

تعداد کل راه‌حل‌ها برابر است با 1/2(n-1) برای n>۲ که n تعداد شهرها است. در واقع این عدد برابر است با تعداد دورهای همیلتونی در یک گراف کامل با n رأس.

نوشته شده در تاریخ پنجشنبه 8 اردیبهشت 1390    | توسط: علی احمدی    | طبقه بندی: مسائل عمومی،     | نظرات()

آشنایی با الگوریتم مورچه ها (مورچگان)

الگوریتم بهینه سازی کلونی مورچه ها، و یا به اختصار الگوریتم مورچه ها، از رفتار مورچه های طبیعی که در مجموعه ها بزرگ در کنار هم زندگی می کنند الهام گرفته شده است و یکی از الگوریتم های بسیار کارآمد در حل مسائل بهینه سازی ترکیبی است. الگوریتم های دیگری نیز بر اساس الگوریتم مورچه ها ساخته شده اند که همگی سیستم های چند عاملی هستند و عامل ها مورچه های مصنوعی یا به اختصار مورچه هایی هستند که مشابه با مورچه های واقعی رفتار می کنند. الگوریتم مورچه ها، یک مثال بارز از هوش جمعی هستند که در آن عامل هایی که قابلیت چندان بالایی ندارند، در کنار هم و با همکاری یکدیگر می توانند نتایج بسیار خوبی به دست بیاورند. این الگوریتم برای حل و بررسی محدوده وسیعی از مسائل بهینه سازی به کار برده شده است. از این میان می توان به حل مسأله کلاسیک فروشنده دوره گرد و همچنین مسأله راهیابی در شبکه های مخابرات راه دور اشاره نمود.

مساله فروشنده دوره گرد (Traveling Salesman Problem) و یا به اختصار TSP، یکی از مسائل مشهور بهینه سازی ترکیبی است. در این مسأله، یک فروشنده دوره گرد می خواهد به چند شهر سفر کند و کالای خود را به فروش برساند. اما می بایست از تمام شهرها عبور کند، از هر شهر فقط یک بار عبور کند و با طی کوتاه ترین مسیر، سفر خود را به پایان برساند. حل این مساله کاربردهای وسیعی در حوزه های مختلف مهندسی دارد. از جمله مسائلی که از نظر ریاضی با مسأله TSP معادل هستند، می توان به حل انواع مسایل زمانبندی، مسیریابی، جایابی کالا در انبار، جایابی ماشینها در کارگاه ها، و طراحی مدارات چاپی اشاره نمود.

نوشته شده در تاریخ پنجشنبه 8 اردیبهشت 1390    | توسط: علی احمدی    | طبقه بندی: الگوریتم مورچگان،     | نظرات()

مقالات درخواستی 1

behnam .سلام یک مقاله در مورد ترانزیستورهای لیزری نیاز دارم اگر امکان دارد کمک کنید . ممنون

Small-signal modelling of the transistor laser including the quantum capture

and escape lifetimes

لینک

نوشته شده در تاریخ سه شنبه 6 اردیبهشت 1390    | توسط: علی احمدی    | طبقه بندی: مقالات و کتاب ها و پروژه های درخواستی،     | نظرات()

آشنایی با مهندسی کنترل

مهندسی کنترل گرایشی از مهندسی برق و مهندسی مکانیک است و کاربرد گسترده ای در رشته های مهندسی هوافضا٬ مهندسی شیمی و حتی اقتصاد و زیست‌شناسی دارد.

مهندسی کنترل به مدل‌سازی ریاضی سیستمها و بررسی دینامیک آن‌ها، و در نهایت، طراحی کنترل‌کننده‌ها برای سیستم‌های مورد نظر می‌پردازد. هدف از طراحی کنترل‌کننده واداشتن سیستم تحت کنترل به داشتن رفتاری مطابق با رفتار مطلوب می‌باشد. رفتار مطلوب می‌تواند معیارهای مختلفی از قبیل سرعت، دقت، مصرف سوخت، زمان و ... باشد.

به دلیل پایه‌ای بودن مطالب عنوان شده در این رشته، مباحث می‌تواند بسیار فراتر از رشته برق و حتی رشته‌های مهندسی برود. چون آنچه که عنوان می‌شود اصول و مبناهای کنترل سیستم‌ها است. می‌توان این سیستم را یک سیستم مکانیکی و یا دارای اجزای الکترونیکی و یا حتی جامعه‌ای از انسان‌ها و یا رفتارهای انسانی در نظر گرفت.

به عنوان مثال در سالهای اخیر بحث کنترل سازه ها در برابر زلزله به موضوع مورد علاقه محققان سازه تبدیل شده است. به نحوی که تقریبا هم اکنون ساختمانهای بلند بدون سیستمهای کنترلی ساخته نمیشوند. مثال بسیار مشهور استفاده از سیستم‌های کنترل در ساختمانها برج 101 تایپه است که در آن از سیستم کنترلی غیر فعال میراگر جرم هماهنگ شده موسوم به TMD استفاده شده است.

نوشته شده در تاریخ سه شنبه 30 فروردین 1390    | توسط: علی احمدی    | طبقه بندی: کنترل،     | نظرات()

آشنایی با الگوریتم رقابت استعماری

الگوریتم رقابت استعماری (Imperialist Competitive Algorithm - ICA) روشی در حوزه محاسبات تکاملی است که به یافتن پاسخ بهینه مسائل مختلف بهینه سازی می‌پردازد. این الگوریتم با مدلسازی ریاضی فرایند تکامل اجتماعی - سیاسی، الگوریتمی برای حل مسائل ریاضی بهینه سازی ارائه می‌دهد[۱]. از لحاظ کاربرد، این الگوریتم در دسته الگوریتم های بهینه سازی تکاملی همچون الگوریتم های ژنتیک (Genetic Algorithms)، بهینه سازی انبوه ذرات (Particle Swarm Optimization)، بهینه سازی کلونی مورچگان (Ant Colony Optimization)، تبرید فلزات شبیه سازی شده (Simulated Annealing) و ... قرار می گیرد. همانند همه الگوریتم های قرار گرفته در این دسته، الگوریتم رقابت استعماری نیز مجموعه اولیه ای از جوابهای احتمالی را تشکیل می دهد. این جوابهای اولیه در الگوریتم ژنتیک با عنوان "کروموزوم"، در الگوریتم ازدحام ذرات با عنوان "ذره" و در الگوریتم رقابت استعماری نیز با عنوان "کشور" شناخته می شوند. الگوریتم رقابت استعماری با روند خاصی که در ادامه می آید، این جوابهای اولیه (کشور ها) را به تدریج بهبود داده و در نهایت جواب مناسب مسئله بهینه سازی (کشور مطلوب) را در اختیار می گذارد.

پایه‌های اصلی این الگوریتم را سیاست همسان سازی (Assimilation)، رقابت استعماری (Imperialistic Competition) و انقلاب (Revolution) تشکیل می‌دهند. این الگوریتم با تقلید از روند تکامل اجتماعی، اقتصادی و سیاسی کشورها و با مدلسازی ریاضی بخشهایی از این فرایند، عملگرهایی را در قالب منظم به صورت الگوریتم ارائه می‌دهد که می‌توانند به حل مسائل پیچیده بهینه سازی کمک کنند. در واقع این الگوریتم جوابهای مسئله بهینه سازی را در قالب کشورها نگریسته و سعی می‌کند در طی فرایندی تکرار شونده این جواب‌ها را رفته رفته بهبود داده و در نهایت به جواب بهینه مسئله برساند[۲].

نوشته شده در تاریخ سه شنبه 30 فروردین 1390    | توسط: علی احمدی    | طبقه بندی: الگوریتم رقابت استعماری،     | نظرات()

زندگی نامه لطف‌علی عسکرزاده

لطف‌علی عسکرزاده، مشهور به لطفی زاده یا لطفی ع. زاده[۱] استاد دانشگاه برکلی در کالیفرنیا و بنیان‌گذار نظریهٔ منطق فازی (Fuzzy Logic) است. در بخش یادکرد منابع اکثر متون فنی مربوط به منطق فازی نام او به صورت "Zadeh" ذکر می‌شود.

وی از پدری ایرانی و مادری روس در باکو که آن زمان در جمهوری شوروی سوسیالیستی آذربایجان بخشی جمهوری شوروی سوسیالیستی فدراتیو ماوراء قفقاز واقع در اتحاد جماهیر شوروی بود متولد شد و از جنگ جهانی به این سو مقیم آمریکاست.

نوشته شده در تاریخ یکشنبه 28 فروردین 1390    | توسط: علی احمدی    | طبقه بندی: زندگی نامه،     | نظرات()
RSS | Atom