مدیریت مهندسی و رایانش نرم (Feb 2025)
بهینهسازی سبد سهام با استفاده از یادگیری تقویتی عمیق
Abstract
پژوهش حاضر قصد دارد تا با استفاده از مفاهیم هوش مصنوعی، معاملهگر هوشمندی را آموزش دهد که بتواند به تصمیمگیری بهینه برای سرمایهگذاری در سبد سهام کمک کند. بدین منظور روشی مبتنی بر یادگیری تقویتی عمیق Q برای بهینهسازی سبد سهام پیشنهاد خواهیم داد. در این روش از شبکه سیاست و شبکه سیاست هدف برای یادگیری اقدامها و از شبکه یادگیری و شبکه هدف برای برآورد Q بهینه بهره گرفته میشود. برای ارزیابی عملکرد روش پیشنهادی از دادههای مربوط به شرکتهای تشکیلدهنده شاخص داو جونز (DJIA) از مارس 2008 تا اکتبر 2021 استفاده میگردد. بعلاوه عملکرد روش پیشنهادی با استراتژیهای مرسوم سرمایهگذاری و دو الگوریتم یادگیری تقویتی عمیق، بهینهسازی سیاست پروکسیمال (PPO) و بازیگر-منتقد نرم (SAC) مقایسه میشود. نتایج این بررسیها حاکی از آن است که روش پیشنهادی بر روی دادگان آزمون با مجموع بازده 35.6 درصدی در مقایسه با سایر روشهای بررسی شده بهترین عملکرد را دارد. از سوی دیگر نسبت شارپ در روش پیشنهادی بیشترین مقدار است که نشانگر آن است که این استراتژی در متعادلسازی بین سود و ریسک عملکرد بهتری دارد.
Keywords