پردازش سیگنال پیشرفته (Jul 2020)
آشکارسازی و بازشناسی یکپارچه متن از تصاویر طبیعی با بهکارگیری فرهنگ لغت
Abstract
در سالهای اخیرآشکارسازی و بازشناسی متن در تصاویر طبیعی بهطور گسترده مورد مطالعه قرار گرفته است. در این پژوهش، یک سیستم مکانیابی متن در صحنه چندجهته مقاوم برای به دست آوردن بازدهی بالا در آشکارسازی متن بر اساس شبکه عصبی پیچشی(CNN) ارائه شده است. روش پیشنهادی شامل سه لایه استخراج ویژگی، ادغام ویژگی و خروجی میباشد. در لایه استخراج ویژگی، یک لایه ReLU بهبود یافته(i.ReLU) معرفی شده است. همچنین بهمنظورآشکارسازی متون با ابعاد متنوع، یک لایه inception بهبود یافته (i.inception) ارائه شده است. سپس، برای بهبود استخراج ویژگی از یک لایه اضافی استفاده شده است که ساختار پیشنهادی را قادر میسازد متون چندجهته حتی منحنی و عمودی را آشکارسازی نماید. همچنین، یک چارچوب خط لوله برای بازشناسی کاراکتر پیشنهاد نمودهایم. چارچوب خط لوله پیشنهادی شامل دو خط لوله موازی است که بهطور همزمان پردازش میشوند. خط لوله اول، متشکل از کلمات برش یافته و خط لوله دوم شامل زوایای متن میباشد. سپس، یک فرهنگ لغت جهت اصلاح خطای احتمالی کلمات بازشناسی شده استفاده نمودیم. آزمایشها بر روی مجموعه دادههای ICDAR 2013، ICDAR 2015 وICDAR 2019، نشان از برتری بارز سیستم پیشنهادی نسبت به کارهای پیشین دارد.
Keywords