https://ieeexplore.ieee.org/document/10726013 – جامعه dev

در این مقاله یک رویکرد نوآورانه برای تقویت پیش بینی فعالیت های انسانی با ادغام شبکه های حلقوی موقتی (TCN) با یک مدل رمزگذار رمزگذار در چارچوب شبکه منفی (GAN) ارائه شده است. مدل پیشنهادی ما قدرت پیچیدگی های سه بعدی فضا-زمانی را برای ضبط الگوهای پیچیده و وابستگی های زمانی موجود در داده های ویدیویی مهار می کند ، از این طریق دقت و مقاومت پیش بینی را بهبود می بخشد. برای نشان دادن اثربخشی رویکرد خود ، ما از مجموعه داده های KTH برای کارهای تشخیص اقدام استفاده می کنیم و ابزار آن را در مدیریت داده های ویدیویی در خطوط لوله یادگیری عمیق نشان می دهیم. مجموعه داده KTH به عنوان یک منبع ارزشمند برای ساده سازی پیش پردازش داده ها و تسهیل توسعه مدل متمرکز عمل می کند. در هسته اصلی تحقیقات ما ، مدل مبتنی بر GAN ، که از یک ژنراتور و یک تبعیض آمیز تشکیل شده است. این ژنراتور وظیفه تولید فریم های ویدیویی مادام العمر را از بازنمایی های فضای نهفته دارد ، در حالی که این تبعیض آمیز پویایی آموزش دستگیرنده را راهنمایی می کند. با استفاده از یک معماری رمزگذار رمزگذار که توسط لایه های TCN تقویت شده است ، مدل ما به طور دقیق اطلاعات مکانی و زمانی ذاتی در توالی های ویدیویی را ضبط می کند. از طریق آزمایش های گسترده ای که بر روی مجموعه داده های معیار مانند KTH Action انجام شده است ، ما عملکرد رقابتی مدل خود را نشان می دهیم. معیارهای ارزیابی از جمله میانگین خطای مربع (MSE) و شاخص شباهت ساختاری (SSIM) دقت برتر رویکرد ما را در مقایسه با مدلهای موجود مانند FutureGan ، FRNN و MCNET برجسته می کند.