توضیحات
ABSTRACT
We propose a human pose representation model that transfers human poses acquired from different unknown views to a view-invariant high-level space. The model is a deep convolutional neural network and requires a large corpus of multiview training data which is very expensive to acquire. Therefore, we propose a method to generate this data by fitting synthetic 3D human models to real motion capture data and rendering the human poses from numerous viewpoints. While learning the CNN model, we do not use action labels but only the pose labels after clustering all training poses into k clusters. The proposed model is able to generalize to real depth images of unseen poses without theneed for re-training or fine-tuning. Real depth videos are passed through the model frame-wise to extract viewinvariant features. For spatio-temporal representation, we propose group sparse Fourier Temporal Pyramid which robustly encodes the action specific most discriminative output features of the proposed human pose model. Experiments on two multiview and three single-view benchmark datasets show that the proposed method dramatically outperforms existing state-of-the-art in action recognition.
INTRODUCTION
Video based human action recognition is challenging because significant intra-action variations exist due to changes in viewpoint, illumination, visual appearance (such as color and texture of clothing), scale (due to different human body sizes or distances from the camera), background and speed of performing an action. Some challenges have been simplified by the use of real-time depth cameras (e.g. Kinect) that capture the texture and illumination invariant human body shape and simplify human segmentation. However, ariations due to viewpoint remains a major challenge and is explicitly addressed in this paper. Many methods [23, 31, 34, 36–38, 44, 47, 48, 55–57, 63, 67, 68, 74] have been proposed which achieve impressive action recognition results when videos are acquired from a common viewpoint. However, their performance degrades sharply under viewpoint changes [38, 39, 60]. This is because the same human pose appears quite different when observed from different viewpoints. To cope with this problem, view-invariant approaches [17, 39–42, 54, 59, 60] have been recently proposed for action recognition in videos acquired from novel views.
چکیده
ما یک مدل نمایندگی انسانی ارائه می دهیم که عبارات انسانی را از دیدگاه های مختلف ناخودآگاه به فضای بالا در سطح بینایی منتقل می کند. این مدل یک شبکه عصبی پیچیدگی عمیق است و نیاز به یک بخش بزرگ از داده های آموزش چند رسانه ای دارد که برای خرید بسیار گران است. بنابراین، ما یک روش برای تولید این داده ها را با استفاده از مدل های انسانی 3D انسان برای داده های واقعی دستکاری حرکت و ارائه دادن انسان از دیدگاه های متعدد پیشنهاد می کنیم. در حالی که یادگیری مدل CNN، ما از برچسب های عمل استفاده نمی کنیم، بلکه تنها پس از خوشه بندی همه آموزش ها به خوشه ها، فقط برچسب های قرار می گیرند. مدل پیشنهادی قادر به تعمیم تصاویر عمیق عمیق از ظاهر های غیر قابل مشاهده بدون نیاز به آموزش مجدد و یا تنظیم مناسب است. فیلم عمیق عمیق از طریق مدل فریم به منظور استخراج ویژگی های دیدنی غالبا منتقل می شود. برای نمایندگی فضایی و زمانی، ما پیشنهاد پیمایش فوریه فوریه گروهی را که به طور قابل ملاحظه ای اکثر ویژگی های خروجی تبعیض آمیز مدل پیشنهادی انسان را رمزگذاری می کند. آزمایشات بر روی دو مجموعه داده معیار چندبعدی و سه تک تک مشاهده نشان می دهد که روش پیشنهادی به طور چشمگیری پیشرفته ترین حالت تشخیص عمل را بهتر از گذشته می کند.
مقدمه
به رسمیت شناختن عملیات انفرادی مبتنی بر ویدیو، چالش برانگیز است زیرا تغییرات قابل توجه در درون عمل به دلیل تغییر در دید، نور، ظاهر بصری (مانند رنگ و بافت لباس)، مقیاس (به دلیل اندازه های مختلف بدن انسان یا فاصله از دوربین)، پس زمینه و سرعت اجرای یک عمل. بعضی از چالش ها با استفاده از دوربین های عمق در زمان واقعی (مثلا Kinect) ساده شده اند که شکل بدن انسان غیر قابل تغییر شکل و ساده سازی تقسیم بندی انسان را جذب می کنند. با این حال، ariations با توجه به دیدگاه یک چالش بزرگ است و به صراحت در این مقاله مورد توجه قرار گرفته است. بسیاری از روش های [23، 31، 34، 36-38، 44، 47، 48، 55-57، 63، 67، 68، 74] پیشنهاد شده اند که نتایج ویدیو را از یک دیدگاه معمول به دست می آورند. با این حال، عملکرد آنها به شدت تحت تغییرات دگرگون می شود. این به این دلیل است که ظاهر انسان همان زمانی که از دیدگاه های مختلف مشاهده می شود کاملا متفاوت است. برای مقابله با این مشکل، رویکردهای دید غیرمستقیم [17، 39-42، 54، 59، 60] اخیرا برای تشخیص عمل در ویدیوهایی که از دیدگاه های رمان گرفته شده است، پیشنهاد شده است.
Year: 2016
Publisher : ResearchGate
By : Hossein Rahmani, and Ajmal Mian
File Information: English Language/ 11 Page / size: 5.31 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1395
ناشر : ResearchGate
کاری از : حسین رحمانی و عجمان میان
اطلاعات فایل : زبان انگلیسی /11صفحه / حجم : KB 5.31
نقد و بررسیها
هنوز بررسیای ثبت نشده است.