Mais conteúdo relacionado
Presentation.pptx
- 1. 1
یشنیدآر یندآرف همجوشیبر مبتنی هیجان بازشناسی
-
سی یدیدآر
لیمبیک ستم
مغز
آلرحیمآلرحمن هللابسم
دهنده آئهرآ
:
فرهودیزینب
آهنمارآساتید
:
ربیعیاعظم تردک ،ستایشیسعید تردک
رمشاو آستاد
:
یاززرفربد تردک
مهندسیوفنیدانشکده
بهمن
96
- 7. مقدمه
-
هیجان ریتئو
7
با همراه فیزیولوژیکی و ذهنی حالت یک ،هیجان
می رفتار و افکار ،احساسات از ای گسترده طیف
باشد
.
هیجان بندی طبقه
:
گسسته ساختار
:
6
پایه هیجان
:
،خوشحالی ،عصبانیت
تنفر و ناراحتی ،تعجب ،ترس
پیوسته ساختار
:
ارزش میزان بعدی دو فضای
-
برانگیختگی
(Valence-Arousal)
ارزش
برانگیخ
تگی
مقدمه
بازشناسمحاسباتیهای مدل
ی
هیجان
بازشناسیبیولوژیهای مدل
هیجان
پیشنهادی مدل یابیزآروآحیرط
گینتیجه و بندیجمع
ری
- 10. مدالیتیچندهیجان بازشناسی
-
همجوشی
10
S.T. Shivappa, “Audiovisual Information Fusion in Human-Computer Interfaces and Intelligent Environment: A Survey”
2010
•
آطالعات همجوشی
:
تردقیقو بیشتراطالعات به منبعچندیناطالعاتاز استفادهبا کهشود میاطالق یهایفعالیت مجموعه به
موضوعیک درباره
کنندمیپیدا دست
.
•
آطالعات همجوشیآنوآع
:
هاویژگیسطح
(
اول
)
گیریتصمیمسطح
(
خرا
)
های شورترکیب
همجوشی
بندطبقهسطح
(
میانی
)
Core
آین
پژوهش
مقدمه
مدل
های
محاسباتی
بازشن
اسی
هیجان
مدل
های
بیولوژی
هیجانبازشناسی
مد یابیزآروآحیرط
ل
پیشنهادی
جمع
بندی
و
نتیجه
گیری
- 12. مدالیتیچندهیجان بازشناسی
-
همجوشی
12
ویژگی سطح در همجوشی
مزایا
ی
روش این
:
روش از استفاده با جداسازی در بهتر قابلیت
دیداری و شنیداری های ویژگی بین همبستگی
روش این معایب
:
عدم
ها سیگنال که هنگامی روش این از استفاده
نیستند همزمان
.
افزایش
کاهش و ها ویژگی بردار ابعاد
کارایی
تصمیم سطح در همجوشی
مزایا
ی
روش این
:
که هنگامی روش این از استفاده
نیستند همزمان ها سیگنال
معایب
روش این
:
های ویژگی بین همبستگی گرفتن نادیده
مختلف حسگرهای از ناشی
مقدمه
دلیل به
دو محدودیت
اول استراتژی
آخر و
از استفاده
در همجوشی روش
با میانی سطح
از استفاده
عصبی های شبکه
مدل
های
محاسباتی
بازشناسی
هیجان
مدل
های
بیولوژی
بازشناسی
هیجان
و طراحی
مد ارزیابی
ل
پیشنهادی
جمع
بندی
و
نتیجه
گیری
- 13. 13
مدالیتیچندهیجان بازشناسی
-
همجوشی
ها چالش
:
ورودی های سیگنال در هیجان بروز بودن ناهمزمان
ها ویژگی بین همبستگی نگرفتن نظر در
حل راه
:
بندی طبقه سطح در همجوشی
ویژگی ایجاد برای عمیق عصبی های شبکه از استفاده
باالتر سطوح های
های مدالیتی از شده گرفته یاد های ویژگی وزنی ترکیب
عصبی های شبکه از استفاده با باالتر سطوح در مختلف
مقدمه
مدل
های
محاسباتی
بازشن
اسی
هیجان
مدل
های
بیولوژی
هیجانبازشناسی
مد یابیزآروآحیرط
ل
پیشنهادی
جمع
بندی
و
نتیجه
گیری
- 14. هیجان بازشناسی ژیبیولومدل
14
اتبیرمسلسلهپردازشنمایش
مغزدر چندمدالیتی
مقدمه
مدل
های
محاسباتی
بازشناسی
هیجان
مدل
های
بیولوژی
بازشناس
ی
هیجان
یابیزآروآحیرط
مدل
پیشنهادی
جمع
بندی
و
نتیجه
گیری
سازوکار از الهام
در مغز عصبی
اطالعات همجوشی
بازشناسی برای
هیجان
Slavova, et al., “Multi-modal emotion recognition- more cognitive machines,” in New Trends in Intelligent Technologies:
International Journal Information Technologies and Knowledge, Vol. 3, 2009.
- 22. 21
بازشناسی
هیجان
گفتار
از استفاده با
CNN
تنفر تعجب خوشحالی
فرمول
خروجی
فیلتر
مل
10
( ) 2595log (1 )
700
HZ
mel
f
f f
22
مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
6
مل تصاویر
-
مختلف های هیجان برای اسپکتروگرام
- 23. بازشناسی
هیجان
گفتار
از استفاده با
CNN
22
ساختار
الیه
های
بکار
رفته
در
مدل
CNN
23 مقدمه
های مدل
محاسباتی
بازشناسی
های مدل
بیولوژی
بازشناسی
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
32
Conv
7×7
Max
Pool
2×2
64
Conv
3×3
Max
Pool
2×2
128
Conv
3×3
256
Conv
3×3
Max
Pool
2×2
Max
Pool
2×2
256
Conv
3×3
Max
Pool
2×2
Dense
256
J. Donahue et al., “Long-Term Recurrent Convolutional Networks for Visual Recognition and Description,” in IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 4, pp. 677-691, April 2017
مدل از استفاده دلیل
CNN
گفتار هیجان های ویژگی باناظر یادگیری الگوریتم
باالتر سطوح در
خودکار بطور ویژگی یادگیری الگوریتم
CNN
در ها ویژگی استخراج برای شده اثبات روش یک
ایستا تصاویر
های ویژگی بین مکانی ارتباط کردن پیدا در مناسب
گفتار
- 25. دقت
بازشناسی
استخراج
ویژگی
و
نوع
طبقه
بندی
مدل
ارائه
شده
74.5
% Mel-spectrogram + CNN مدل
پیشنهادی
با
استفاده
از
CNN
66
% (12-MFCC, pitch, formant, energy,
amplitude, ZCR) + BELBLA
مدل
پیشنهادی
با
استفاده
از
BELBLA
65.5
% Spectrogram + CNN Badshah
و
همکارانش
(2017)
71
% Prosody + SVM Mansoorizadeh
و
همکارانش
(2007)
مقایسه
دقت
بازشناسی
هیجان
گفتار
بر
روی
پایگاه
داده
برلین
مقایسه
دقت
بازشناسی
بازشناسی
هیجان
گفتار
بر
روی
پایگاه
داده
برلین
بین
مدل
BELBLA
و
CNN-RNN
23
25
بازشناسی
هیجان
گفتار
از استفاده با
CNN
مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
0
10
20
30
40
50
60
70
80
90
100
Anger Boredom Disgust Fear Happy Neutral Sad
accuracy
rate
BELBLA melspectrogram+CNN
- 27. دقت
بازشناسی
استخراج
ویژگی
و
طبقه
بندی
مدل
ارائه
شده
66.7
% Mel-spectrogram + CNN مدل
پیشنهادی
ما
43
% prosody, LDA, Kalman filter Mansoorizadeh
و
همکارانش
(2010)
54.9
% Prosody+ MFCC Bejani
و
همکارانش
(2014)
57
% MFCC, HMM Sahoo
و
همکارانش
(2016)
62.7
% Prosody+spectral (602 features) Zhang
و
همکارانش
(2014)
72.9
% MFCC-RASTA-PLP Zhalehpour
و
همکارانش
(2016)
مقایسه
دقت
بازشناسی
بازشناسی
هیجان
گفتار
بر
روی
پایگاه
داده
eNterface
25
27
دقت
بازشناسی
و
خطای
loss
به
ازای
تعداد
تکرار
مختلف
در
مرحله
آموزش
بازشناسی
هیجان
گفتار
از استفاده با
CNN
مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
- 28. بازشناسی
حاالت
از استفاده با چهره
3D-CNN
تصویر
خاکستری
اصلی
Conv1 Pool1 Conv3
دقت
بازشناسی تعداد
دنباله
تصاویر
به
اندازه
100
×
96
57
% 10
62
% 12
62.5
% 14
مقایسه
دقت
بازشناسی
به
ازای
تعداد
دنباله
های
مختلف
26
مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri, “Learning spatiotemporal features with 3D convolutional
networks,” in IEEE International Conference on Computer Vision (ICCV), 2015.
شده استفاده مدل در اول فریم میانی تصاویر شکل
شبکه ساختار در تغییر
3D-sport-1M
آن دقیق تنظیم و
28
- 29. تعجب ناراحتی خوشحالی ترس تنفر عصبانیت
5
% 10
% 3
% 15
% 2
% 47
% عصبانیت
2
% 5
% 0
% 5
% 86
% 2
% تنفر
10
% 17
% 5
% 55
% 7
% 7
% ترس
10
% 5
% 67
% 5
% 12
% 2
% خوشحالی
10
% 67
% 2
% 14
% 2
% 5
% ناراحتی
44
% 15
% 10
% 17
% 5
% 10
% تعجب
27
ماتریس
درهم
ریختگی
بازشناسی
حاالت
چهره
با
استفاده
از
3D-CNN
بازشناسی
حاالت
از استفاده با چهره
3D-CNN
29 مقدمه
های مدل
محاسباتی
بازشناسی
های مدل
بیولوژی
بازشناسی
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
عصبان
یت
تنفر ترس خوشحا
لی
ناراح
تی
تعجب
- 30. مراجع استخراج
ویژگی
در
بازشناسی
حاالت
چهره
دقت
بازشناسی
Mansoorizadeh
و
همکارانش
(
2010
) نقاط
برجسته
حاالت
چهره 37
%
Bejani
و
همکارانش
(
2014
) QIM 39.27
%
Zhalephpour
و
همکارانش
(
2016
) LPQ 42.16
%
Sahoo
و
همکارانش
(
2016
) LBP 45
%
مدل
پیشنهادی
ما 3D-CNN 62
%
28
مقایسه
دقت
بازشناسی
بازشناسی
حاالت
چهره
بر
روی
پایگاه
داده
eNterface
مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
30
بازشناسی
حاالت
از استفاده با چهره
3D-CNN
از استفاده دلیل
3D-CNN
زمانی های ویژگی هم همزمان بطور پویا تصاویر در
گیرد می یاد را مکانی هم
.
- 36. 33
مدل
اختالط
خبره
ها
مبتنی
بر
مدل
BEL
36
هیجان بازشناسی پیشنهادی مدل
-
ویژگی همجوشی
اوربیتوفرانتال و آمیگدال های وزن روزرسانی به
ها خبره از کدام هر در
اوربیتوفرانتال و آمیگدال های وزن روزرسانی به
میانجی شبکه در
مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
- 37. 37
37
هیجان بازشناسی اول پیشنهادی مدل
-
ارزیابی
تعجب
ناراحت
ی
خوشحال
ی
ترس تنفر
عصبانی
ت
2.3
% 0
% 2.3
% 2.3
% 7.1
% 85
%
عصبانی
ت
%
0 4.7
% %
2.3 %
2.3 88.1
% 2.3
% تنفر
2.3
% %
14 %
7.1 73.8
% %
0 2.3
% ترس
4.7
% 2.3
% 78.6
% 4.7
% 2.3
% 7.1
%
خوشحال
ی
9.5
% 81
% 0
% 9.5
% 0
% 2.3
%
ناراحت
ی
78
% 7.1
% 7.1
% 4.7
% 0
% 2.3
% تعجب
مقدمه
های مدل
محاسباتی
بازشناسی
های مدل
بیولوژی
بازشناسی
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
درهم ماتریس
همجوشی بر مبتنی هیجان بازشناسی ریختگی
ویژگی
ها
با
استفاده
خبره اختالط مدل از
مدل بر مبتنی ها
BEL
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
عصبانیت تنفر ترس خوشحالی ناراحتی تعجب
بازشناسی
دقت
هیجان
گفتار
چهره حاالت
مقایسه
دقت
بازشناسی
هیجان
از
روی
حاالت
،چهره
هیجان
گفتار
و
همجوشی
ویژگی
های
گفتار
و
چهره
- 38. 38
بازشناسی دقت
طبقه انواع
بندها
%
78
MLP
%
78.7
BEL
%
77.9
SVM
%
78
Weighted KNN
%
71
RBF
%
80.0
Mixture of NN
%
80.7
Mixture of BEL
(
مدل
پیشنهادی
)
طبقه بین دومدالیتی هیجان بازشناسی دقت مقایسه
بندهای
مختلف
هیجان بازشناسی اول پیشنهادی مدل
-
ارزیابی
مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
مدل بر مبتنی ها خبره اختالط مدل مزایای
BEL
یا ماژوالر صورت به شبکه این از استفاده
End-to-End
در
هیجان بازشناسی سیستم
مدل
BEL
و کارامد ،پردازش سرعت و مصرفی حافظه منظر از
است مناسب
.
پارامترهای تعداد
Mixture of BEL
مدل از کمتر بسیار
Mixture of
NN
- 39. 39
هیجان بازشناسی دوم پیشنهادی مدل
-
ها ویژگی همجوشی
مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
39
3D-CNN
دنباله وزنی ترکیب طریق از که است کوتاه زمانی حافظه دارای
مکانی ارتباط دنبال به همزمان ،ورودی
-
است زمانی
.
شواهدی
که دارد وجود
مغز از هایی قسمت در ادغام عملیات
صورت به
سلسله
مراتبی
از و
ابتدا
انجام
می
شود
.
A. A. Ghazanfar and C. E. Schroeder, "Is neocortex essentially multisensory," Trends in Cognitive Sciences, vol. 10, pp. 278-285, 2006.
- 40. تعجب ناراحتی خوشحالی ترس تنفر عصبانیت
%
2.3 0
% %
2.3 %
2.3 %
4.7 %
87.5 عصبانیت
0
% %
2.3 %
2.3 %
4.7 %
90.5 0
% تنفر
0
% %
14 %
4.7 %
76.2 %
2.3 %
2.3 ترس
%
4.7 0
% %
81 %
7.1 %
2.3 %
4.7 خوشحالی
%
9.5 %
81 0
% %
9.5 0
% 0
% ناراحتی
%
75.6 9.5
% %
4.7 %
7.1 0
% %
2.3 تعجب
40
ماتریس
درهم
ریختگی
بازشناسی
هیجان
دومدالیتی
بر
اساس
مدل
پیشنهادی
دوم
ها ویژگی همجوشی از پس
دوم پیشنهادی مدل
-
ها ویژگی همجوشی
تعجب ناراحتی خوشحالی ترس تنفر عصبانیت
%
2.3 0
% %
0 %
2.3 %
7.1 %
82 عصبانیت
%
2 %
5 %
2 %
7 %
81 %
2.3 تنفر
%
14 %
17 %
0 %
60 %
7 %
2.3 ترس
%
7 %
2.3 %
74 %
4.7 %
5 %
5 خوشحالی
%
12 %
79 0
% %
5 2
% %
2.3 ناراحتی
%
61 %
7.1 %
5 %
15 5
% %
7 تعجب
مقدمه
های مدل
محاسباتی
بازشناسی
های مدل
بیولوژی
بازشناسی
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
40
درهم ماترس
هیجان بازشناسی ریختگی
دومدالیتی
در
پیشنهادی مدل سوم مسیر
بازشناسی دقت
بطور هیجان
کلی
:
72.8
%
بازشناسی دقت
بطور هیجان
کلی
:
81.9
%
- 41. 41
41
دقت
بازشناس
کل ی
دقت
بازشناسی
حاالت
چهره
دقت
بازشناسی
گفتار
همجوشی روش
منابع
71
%
37
%
43
%
ترکیبی همجوشی
Mansoorizadeh
همکارانش و
(
2010
)
77.7
%
39.2
%
54.9
%
ترکیبی همجوشی
Bejani
همکارانش و
(
2014
)
77
%
42.1
%
72.9
%
سطح همجوشی
تصمیم
Zhalehpour
همکارانش و
(
2016
)
77.02
%
45
%
57
%
سطح همجوشی
تصمیم
بر مبتنی
قواعد
Sahoo
همکارانش و
(
2016
)
67.4
%
44.7
%
62.7
%
سطح همجوشی
تصمیم
حاصلضرب
Zhang
همکارانش و
(
2014
)
80.7
%
62
%
66
%
اختالط مدل
مبتنی ها خبره
مدل بر
BEL
پیشنهادی مدل
اول
همجوشی مدل مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
روش سایر با دومدالیتی هیجان بازشناسی در پیشنهادی مدل کارایی مقایسه
های
داده پایگاه روی بر شده انجام
eNterface
هیجان بازشناسی اول پیشنهادی مدل
-
ارزیابی
- 42. 42
مقایسه
دقت
بازشناسی
مدل
های
پیشنهادی
به
ازای
حاالت
مختلف
هیجان
در
پایگاه
داده
eNterface
هیجان بازشناسی پیشنهادی مدل
-
ارزیابی
مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پ
یشنهادی
جمع
بندی
و
نتیجه
گیری
مدل
های
پیشنهادی
عصبانی
ت
تنفر
ترس
خوشحالی
ناراحت
ی
تعجب
دقت
بازشناس
کل ی
گفتار هیجان
82
%
55
%
60
%
69
%
71
%
63
%
66.7
%
چهره حاالت
47
%
86
%
55
%
67
%
67
%
44
%
62
%
در همجوشی
تصمیم
82.5
%
71.4
%
57.1
%
73.8
%
81
%
73.2
%
74
%
ویژگی همجوشی
-
ها
(
مدل
پیشنهادی
اول
)
85
%
88.1
%
73.8
%
78.6
%
81
%
78
%
80.7
%
ویژگی همجوشی
-
ها
(
مدل
پیشنهادی
دوم
)
87.5
%
90.5
%
76.2
%
81
%
81
%
75.6
%
81.9
%
Mansoorizadeh
و
همکارانش
(
2010
)
73
%
69
%
69
%
70
%
70
%
73
%
71
%
Zhalehpour
و
همکارانش
83.6
%
74.9
%
65.5
%
86.1
%
79.5
%
72.3
%
77
%
- 45. 45
آینده کارهای برای پیشنهادهایی
مقدمه
های مدل
محاسباتی
بازشناسی
هیجان
های مدل
بیولوژی
بازشناسی
هیجان
و طراحی
مدل ارزیابی
پیشنهادی
جمع
بندی
و
نتیجه
گیری
محدودیت
اول
:
در
مدل
پیشنهادی
از
کل
طول
ویدئو
پایگاه
داده
eNterface
برای
بازنمایی
حاالت
چهره
و
هیجان
گفتار
و
همجوشی
آنها
استفاده
شد
.
ایده
اول
:
ویدئو
به
قطعاتی
بطول
ا
مثال
2
ثانیه
تقسیم
شود
و
در
هر
،قطعه
همجوشی
ویژگی
ها
انجام
شده
و
با
استفاده
از
شبکه
LSTM
ارتباط
بین
قطعات
بدست
آید
.
ایده
دوم
:
در
مدل
پیشنهادی
از
مدل
BEL
با
ناظر
برای
همجوشی
و
طبقه
بندی
استفاده
شد
می
توان
مدل
BEL
را
از
طریق
یادگیری
تقویتی
در
سیگنال
پاداش
/
جریمه
آن
بهبود
داد
.
ایده
سوم
:
در
مدل
پیشنهادی
از
روش
CNN
برای
بازنمایی
ویژگی
های
هیجان
گفتار
استفاده
شد
.
ایده
- 46. مقاالت
40
Farhoudi Z., Setayeshi S., Rabiee A., “Using learning automata in brain emotional
learning for speech emotion recognition,” Springer, Int J Speech Technol, 2017.
Farhoudi Z., Setayeshi S., F. Razazi, S. Rabiee, “Audio-Visual Emotion Recognition with
a Brain Emotional Learning Fusion,” submitted in IEEE Transaction on Affective
Computing
Notas do Editor
- QIM = Quantized Iterance of Motion
LPQ = local phase quantization
LBP = local binary pattern