Perbandingan Akurasi Deteksi Emosi Pada Suara Menggunakan Multilayer Perceptron, Random Forest, Decision Tree dan K-NN

Windra Swastika; Romy Budhi Widodo; Alvin Andrius Oepojo

doi:10.52985/insyst.v5i1.264

Authors

Windra Swastika Universitas Ma Chung
Romy Budhi Widodo
Alvin Andrius Oepojo

DOI:

https://doi.org/10.52985/insyst.v5i1.264

Keywords:

Decision tree, Deteksi Emosi Pada Suara, K-NN, Multilayer Perceptron, Random Forest

Abstract

Penelitian ini bertujuan untuk membandingkan akurasi pengenalan emosi melalui suara dengan menggunakan beberapa jenis classifier. Emosi dasar yang akan dikenali ada 4, yaitu senang, sedih, neutral dan marah. Metodologi penelitian dimulai dengan memperoleh dataset suara dari database RAVDESS, yang terdiri dari 24 aktor dengan jumlah suara sebanyak 60 per aktor. Namun, hanya 28 suara yang dipilih dari setiap aktor, sehingga total ada 672 suara yang digunakan dalam penelitian ini. Untuk mengekstraksi fitur dari dataset suara, digunakan tiga teknik yaitu mel frequency cepstral coefficient (MFCC), Chroma, dan Skala Mel. Kemudian, empat jenis classifier digunakan dalam pembuatan model yaitu Multilayer Perceptron Classifier (MLPC), Decision Tree, Random Forest, dan K-NN. Dataset dibagi menjadi data train dan data test dalam 3 uji coba untuk masing-masing classifier, yait 85% train – 25% test, 80% train – 25% test, dan 75% train dan 25% test. Hasil penelitian menunjukkan bahwa model dengan menggunakan Random Forest Classifier memiliki akurasi tertinggi yaitu sebesar 79% dengan pembagian dataset 80% train - 20% test. Sedangkan, model dengan Decision Tree Classifier memiliki akurasi terendah sebesar 57% dengan pembagian dataset menjadi 75% train - 25% test. Dalam penelitian ini, teknik ekstraksi fitur yang digunakan yaitu MFCC, Chroma, dan Skala Mel, yang terbukti efektif dalam menghasilkan fitur dari dataset suara. Selain itu, hasil penelitian juga menunjukkan bahwa Random Forest Classifier lebih unggul dalam mengenali emosi melalui suara jika dibandingkan dengan jenis classifier yang lain.

References

Zhang, Hongli, Alireza Jolfaei, and Mamoun Alazab. "A face emotion recognition method using convolutional neural network and image edge computing." IEEE Access 7 (2019): 159081-159089.

Gunes, Hatice, and Maja Pantic. "Automatic, dimensional and continuous emotion recognition." International Journal of Synthetic Emotions (IJSE) 1.1 (2010): 68-99.

Khalil, Ruhul Amin, et al. "Speech emotion recognition using deep learning techniques: A review." IEEE Access 7 (2019): 117327-117345.

Alnuaim, A. A., Zakariah, M., Shukla, P. K., Alhadlaq, A., Hatamleh, W. A., Tarazi, H., ... & Ratna, R. (2022). Human-computer interaction for recognizing speech emotions using multilayer perceptron classifier. Journal of Healthcare Engineering, 2022.

Yan, S., Ye, L., Han, S., Han, T., Li, Y., & Alasaarela, E. (2020, June). Speech interactive emotion recognition system based on random forest. In 2020 International Wireless Communications and Mobile Computing (IWCMC) (pp. 1458-1462). IEEE.

Sun, L., Fu, S., & Wang, F. (2019). Decision tree SVM model with Fisher feature selection for speech emotion recognition. EURASIP Journal on Audio, Speech, and Music Processing, 2019(1), 1-14.

L. Alwi, A. T. Hermawan, and Y. . Kristian, “Identifikasi Biji-Bijian Berdasarkan Ekstraksi Fitur Warna, Bentuk dan Tekstur Menggunakan Random Forest”, INSYST, vol. 1, no. 2, pp. 92–98, Dec. 2019.

J. A. Septian, T. M. Fachrudin, and A. Nugroho, “Analisis Sentimen Pengguna Twitter Terhadap Polemik Persepakbolaan Indonesia Menggunakan Pembobotan TF-IDF dan K-Nearest Neighbor”, INSYST, vol. 1, no. 1, pp. 43–49, Aug. 2019.

Zheng, Fang, Guoliang Zhang, and Zhanjiang Song. "Comparison of different implementations of MFCC." Journal of Computer science and Technology 16.6 (2001): 582-589.

Er, Mehmet Bilal, and Ibrahim Berkan Aydilek. "Music emotion recognition by using chroma spectrogram and deep visual features." International Journal of Computational Intelligence Systems 12.2 (2019): 1622-1634.

Gowdy, John N., and Zekeriya Tufekci. "Mel-scaled discrete wavelet coefficients for speech recognition." 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 00CH37100). Vol. 3. IEEE, 2000.

Steven R. Livingstone, & Frank A. Russo. (2019). RAVDESS Emotional speech audio [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/256618

Perbandingan Akurasi Deteksi Emosi Pada Suara Menggunakan Multilayer Perceptron, Random Forest, Decision Tree dan K-NN

Authors

DOI:

Keywords:

Abstract

References

Downloads

Additional Files

Published

How to Cite

Issue

Section

License

Make a Submission

Information