Perbandingan Akurasi Deteksi Emosi Pada Suara Menggunakan Multilayer Perceptron, Random Forest, Decision Tree dan K-NN
DOI:
https://doi.org/10.52985/insyst.v5i1.264Keywords:
Decision tree, Deteksi Emosi Pada Suara, K-NN, Multilayer Perceptron, Random ForestAbstract
Penelitian ini bertujuan untuk membandingkan akurasi pengenalan emosi melalui suara dengan menggunakan beberapa jenis classifier. Emosi dasar yang akan dikenali ada 4, yaitu senang, sedih, neutral dan marah. Metodologi penelitian dimulai dengan memperoleh dataset suara dari database RAVDESS, yang terdiri dari 24 aktor dengan jumlah suara sebanyak 60 per aktor. Namun, hanya 28 suara yang dipilih dari setiap aktor, sehingga total ada 672 suara yang digunakan dalam penelitian ini. Untuk mengekstraksi fitur dari dataset suara, digunakan tiga teknik yaitu mel frequency cepstral coefficient (MFCC), Chroma, dan Skala Mel. Kemudian, empat jenis classifier digunakan dalam pembuatan model yaitu Multilayer Perceptron Classifier (MLPC), Decision Tree, Random Forest, dan K-NN. Dataset dibagi menjadi data train dan data test dalam 3 uji coba untuk masing-masing classifier, yait 85% train – 25% test, 80% train – 25% test, dan 75% train dan 25% test. Hasil penelitian menunjukkan bahwa model dengan menggunakan Random Forest Classifier memiliki akurasi tertinggi yaitu sebesar 79% dengan pembagian dataset 80% train - 20% test. Sedangkan, model dengan Decision Tree Classifier memiliki akurasi terendah sebesar 57% dengan pembagian dataset menjadi 75% train - 25% test. Dalam penelitian ini, teknik ekstraksi fitur yang digunakan yaitu MFCC, Chroma, dan Skala Mel, yang terbukti efektif dalam menghasilkan fitur dari dataset suara. Selain itu, hasil penelitian juga menunjukkan bahwa Random Forest Classifier lebih unggul dalam mengenali emosi melalui suara jika dibandingkan dengan jenis classifier yang lain.
References
Zhang, Hongli, Alireza Jolfaei, and Mamoun Alazab. "A face emotion recognition method using convolutional neural network and image edge computing." IEEE Access 7 (2019): 159081-159089.
Gunes, Hatice, and Maja Pantic. "Automatic, dimensional and continuous emotion recognition." International Journal of Synthetic Emotions (IJSE) 1.1 (2010): 68-99.
Khalil, Ruhul Amin, et al. "Speech emotion recognition using deep learning techniques: A review." IEEE Access 7 (2019): 117327-117345.
Alnuaim, A. A., Zakariah, M., Shukla, P. K., Alhadlaq, A., Hatamleh, W. A., Tarazi, H., ... & Ratna, R. (2022). Human-computer interaction for recognizing speech emotions using multilayer perceptron classifier. Journal of Healthcare Engineering, 2022.
Yan, S., Ye, L., Han, S., Han, T., Li, Y., & Alasaarela, E. (2020, June). Speech interactive emotion recognition system based on random forest. In 2020 International Wireless Communications and Mobile Computing (IWCMC) (pp. 1458-1462). IEEE.
Sun, L., Fu, S., & Wang, F. (2019). Decision tree SVM model with Fisher feature selection for speech emotion recognition. EURASIP Journal on Audio, Speech, and Music Processing, 2019(1), 1-14.
L. Alwi, A. T. Hermawan, and Y. . Kristian, “Identifikasi Biji-Bijian Berdasarkan Ekstraksi Fitur Warna, Bentuk dan Tekstur Menggunakan Random Forest”, INSYST, vol. 1, no. 2, pp. 92–98, Dec. 2019.
J. A. Septian, T. M. Fachrudin, and A. Nugroho, “Analisis Sentimen Pengguna Twitter Terhadap Polemik Persepakbolaan Indonesia Menggunakan Pembobotan TF-IDF dan K-Nearest Neighbor”, INSYST, vol. 1, no. 1, pp. 43–49, Aug. 2019.
Zheng, Fang, Guoliang Zhang, and Zhanjiang Song. "Comparison of different implementations of MFCC." Journal of Computer science and Technology 16.6 (2001): 582-589.
Er, Mehmet Bilal, and Ibrahim Berkan Aydilek. "Music emotion recognition by using chroma spectrogram and deep visual features." International Journal of Computational Intelligence Systems 12.2 (2019): 1622-1634.
Gowdy, John N., and Zekeriya Tufekci. "Mel-scaled discrete wavelet coefficients for speech recognition." 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 00CH37100). Vol. 3. IEEE, 2000.
Steven R. Livingstone, & Frank A. Russo. (2019). RAVDESS Emotional speech audio [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/256618
Downloads
Additional Files
Published
How to Cite
Issue
Section
License
Copyright (c) 2023 INSYST: Journal of Intelligent System and Computation
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.