Ekstraksi Partitur Balok Monofonik untuk Instrumen Flute dengan CRNN dan CRF

Authors

  • Stella Vania Institut Sains dan Teknologi Terpadu Surabaya
  • Patrick Sutanto Institut Sains dan Teknologi Terpadu Surabaya
  • Ricky Sutanto Institut Sains dan Teknologi Terpadu Surabaya
  • Joan Santoso Institut Sains dan Teknologi Terpadu Surabaya

DOI:

https://doi.org/10.52985/insyst.v5i1.218

Keywords:

Recurrent Neural Network, Artificial Neural Networks

Abstract

Notasi partitur balok bukanlah notasi yang mudah dibaca oleh pemula dalam dunia musik. Di sinilah Optical Music Recognition (OMR) dapat berperan. OMR merupakan sebuah pembelajaran mengenai komputer yang dapat mengenali objek dalam partitur balok. Dengan adanya program yang menerapkan OMR dan memberikan output dengan format yang mudah dipahami oleh pengguna, maka pemula dalam dunia musik dapat terbantu dalam membaca partitur not balok. Karya ilmiah ini dibuat dengan pendekatan deep learning dalam beberapa arsitektur. Dataset yang digunakan adalah Camera-PrIMuS yang terdiri dari dataset gambar sebaris partitur musik dan juga ground-truth per objek pada gambar yang bersangkutan. Arsitektur yang digunakan adalah CRNN, CRNN-CRF, dan Attention. Dari ketiga arsitektur tersebut, hasil terbaik diperoleh pada aristektur Attention dengan symbol error rate (SER) sekitar 9%, diikuti dengan CRNN dengan SER sekitar 84%, dan CRNN-CRF yang berdasarkan hasil uji coba tidaklah cocok untuk OMR dengan nilai loss yang tidak kunjung turun dalam proses training. Arsitektur Attention secara garis besar terdiri dari blok encoder dan decoder. Encoder berfungsi untuk menerima input gambar dan melakukan encoding terhadap gambar tersebut. Hasil encoding kemudian diterima oleh decoder yang berperan untuk melakukan decoding dan memprediksi sequence selanjutnya berdasarkan hasil encoding dari encoder. Dalam implementasinya program dapat menerima input berupa gambar selembar partitur penuh yang agak miring, maka program juga akan melakukan skew-correction dan pemotongan gambar per baris agar input dari pengguna dapat diproses oleh model. Output dari model yang masih berupa label-label prediksi akan diproses kembali agar menghasilkan not angka dan file MIDI yang relatif lebih mudah untuk dipahami oleh pengguna.

References

Jorge Calvo-Zaragoza, Jan Hajič Jr., and Alexander Pacha. 2020. Understanding Optical Music Recognition. ACM Comput. Surv. 53, 4, Article 77 (September 2020)

Jorge Calvo-Zaragoza, & David Rizo. (2018). Camera-PrIMuS: Neural End-to-End Optical Music Recognition on Realistic Monophonic Scores. Proceedings of the 19th International Society for Music Information Retrieval Conference, 248–255

David Bainbridge and Tim Bell. The challenge of optical music recognition. Computers and the Humanities, 35(2):95–121, 2001.

Ana Rebelo, Ichiro Fujinaga, Filipe Paszkiewicz, Andre R.S. Marcal, Carlos Guedes, and Jamie dos Santos Cardoso. Optical music recognition: state-of-the-art and open issues. International Journal of Multimedia Information Retrieval, 1(3):173–190, 2012.

J. Calvo-Zaragoza and D. Rizo. End-to-End Neural Optical Music Recognition of Monophonic Scores. Applied Sciences, 8(4):606–629, 2018.

J. Hajic Jr. and P. Pecina. Detecting Noteheads ˇ in Handwritten Scores with ConvNets and Bounding Box Regression. Computing Research Repository, abs/1708.01806, 2017

A. Pacha, K.-Y. Choi, B. Couasnon, Y. Ricquebourg, ¨ R. Zanibbi, and H. Eidenberger. Handwritten music object detection: Open issues and baseline results. In 13th IAPR Workshop on Document Analysis Systems, pages 163–168, 2018

E. van der Wel and K. Ullrich. Optical music recognition with convolutional sequence-to-sequence models. In 18th International Society for Music Information Retrieval Conference, pages 731–737, 201

Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. In International Conference on Learning Representations, San Diego, California, USA

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin.2017.Attention Is All You Need.In 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.

Y. Lecun,L. Bottou,Y. Bengio,P. Haffner.1995.Gradient-based learning applied to document recognition.In Proceedings of the IEEE 86(11):2278 – 2324

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun.2016.Deep Residual Learning for Image Recognition.2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Minh-Thang Luong, Hieu Pham, Christopher D. Manning.2015.Effective Approaches to Attention-based Neural Machine Translation.In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing

Ilya Sutskever, Oriol Vinyals, Quoc V. Le.2014.Sequence to Sequence Learning with Neural Networks.In Neural Information Processing Systems (NIPS 2014)

Sepp Hochreiter,Jurgen Schmidhuber.1997.Long Short-Term Memory.Neural Computation 9(8):1735-1780, 1997

Sergey Ioffe, Christian Szegedy.2015.Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift.In ICML'15: Proceedings of the 32nd International Conference on International Conference on Machine Learning pages 448-456

Razvan Pascanu, Tomas Mikolov, Yoshua Bengio.2013.On the difficulty of training Recurrent Neural Networks.In ICML'13: Proceedings of the 30th International Conference on International Conference on Machine Learning

Karen Simonyan, Andrew Zisserman.2014.Very Deep Convolutional Networks for Large-Scale Image Recognition.In International Conference on Learning Representations(ICLR) 2015

Kunihiko Fukushima.1980.Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position. In Biological Cybernetics volume 36, pages193–202 (1980)

Vinod Nair, Geoffrey E. Hinton.2010.Rectified Linear Units Improve Restricted Boltzmann Machines. In ICML'10: Proceedings of the 27th International Conference on International Conference on Machine Learning

Downloads

Additional Files

Published

2023-04-13

How to Cite

[1]
S. Vania, P. . Sutanto, R. . Sutanto, and J. Santoso, “Ekstraksi Partitur Balok Monofonik untuk Instrumen Flute dengan CRNN dan CRF”, INSYST, vol. 5, no. 1, pp. 01–09, Apr. 2023.