Metode Pembobotan Hibrida untuk Ekstraksi Frasa Kunci Bahasa Arab

Authors

  • Evan Kusuma Susanto ISTTS
  • M. Bahrul Subkhi Institut Teknologi Sepuluh Nopember
  • Agus Z. Arifin Institut Teknologi Sepuluh Nopember
  • Maryamah Institut Teknologi Sepuluh Nopember
  • Rizka W. Sholikah Institut Teknologi Sepuluh Nopember
  • Rarasmaya Indraswari Institut Teknologi Sepuluh Nopember

DOI:

https://doi.org/10.52985/insyst.v4i2.255

Keywords:

Algoritma Unsupervised, Ekstraksi Frasa Kunci Bahasa Arab, Pembobotan Kata Metode Hibrida, Temu Kembali Informasi

Abstract

Banyaknya informasi membuat proses pengindeksan dan pencarian inti dari dokumen menjadi permasalahan yang rumit. Sebagian besar dokumen yang tersedia tidak dilengkapi dengan kata kunci terkait. Hal ini sehingga memaksa pembaca untuk membaca seluruh dokumen untuk mendapat gambaran penuh dari konten seluruh dokumen. Ekstraksi frasa kunci otomatis yang menggunakan Algoritma YAKE memberi solusi cepat ekstraksi frasa kunci menggunakan fitur lokal dari sebuah dokumen. Namun, penggunaan fitur lokal saja membuat hasil ekstraksi menjadi kurang relevan karena diperlukan istilah signifikan yang muncul di dokumen lain. Masalah lain yang muncul adalah terdapat beberapa fitur lokal yang tidak dapat digunakan untuk bahasa Arab, misalnya huruf kapital. Pada penelitian ini, diusulkan metode pembobotan kata yang mengintegrasikan fitur statistik lokal dari sebuah dokumen dan fitur eksternal dari dokumen lain untuk sistem ekstraksi kata kunci. Metode ini dapat digunakan secara efektif pada bahasa Arab dan dapat digunakan pada bahasa lain yang tidak memiliki huruf kapital serta untuk dokumen-dokumen yang tidak terstruktur seperti berita atau karya ilmiah. Dari hasil uji coba telah dibuktikan bahwa performansi metode ini lebih baik daripada metode pembanding yaitu YAKE dan TF-IDF.

References

G. Salton, “Automatic text processing: the transformation,” Anal. Retr. Inf. by Comput., 1989.

J. Beel, B. Gipp, S. Langer, and C. Breitinger, “Research-paper recommender systems: a literature survey,” Int. J. Digit. Libr., 2016, doi: 10.1007/s00799-015-0156-0.

H. P. Luhn, “A Statistical Approach to Mechanized Encoding and Searching of Literary Information,” IBM J. Res. Dev., 2010, doi: 10.1147/rd.14.0309.

C. D. Manning, P. Raghavan, H. Schutze, C. D. Manning, P. Raghavan, and H. Schutze, “Scoring, term weighting, and the vector space model,” in Introduction to Information Retrieval, 2012.

K. Spärck Jones, “A statistical interpretation of term specificity and its application in retrieval,” J. Doc., 2004, doi: 10.1108/00220410410560573.

R. Campos, V. Mangaravite, A. Pasquali, A. Jorge, C. Nunes, and A. Jatowt, “YAKE! Keyword extraction from single documents using multiple local features,” Inf. Sci. (Ny)., 2020, doi: 10.1016/j.ins.2019.09.013.

R. Campos, V. Mangaravite, A. Pasquali, A. M. Jorge, C. Nunes, and A. Jatowt, “A text feature based automatic keyword extraction method for single documents,” 2018, doi: 10.1007/978-3-319-76941-7_63.

F. Boudin, “Unsupervised keyphrase extraction with multipartite graphs,” 2018, doi: 10.18653/v1/n18-2105.

A. Hulth, “Improved automatic keyword extraction given more linguistic knowledge,” 2003, doi: 10.3115/1119355.1119383.

C. Florescu and C. Caragea, “PositionRank: An unsupervised approach to keyphrase extraction from scholarly documents,” 2017, doi: 10.18653/v1/P17-1102.

R. Campos, V. Mangaravite, A. Pasquali, A. M. Jorge, C. Nunes, and A. Jatowt, “YAKE! collection-independent automatic keyword extractor,” 2018, doi: 10.1007/978-3-319-76941-7_80.

D. MacHado, T. Barbosa, S. Pais, B. Martins, and G. Dias, “Universal mobile information retrieval,” 2009, doi: 10.1007/978-3-642-02710-9_38.

F. Ren and M. G. Sohrab, “Class-indexing-based term weighting for automatic text classification,” Inf. Sci. (Ny)., 2013, doi: 10.1016/j.ins.2013.02.029.

M. A. Fauzi, A. Z. Arifin, and A. Yuniarti, “Arabic Book Retrieval using Class and Book Index Based Term Weighting,” Int. J. Electr. Comput. Eng., 2017, doi: 10.11591/ijece.v7i6.pp3705-3710.

K. F. H. Holle, A. Z. Arifin, and D. Purwitasari, “Preference Based Term Weighting for Arabic Fiqh Document Ranking,” J. Ilmu Komput. dan Inf. (Journal Comput. Sci. Information), vol. 151, pp. 45–52, 2015, doi: http://dx.doi.org/10.21609/jiki.v8i1.283.

S. Das Gollapalli, X. L. Li, and P. Yang, “Incorporating expert knowledge into keyphrase extraction,” 2017.

D. Mahata, J. Kuriakose, R. R. Shah, and R. Zimmermann, “Key2Vec: Automatic ranked keyphrase extraction from scientific articles using phrase embeddings,” 2018, doi: 10.18653/v1/n18-2100.

S. Rose, D. Engel, N. Cramer, and W. Cowley, “Automatic Keyword Extraction from Individual Documents,” in Text Mining: Applications and Theory, 2010.

M. Helmy, M. Basaldella, E. Maddalena, S. Mizzaro, and G. Demartini, “Towards building a standard dataset for Arabic keyphrase extraction evaluation,” 2017, doi: 10.1109/IALP.2016.7875927.

M. Al Logmani and H. Al Muhtaseb, “Arabic Dataset for Automatic Keyphrase Extraction,” 2017, doi: 10.5121/csit.2017.70121.

Y. Sasaki, “The truth of the F-measure,” Teach Tutor mater, 2007.

M. G. Syarief, O. T. Kurahman, A. F. Huda, and W. Darmalaksana, “Improving Arabic Stemmer: ISRI Stemmer,” 2019, doi: 10.1109/ICWT47785.2019.8978248.

E. Papagiannopoulou and G. Tsoumakas, “A review of keyphrase extraction,” Wiley Interdiscip. Rev. Data Min. Knowl. Discov., vol. 10, no. 2, p. e1339, 2020.

Z. A. Merrouni, B. Frikh, and B. Ouhbi, “Automatic keyphrase extraction: a survey and trends,” J. Intell. Inf. Syst., vol. 54, no. 2, pp. 391–424, 2020.

G. Rabby, S. Azad, M. Mahmud, K. Z. Zamli, and M. M. Rahman, “Teket: a tree-based unsupervised keyphrase extraction technique,” Cognit. Comput., vol. 12, no. 4, pp. 811–833, 2020.

Y. Zhang, Y. Chang, X. Liu, S. Das Gollapalli, X. Li, and C. Xiao, “Mike: keyphrase extraction by integrating multidimensional information,” in Proceedings of the 2017 ACM on Conference on Information and Knowledge Management, 2017, pp. 1349–1358.

E. Papagiannopoulou and G. Tsoumakas, “Local word vectors guiding keyphrase extraction,” Inf. Process. & Manag., vol. 54, no. 6, pp. 888–902, 2018.

Downloads

Additional Files

Published

2022-10-31

How to Cite

[1]
E. Kusuma Susanto, M. B. Subkhi, A. Z. Arifin, Maryamah, R. W. Sholikah, and R. Indraswari, “Metode Pembobotan Hibrida untuk Ekstraksi Frasa Kunci Bahasa Arab”, INSYST, vol. 4, no. 2, pp. 93–101, Oct. 2022.