Web Content Extractor Menggunakan Neural Network untuk Konten Artikel di Internet

Authors

  • Syabith Umar Ahdan Institut Sains dan Teknologi Terpadu Surabaya
  • Joan Santoso Institut Sains dan Teknologi Terpadu Surabaya
  • Hendrawan Armanto Institut Sains dan Teknologi Terpadu Surabaya

DOI:

https://doi.org/10.52985/insyst.v3i2.195

Keywords:

Content Extractor, Neural Network, Web Crawler, Web Visualization

Abstract

Berkembangnya teknologi Javascript khususnya AJAX dan CSS membuat halaman web yang dulunya statis menjadi lebih dinamis dengan tampilan yang lebih menarik dan dipenuhi iklan dan rekomendasi artikel lain. Oleh karena itu, sulit untuk mengotomatisasi proses pengambilan konten artikel pada konteks ini. Penelitian ini dibuat untuk menyelesaikan masalah otomatisasi pengambilan konten artikel di Internet. Aplikasi web yang akan dibuat terbagi menjadi empat modul, yaitu web crawler, web extractor, content classifier dan web visualizer. Penelitian ini memiliki dua desain arsitektur. Arsitektur yang pertama adalah arsitektur saat training. Arsitektur yang kedua adalah arsitektur program jadi. Proses training menggunakan 200 URL halaman web dari lima website berbeda. Metode pengujian yang akan digunakan adalah 4-Fold Cross Validation, sehingga 75% dari blok teks akan menjadi data latihan dan 25% dari blok teks akan menjadi data pengujian. Program jadi berupa Web Visualizer yang mengolah JSON file berisi hubungan antara halaman web yang didapatkan dari web crawler sehingga dapat dipresentasikan dalam sebuah grafik. Kesimpulan dari penelitian ini adalah bahwa kombinasi Scrapy, Splash, Neural Network Classifier dan D3 bekerja sangat baik untuk automasi ekstraksi konten artikel website di Internet sekaligus memvisualisasi hubungan antar halaman web. Deep Feed Forward Neural Network (DFFNN) dapat melakukan klasifikasi multi-class konten judul, penulis, dan isi artikel dengan baik selama template halaman web sudah pernah dilatih sebelumnya. DFFNN juga dapat melakukan klasifikasi binari untuk halaman web secara umum dengan F1-score 62.87%, dua kali lebih baik dari SVM yang hanya 31.28%.

References

F. Pedregosa et al., “Scikit-learn: Machine learning in Python,” J. Mach. Learn. Res., vol. 12, pp. 2825–2830, 2011.

F. Chollet, “Keras: The Python Deep Learning library,” Keras.Io, 2015.

M. Abadi et al., “Tensorflow: Large-scale machine learning on heterogeneous distributed systems,” arXiv Prepr. arXiv1603.04467, 2016.

M. Bostock, V. Ogievetsky, and J. Heer, “D$^3$ data-driven documents,” IEEE Trans. Vis. Comput. Graph., vol. 17, no. 12, pp. 2301–2309, 2011.

Z. Zhou and M. Mashuq, “Web content extraction through machine learning,” Standford Univ., pp. 1–5, 2014.

C. Cortes and V. Vapnik, “Support-vector networks,” Mach. Learn., vol. 20, no. 3, pp. 273–297, 1995.

E. Lim, E. I. Setiawan, and J. Santoso, “Stance Classification Post Kesehatan di Media Sosial Dengan FastText Embedding dan Deep Learning,” J. Intell. Syst. Comput., vol. 1, no. 2, pp. 65–73, 2019.

M. A. Rahman, H. Budianto, and E. I. Setiawan, “Aspect Based Sentimen Analysis Opini Publik Pada Instagram dengan Convolutional Neural Network,” J. Intell. Syst. Comput., vol. 1, no. 2, pp. 50–57, 2019.

M. Ester, H.-P. Kriegel, J. Sander, X. Xu, and others, “A density-based algorithm for discovering clusters in large spatial databases with noise.,” in kdd, 1996, vol. 96, no. 34, pp. 226–231.

D. P. Kingma and J. L. Ba, “Adam: A method for stochastic optimization,” 2015.

Downloads

Published

2021-10-01

How to Cite

[1]
S. U. Ahdan, J. Santoso, and H. Armanto, “Web Content Extractor Menggunakan Neural Network untuk Konten Artikel di Internet”, INSYST, vol. 3, no. 2, pp. 85–92, Oct. 2021.