Implementasi Web Scrapping dan Text Mining untuk Akuisisi dan Kategorisasi Informasi dari Internet (Studi Kasus: Tutorial Hidroponik)
DOI:
https://doi.org/10.24002/ijis.v1i1.1664Keywords:
Web Scraping, Text Mining, Akuisisi Informasi, Kategorisasi Informasi, HidroponikAbstract
Dengan banyaknya sumber informasi yang ada, akan memunculkan dua kemungkinan, di satu sisi akan memberikan manfaat, namun di sisi lain akan menimbulkan fenomena information overload. Information overload adalah banyaknya jumlah informasi yang diterima oleh manusia sehingga menimbulkan kesulitan dalam penerimaan dan pengolahan. Fenomena information overload salah satunya terjadi pada informasi mengenai tata cara bercocok tanam dengan metode atau teknik hidroponik yang sekarang sedang marak digemari masyarakat luas. Dengan banyaknya laman web yang menyajikan informasi mengenai hidroponik, masyarakat harus menyediakan lebih banyak waktu untuk memilah dan mengakses sebanyak mungkin laman web guna mendapatkan informasi yang lengkap dan akurat. Penelitian ini bertujuan untuk mengimplementasikan teknik web scraping yang dikombinasikan dengan text mining untuk secara otomatis mengakuisisi informasi dari laman-laman web yang memuat informasi mengenai hidroponik dan mengkategorisasikannya berdasarkan topik yang lebih spesifik dari artikel hidroponik yang terdapat dalam laman web tersebut. Dari eksperimen yang sudah dilakukan, web scraping dan text mining berhasil diimplementasikan untuk mengakuisisi artikel-artikel terkait hidroponik dari internet dan mengelompokkannya ke dalam beberapa kategori berdasarkan topik artikel secara otomatis.
References
R. C. Wijaya, J. Andjarwirawan, and H. N. Palit, “Aplikasi Pencarian Produk Jual Mobile Devices dari Berbagai Situs E-commerce,” J. Infra, vol. 4, no. 1, pp. 180–185, 2016.
M. R. Ma’arif, “Integrasi Laman Web tentang Pariwisata Daerah Istimewa Yogyakarta Memanfaatkan Teknologi Web Scraping dan Text Mining,” Teknomatika, vol. 9, no. 1, pp. 71–80, 2016.
S. Kadam, “Price Comparison of Computer Parts Using Web Scraping,” Int. J. Eng. Sci., 2018.
B. G. Dastidar, D. Banerjee, and S. Sengupta, “An Intelligent Survey of Personalized Information Retrieval using Web Scraper,” I.J. Educ. Manag. Eng., 2016.
F. Johnson and S. K. Gupta, “Web Content Mining Techniques: A Survey,” Int. J. Comput. Appl., vol. 47, no. 11, pp. 44–50, 2012.
M. Turland, PHP-Architect’s Guide to Web Scraping. Marco Tabini & Associates, 2010.
M. Inzalkar and J. Sharma, “A Survey on Text Mining-techniques and application,” Int. J. Res. Sci. Eng., 2015.
S. H. Liao, P. H. Chu, and P. Y. Hsiao, “Data mining techniques and applications - A decade review from 2000 to 2011,” Expert Systems with Applications. 2012.
S. V. Gaikwad, P. D. Y Patil, and P. Patil, “Text Mining Methods and Techniques,” Int. J. Comput. Appl., 2014.
R. S. Pressman, Software Engineering A Practitioner’s Approach 7th Ed - Roger S. Pressman. 2009.
A. Fathan Hidayatullah, M. Rifqi Ma'arif, “Penerapan Text Mining dalam Klasifikasi Judul Skripsi,” Semin. Nas. Apl. Teknol. Inf. Agustus, 2016.
S. I. Nikolenko, S. Koltcov, and O. Koltsova, “Topic modelling for qualitative studies,” J. Inf. Sci., 2017.
D. M. Blei, “Probabilistic topic models,” Commun. ACM, 2012.
D. M. Blei, A. Y. Ng, and M. I. Jordan, “Latent Dirichlet Allocation,” J. Mach. Learn. Res., 2012.
C. P. George and H. Doss, “Principled Selection of Hyperparameters in the Latent Dirichlet Allocation Model,” J. Mach. Learn. Res., 2018.
I. Hemalatha, D. G. P. S. Varma, and D. A.Govardhan, “Preprocessing The Informal Data for Efficient Sentiment Analysis,” Int. J. Emerg. Trends Technol. Comput. Sci., 2012.
Downloads
Published
How to Cite
Issue
Section
License
Indonesian Journal of Information Systems as journal publisher holds copyright of papers published in this journal. Authors transfer the copyright of their journal by filling Copyright Transfer Form and send it to Indonesian Journal of Information Systems.
Indonesian Journal of Information Systems is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.