Ekstraksi Informasi Terstruktur Profil Pengguna Website Iklan Baris

Nuri Cahyono

Abstract


Abstract. Extraction of Structured Information on Classified Ads Website User Profiles. The large amount of user data published on online buying and selling sites provides benefits for research and digital marketing. Data extraction was a method for obtaining data from publicly published website content. The first step was to determine the website category that was needed, then determined the attributes to be used as a reference in compiling the data extraction tags. The next step was to identify the tags that were taken based on the tag elements of the website that matched these attributes. Elements to compile tag extraction included CSS Selector, HTML Tag and Xpath. Based on this, a data extraction code was created with four iterations based on categories. The test was done by calculating the accuracy to find out the complete amount of extracted data. From a total of 16,000 data extracted in this test, the accuracy rate was 99.0625%.

Keywords: Data Extraction, Web Scrapping, Classified Ads

 

Abstrak. Perkembangan situs jual beli online berdampak pada banyaknya data pengguna yang dipublikasikan secara online. Profil pengguna situs web memiliki banyak manfaat baik untuk penelitian maupun untuk tujuan dalam pemasaran digital. Ekstraksi data adalah mekanisme untuk mendapatkan data dari konten situs web yang disajikan secara umum. Langkah pertama adalah menentukan kategori website kemudian menentukan atribut yang akan digunakan sebagai acuan dalam menyusun tag ekstraksi data yang diambil berdasarkan elemen tag dari website yang sesuai dengan atribut tersebut. Elemen tag yang diambil untuk menyusun tag ekstraksi antara lain CSS Selector, HTML Tag dan Xpath, kemudian dibuat skenario ekstraksi data dengan skenario empat kasus berdasarkan kategori yang telah ditentukan. Pengujian dilakukan dengan menghitung akurasi untuk mengetahui jumlah data yang berhasil di dapatkan secara lengkap. Dari total 16000 data dari hasil ekstraksi, dalam pengujian ini menghasilkan tingkat akurasi 99.0625%.

Kata Kunci: Ekstraksi Data, Web Scrapping, Iklan Baris


Full Text:

PDF

References


K. Diah and W. Yunanto, “Heuristics miner for e-commerce visitor access pattern representation,” Communication in Sciences and Technology, vol. 2, no. 1, pp. 1-5, Jun. 2017.

E. Turban and D. King, Eds., Electronic Commerce - A Managerial And Social Networks Perspective, 8th ed. Cham, Switzerland: Springer International Publishing, 2015, pp. 7-11.

V. Mitra, H. Suajini and A. B. P. Negara, “Rancang bangun aplikasi web scrapping untuk korpus paralel Indonesia – Inggris dengan metode HTML DOM” JUSTIN, vol. 5, no. 1, pp. 1-6, Jan. 2017.

Y. Guo, J. Zhang and X. Chen, "Adaptively extracting structured data from web pages,” 2019 IEEE Intl Conf on Parallel & Distributed Processing with Applications, Big Data & Cloud Computing, Sustainable Computing & Communications, Social Computing & Networking (ISPA/BDCloud/SocialCom/SustainCom), 2019, pp. 1524-1525, doi: 10.1109/ISPA-BDCloud-SustainCom-SocialCom48970.2019.00221.

H. J. Carey and M. Manic, "HTML web content extraction using paragraph tags," 2016 IEEE 25th International Symposium on Industrial Electronics (ISIE), 2016, pp. 1099-1105, doi: 10.1109/ISIE.2016.7745047.

M. A. Wani, S. Jabin, G. Yazdani dan N. Ahmadd, “Design of imacros-based data crawler and the behavior analysis of Facebook user” arXiv preprint: 1082.09566, 2018.

S. Mehak, R. Zafar, S. Aslam and S. M. Bhatti, "Exploiting Filtering approach with Web Scrapping for Smart Online Shopping: Penny Wise: A wise tool for Online Shopping,” 2019 2nd International Conference on Computing, Mathematics and Engineering Technologies (iCoMET), 2019, pp. 1-5, doi: 10.1109/ICOMET.2019.8673399.

A. Surahman, A. F. Octaviansyah dam D. Darwis, “Ekstraksi data produk e-marketplace sebagai strategi pengolahan segmentasi pasar menggunakan web crawler” Jurnal SISTEMASI, vol. 9, no. 1, pp. 73-81, 2020.

F. Polidoro, R. Giannini, R. L. Conte, S. Mosca and F. Rosseti, “Web Scrapping Techniques to collect data on consumer electronics and airfares for italian HICP compilation” Statistical Journal of the IAOS, vol. 31, no. 2, pp. 165-176, May 2015.

M. Akbar and A. Wibowo, “Ekstraksi tabel HTML bentuk column-row wise ke dalam basis data” J. Teknol. Informasi dan Ilkom, vol. 5, no. 6, pp. 653, Dec. 2018.

A. Sasongko, “Integrasi data website student.bsi.ac.id untuk mobile infokampus berbasis Android menggunakan ekstraksi HTML” J.I.T.K, vol. 2, no. 2, pp. 146-155, Feb. 2017.

X. Yu and Z. Jin, “Web content information extraction based on DOM Tree and statistical information” IEEE 17th ICCT, pp. 1308-1311, Oct. 2017.

E. R. Astanti, A. R. Chrimanto and Y. Lukito,” Chrome extension untuk data grabber media sosial Twitter dengan metode XPath selector”, Jurnal Teknologi Informasi, vol. 19, no. 4, pp. 422-436, Nov. 2020.

F. Handayani and S. Pribadi, “Implementasi algoritma Naïve Bayes Classifier dalam pengklasifikasian teks otomatis pengaduan dan pelaporan masyarakat melalui layanan call center 110,” Jurnal Teknik Elektro, vol. 7, no. 1, pp. 19-24, Jan. 2015.

V. A. Permadi, “Analisis sentimen menggunakan algoritma Naïve Bayes terhadap review restoran di Singapura,” Jurnal Buana Informatika, vol. 11, no. 2, Okt. 2020.




DOI: https://doi.org/10.24002/jbi.v12i1.4400

Refbacks

  • There are currently no refbacks.