Pagi ini gw iseng bertanya sama delpierol salah satu team dari Rockto, metode apa yang dipake rockto untuk parsing title, description sama image ketika kita ingin submit url di website mereka. Akhir-nya gw iseng mencoba menggunakan metode regex, dan membandingkan dengan metode DomDocument yang diterapkan pada website Rockto.
Pengujian yang gw lakukan adalah dengan mencoba melakukan parsing yang difokuskan untuk mendapatkan title, description, src pada image. Seperti yang anda lihat pada gambar dibawah ini untuk pengujian pada alamat url 'http://www.mochien.com'.

Berdasarkan pengujian diatas, menggunakan regex bisa menghemat sekitar 0.0013 seconds atau sekitar 76% dibandingkan menggunakan Dom. Gambar dibawah ini merupakan hasil untuk pengujian yang gw lakukan pada 4 website berita di Indonesia yaitu Okezeone, Kompas, Vivanews, dan Detik.

Seperti yang kita lihat diatas, proses parsing menggunakan regex lebih cepat dibandingkan menggunakan Dom sekitar 70-78%. Menurut gw, kenapa Dom lebih lambat karena selain proses parsing dia juga meng-create parse tree untuk file html tersebut, sehingga membutuhkan waktu untuk alokasi yang lebih lama.
Akan tetapi, metode regex tidak selalu mendapatkan hasil yang sempurna, karena ketika gw mencoba mem-parsing salah satu link artikel dari website dailysocial, hasil yang dihasilkan dengan menggunakan regex mendapatkan nilai NULL tapi tidak ketika menggunakan metode Dom.
Buat team dari Rockto mungkin informasi ini bisa membantu dalam menentukan proses parsing yang sesuai dengan tujuan-nya. Berikut ini link file php yang gw buat untuk melakukan pengujian diatas.
Download : regex_vs_dom_rockto
*note : di sini gw tidak mengatakan regex akan selalu lebih cepat atau lebih baik dalam segala hal, tapi untuk kasus diatas jika concern kita pada speed maka regex lebih cepat dibandingkan Dom
Loading comments...
*Name (required)
*Email (required)
Post comment...
