Posted January 30, 2011 00:17 in PHP. Leave Comment

Pagi ini gw iseng bertanya sama delpierol salah satu team dari Rockto, metode apa yang dipake rockto untuk parsing title, description sama image ketika kita ingin submit url di website mereka. Akhir-nya gw iseng mencoba menggunakan metode regex, dan membandingkan dengan metode DomDocument yang diterapkan pada website Rockto.

Pengujian yang gw lakukan adalah dengan mencoba melakukan parsing yang difokuskan untuk mendapatkan title, description, src pada image. Seperti yang anda lihat pada gambar dibawah ini untuk pengujian pada alamat url 'http://www.mochien.com'.

Regex Vs DOM

Berdasarkan pengujian diatas, menggunakan regex bisa menghemat sekitar 0.0013 seconds atau sekitar 76% dibandingkan menggunakan Dom. Gambar dibawah ini merupakan hasil untuk pengujian yang gw lakukan pada 4 website berita di Indonesia yaitu OkezeoneKompasVivanews, dan Detik

Regex Vs Dom

Seperti yang kita lihat diatas, proses parsing menggunakan regex lebih cepat dibandingkan menggunakan Dom sekitar 70-78%. Menurut gw, kenapa Dom lebih lambat karena selain proses parsing dia juga meng-create parse tree untuk file html tersebut, sehingga membutuhkan waktu untuk alokasi yang lebih lama.

Akan tetapi, metode regex tidak selalu mendapatkan hasil yang sempurna, karena ketika gw mencoba mem-parsing salah satu link artikel dari website dailysocial, hasil yang dihasilkan dengan menggunakan regex mendapatkan nilai NULL tapi tidak ketika menggunakan metode Dom.

Buat team dari Rockto mungkin informasi ini bisa membantu dalam menentukan proses parsing yang sesuai dengan tujuan-nya.  Berikut ini link file php yang gw buat untuk melakukan pengujian diatas.

Download : regex_vs_dom_rockto


*note : di sini gw tidak mengatakan regex akan selalu lebih cepat atau lebih baik dalam segala hal, tapi untuk kasus diatas jika concern kita pada speed maka regex lebih cepat dibandingkan Dom

+1 with Google, Rockt it with Rockto, Tweet with Twitter or Like on Facebook
Comments
loading comments Loading comments...
Leave Comment
*Name (required)
*Email (required)

loading comments Post comment...
 
Archives
More
 
RSS Feed