Selasa, 7 September 2010

28

Dec

2008

Web Mining PDF Print E-mail
Written by Administrator   
There are no translations available.

Web Mining

Kegiatan web mining baru dimulai pada awal tahun 2008. Karena bidang web mining demikian luasnya, maka diambil topik yang merupakan salah satu penerapan web mining yaitu "Sistem Analisa Spatio-Temporal Penyebaran Penyakit Tropis Memakai Web Mining".

Web mining adalah aplikasi dari teknik datamining untuk menemukan pola dari suatu web. Sedangkan datamining adalah proses ekstraksi pola tersembunyi yang terdapat di dalam sekumpulan data.

Tidak dapat diragukan bahwa internet merupakan sumber data terbesar di dunia dan dengan melihat kenyataan bahwa data yang tersedia terus bertambah secara eksponensial, maka kita dapat menyimpulkan bahwa terdapat potensi yang sangat besar untuk mengumpulkan data melalui internet dibandingkan dari sumber lain. Demikian juga  halnya dengan data yang menyangkut penyakit tropis.

Sistem yang sedang dibangun merupakan sistem yang memungkinkan analisa dan visualisasi penyebaran penyakit tropis (seperti demam berdarah dengue, malaria, flu burung, dsb.)  yang tercatat di di situs-situs internet.

Sistem yang dibangun terdiri dari 3 modul

  1. Modul pertama adalah mesin pencari web yang memanfaatkan perangkat lunak open source NUTCH. Fungsi utama dari sistem Nutch ini ada dua, yaitu

  1.  
    • Crawling, yaitu mengumpulkan data tekstual dari internet lalu menyimpannya di database. Dengan crawling, data-data secara umum dalam jumlah besar diunduh dari internet dan disimpan di database lokal sehingga dapat dimanfaatkan secara offline

    • Indexing, yaitu memindai kata per kata dari seluruh teks yang ada di database, kemudian membuat daftar kata pencarian yang disebut index.

    • Searching, yaitu mencari informasi yang diperlukan dari dalam database tersebut berdasarkan kata kunci yang terdaftar di index. Fungsi searching memungkinkan pencarian dari dalam tumpukan data-data tersebut, informasi tertentu yang diperlukan oleh penelitian ini untuk diteruskan ke bagian selanjutnya untuk dianalisa

  1. Modul kedua adalah Ekstraksi Informasi spatio-temporal penyebaran penyakit tropis memakai teknologi Natural Language Processing (NLP). Data masukan yang masih berubah text html akan dilewatkan ke sejumlah pemrosesan seperti penghilangan tagging-html, penghapusan menu-menu, deteksi awal artikel dan isi artikel berbasis kaidah (rule-base), yang hasilnya akan diproses lebih lanjut.

  1. Visualisasi memakai Open Layer dan Geoserver, yang bertugas menampilkan informasi spatio temporal penyakit tropis berasal dari artikel yang telah diekstrak oleh modul sebelumnya. Pada tampilan ini dapat dilihat:

  •  
    • sebaran kejadian flu burung di berbagai daerah di Indonesia yang dapat dikelompokkan berdasarkan tahun kejadian.

    • informasi ringkas berita media yang memuat kejadian tersebut.

    • data rinci dalam bentuk tabel menyangkut seluruh kejadian yang juga dikelompokkan berdasarkan tahun.

Secara keseluruhan terlihat daerah mana yang paling banyak terjangkit flu burung dan kecenderungan penyebaran dari tahun ke tahun.

Manfaat Aplikasi

  • Tersedianya data tekstual berkaitan dengan penyebaran penyakit tropis dari internet
  • Memungkinkan pemantauan penyebaran penyakit di lokasi geografis tertentu pada suatu kurun waktu tertentu
  • Pengembangan sistem ekstraksi informasi dari teks berbahasa Indonesia

Spesifikasi

  • Sistem Operasi : Linux
  • Komponen
    • Nutch, Hadoop Distributed File System (HDFS)
    • Modul ekstraksi informasi
    • Modul clustering dan klasifikasi teks
    • Visualisasi menggunakan GeoServer dan OpenLayer

Personil Kontak

  • Dr. Anto Satriyo Nugroho
  • email: This e-mail address is being protected from spambots. You need JavaScript enabled to view it

 

 

 

Last Updated on Wednesday, 23 June 2010 22:28
 

Main Menu

Powered by JoomlaGadgets

Searching



Powered by Joomla!. Designed by: Free Joomla Template, ecommerce web hosting. Valid XHTML and CSS.