Kamis, 04 Maret 2010

Kegunaan Dan Arti Record

Ide pokok dari pemilihan algoritma MDR (Mining Data Records in web pages) karena lebih efektif dan efisien daripada metode otomatis yang sudah ada lainnya, seperti OMINI dan IEPAD. Efektif karena hanya melakukan dua pengamatan, yaitu mengamati data record yang berada pada halaman web dan algoritma pencocokan string. Sedangkan efisien karena hanya melakukan pencocokan string pada node children yang satu parent saja, contohnya pada Gambar di samping ini tidak seperti data record memulai dari TD* dan berakhir di TD#. Berdasarkan penelitian yang telah ada dengan menggunakan algoritma MDR untuk me-mining data record pada halaman web dapat menghasilkan akurasi yang jauh lebih bagus dibandingkan dengan OMINI dan IEPAD.

Pada gambar di atas dapat dilihat pengertian secara umum sebuah data region dan sebuah data record. Sebuah data region adalah daerah yang sangat relevan dari halaman web, seperti daerah pada situs web yang berisi sebuah daftar produk membentuk daerah data. Sebuah data record adalah sekumpulan data yang bersama-sama merepresentasikan entitas bermakna yang berdiri sendiri, seperti daftar produk dalam data region pada situs web . Algoritma MDR termasuk teknik unsupervised learning, yaitu sistem diberikan hanya satu halaman web dengan banyak data record, kemudian sistem mengekstrak data secara otomatis.


Menurut paper rujukan berasumsi bahwa data record pada halaman web biasanya terdapat pada tag HTML dalam bentuk yang berhubungan dengan table dan form, misalnya tag table, form, tr, td dan lain sebagainya. Pada tugas akhir ini, algoritma MDR didasarkan pada dua pengamatan , yaitu:



1) Data region (atau data record region) adalah sekumpulan data record berisi deskripsi dari kelompok obyek serupa yang ditampilkan secara khusus pada halaman web dengan region berdekatan dan disusun menggunakan tag HTML yang serupa. Seperti Gambar di diatas, dua notebook ditampilkan pada satu region yang berdekatan serta disusun menggunakan tag HTML.

2) Struktur bersarang dari tag HTML pada halaman web biasanya membentuk sebuah tag tree dan sekumpulan data record serupa dibentuk oleh beberapa node children dari sub-tree pada node parent yang sama. Contohnya pada Gambar di bawah ini , merupakan tag tree untuk halaman web pada gambar di atas Misalnya setiap notebook (atau sebuah data record) pada gambar di atas diekstrak ke dalam 5 node TR dengan bagian tree di bawah node parent TBODY yang sama pada Gambar di bawah ini , sehingga terdapat dua data record pada dua kotak garis putus-putus.

Tidak ada komentar:

Posting Komentar