Seiring dengan perkembangan zaman, bermunculan berbagai macam algoritma untuk menggali data-data dengan tipe yang lebih kompleks. Tipe-tipe data tersebut adalah:
• Multidimensional analysis and descriptive mining of complex data objects
• Mining spatial databases
• Mining multimedia databases
• Mining time-series and sequence data
• Mining text databases
• Mining the World-Wide Web
Penggalian data multimedia membutuhkan pengembalian berbasis isi dan pencarian kemiripan yang terintegrasi dengan metode penggalian
Penggalian data sekuensial atau time-series termasuk analisa trend, pencarian kemiripan dalam time series, penggalian pola dan perioditas sekuensial dalam sekuen waktu
Penggalian teks bekerja berdasarkan kata kunci dan pengembalian informasi berbasis kemiripan dan mencari pengetahuan dari data semi-terstruktur menggunakan metode seperti asosiasi berbasis kata kunci dan klasifikasi dokumen
Penggalian web termasuk penggalian struktur tautan web untuk mengidentifikasi authorative web pages, klasifikasi dokumen web otomatis, membangun basis informasi web multilayer, dan penggalian weblog
Sequence mining adalah bagian dari data mining yang khusus mencari pola yang relevan secara statistik di antara contoh data dimana nilai-nilainya terletak pada urutan. Sequence mining adalah kasus khusus dari structured data mining
Ada dua jenis berbeda dari sequence mining: string mining dan itemset mining. string mining digunakan secara luas dalam biologi, untuk memeriksa urutan gen dan protein, dan secara khusus membahas urutan dengan anggota single pada setiap posisi. Itemset mining lebih sering digunakan dalam aplikasi pemasaran dan CRM, dan mentitikberatkan pada multiple-simbol pada setiap posisi. Itemset mining juga merupakan pendekatan yang populer terhadap text mining
Ada beberapa permasalahan kunci dalam bidang ini. Hal ini termasuk membangun database dan indeks yang efisien untuk informasi urutan, pengekstraan pola frekuen yang muncul, perbandingan urutan untuk kecocokan, dan pengembalian anggota urutan yang hilang.
Dua teknik yang umum digunakan untuk sequence database untuk penggalian frekuen itemset adalah algoritma apriori dan yang lebih akhir yaitu teknik FP-Growth. Bagaimanapun, kedua teknik tersebut bukanlah teknik yang dikhususkan untuk sequence mining.
Aturan asosiasi, penggalian pola frekuen diajukan oleh Agrawal, Imielinski, dan Swami dalam Mining association rules between sets of items in large databases. Berbagai teknik dan algoritma yang berbeda telah diajukan untuk memecahkan permasalahan ini. Penggalian pola frekuen dapat menghasilkan sejumlah besar pola frekuen. Berbagai stufdi telah dilakukan untuk untuk mengimplementasikan konstrain dalam proses penggalian, untuk menghasilkan hanya pola yang diinginkan. Pei dan Han dalam Can We Push More Constraints into Frequent Pattern Mining menunjukkan konstrain mana yang dapat didorong dalam proses penggalian untuk meningkatkan efesiensinya. Dalam Mining Frequent Itemsets Using Support Constraints, Wang, He dan Han mengajukan sebuah metode untuk memasukkan konstrain supportuntuk itemset. Garofalakis dalam Mining Sequential Patterns with Regular Expression Constraints menunjukkan bagaimana konstrain dapat diintegrasikan dalam proses penggalian pola sekuensial dengan menggunakan ekspresi regular.
Sebuah alternative untuk penggalian pola frekuen adalah penggalia pola frekuen tertutup, yang menghasilkan jumlah pola yang lebih sedikit, dan telah dibuktikan sama bergunanya sebagaimana pengaalian pola frekuen untuk penggalian auran asosiasi. Zaki dan Hsio dalam CHARM: An Efficient Algorithm for Closed Association Rule Mining mengajukan sebuah algoritma yang disebut CHARM untuk penggalian pola frekuen tertutup. Pei, Han, dan Mao kemudian dalam CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets memperkenalkan CLOSET, sebuah algoritma yang efesien untuk penggalian pola frekuen tertutup yang melebihi CHARM. Penggalian sekuen frekuen juga dapat menghasilkan sejumlah sekuen. Dua alternative untuk penggalian penggalian sekuen frekuen adalah penggalian sekuen Max frekuen dan Closed.
Sejak perkenalannya, penggalian pola sekuensial telah menjadi bagian penting dalam data mining, dan telah digunakan dalam berbagai lingkup aplikasi, termasuk analisa kelakukuan pembelian konsumen, penanganan penyakit, pola akses web, sekuen DNA, dan banyak lagi. Permasalahannya adalah mencari semua pola sekuensial dengan support yang lebih tinggi, atau sama dengan support threshold minimum yang telah didefinisikan sebelumnya dalam database data sekuen. Suppor dari pola sekuensial adalah angka, atau persentase dari data sekuen dalam database yang mengandung pola tersebut. Berbagai tejnik dan algoritma telah diajukan untuk meningkatkan efesiensi dari permasalahan ini.
Pola sekuensial yang dihasilkan oleh program penggalian pola sekuensial dapat digunakan sebagai nput untuk program lain untuk melakukan tugas spesifik data mining lainnya, misalkan pola frekuen dapat digunakan untuk menghasilkan aturan asosiasi. Telah disadari bahwa dengan mengurangi support minimum, jumlah pola frekuen sekuensial data meningkat dengan drastic. Sejumlah besar pola frekuen sekuensial dapat mengurangi efesiensi dana efektifitas dari pekerjaan data mining. Efesiensi dikurangi, karena jumlah yang banyak dari pola yang dihasilkan dalam tahap pertama digunakan untuk proses dalam tahap berikutnya dari urutan penggalian. Efektifitas juga dikurangi, karena user harus melewati sejumlah elemen dalam result set untuk mencari informasi yang berguna
Kata Orang.....