Denting Lonceng Hati

Icon

Sebuah Blog Yang Menggugah Hati – Kalo Sumbang Janganlah DIdengarkan, Kalo Merdu Ikutlah Bernyanyi

Foto Darah Gw

Kemaren pas di rumah, gw sempet di periksa darahnya sama nyokap. Jari gw ditusuk pake alat yang kaya pulpen gitu, cus. Rasanya……geli….

Terus keluar deh kecapnya dari jari gw. Trus darah yang keluar dari jari ditaruh di preparat. Habis itu, preparatnya ditaruh di mikroskop, trus di capture deh gambarnya dari mikroskop. Hasilnya kaya gini nih:

foto darah 1

foto darah 2

foto darah 3

coba bandingin sama gambar sel darah merah yang “asli”:

sel darah merah asli

atau

sel darah merah asli 2

sel darah merah, kaya di gambar yang asli, mestinya misah-misah. Tapi kalo yang punya gw, udah pada mepet-mepet. Berarti bagusan punya gw kan?

gambar darah diambil dari:
wikipedia
Clinical Chemistry & Hemathology, Wadsworth Center

Filed under: jalan-jalan Jalan Hidup

Berbagai Algoritma Dalam Sequence Mining

Penggalian pola sekuensial adalah bagian penting dalam data mining, dan berbagai algoritma telah diajukan untuk melakukan tugas ini secara efesien. Permasalahannya adalah mencari seluruh pola sekuensial yang lebh besar atau sama dengan support threshold minimum yang telah didefinisikan sebelumnya dalam sebuah database data sekuensial. Berikut adalah beberapa algoritma yang telah diajukan tersebut:

Apriori Based Algorithms
Agrawal dan Srikant dalam Mining Sequential Patterns memperkenalkan permasalahan penggalian pola sekuensial, dan tia algoritma untuk memecahkannya. Di antara algoritma-algoritma tersebut, AprioriAll adalah satu-satunya algoritma untuk menggali set pola sekuensial frekuen yang komplit. Lebih lanjut dalam Mining Sequential Patterns: Generalizations and performance improvements, mereka mengajukan algoritma GSP (Generalized Sequential Patterns), untuk memecahkan masalah ini. GSP melebihi AprioriAll samapai dua puluh kali. Kedua algoritma ini berdasarkan heuristic priori. Heuristic priori diajukan dalam Mining association rules between sets of items in large databases untuk penggalian aturan asosiasi, dan menyatakan bahwa sub pola dari pola frekuen harus frekuen juga. Dengan menggunakan GSP dan AprioriAll heuristic dapat mempersempit ruang pencarian untuk pola sekuensial frekuen secara drastic. Proses penggalian dimulai dengan memeriksa database, dan mencari seluruh item frekuen (sekuen frekuen dengan panjang 1). Proses penggalian berlanjut, dengan berdasar pada heuristic priori, seperti ini. Setelah mendapatkan seluruh panjang sekuen frekuen l, algortma ini, dengan berdasarkan heuristic priori, menghasilkan seluruh sekuen frekuen yang mungkin dengan panjang l+1, dan dengan memeriksa database menghitung support sebenarnya ntuk sekuen-sekuen ini. Setelah mendapatakan sekuen frekuen dengan panjang l+1, proses ini dapat diulangi untuk mendapatkan sekuen frekuen dengan panjang l+2.

SPADE
Zaki dalam SPADE: An Efficient Algorithm for Mining Frequent Sequences mengajukan pendekatan lain untuk menggali pola frekuen sekuensial, yang disebut dengan SPADE (Sequential Pattern Discovery using Equivalence classes). Pendekatan ini menggunakan format database vertical, dan menggunakan teknik pencarian secara jaringan, dan operasi join, menggali pola sekuensial frekuen. Dalam pendekatan ini untuk setiap item, sebuah daftar id vertical diciptakan. Setiap daftar mengandung sebuah identifier sekuen dari setiap sekuen yang mengandung item ini, dan time stampnya yang terkait. Dengan melakukan join temporal pada daftar id ini, seluruh pola frekuen sekuensial dapat dienumerasikan. Dengan mendekompos ruang pencarian asli dalam subruang yang lebih kecil dengan menggunakan pendekatan teoretikal jaringan dapat menguarangi ruang pencarian dalam metode ini

Tidak seperti algoritma yang berbasis apriori, metode ini tidak melakukan pencaian berulang pada database, dapat dapat menggali seluruh sekuen frekuen dalam tiga kali pencarian dalam database

FreeSpan
Han dan kawan-kawan memperkenalkan FreeSpan (Frequent pattern-projected Sequential pattern mining) dalam FreeSpan: Frequent Pattern-Projected Sequential Pattern Mining. FreeSpan menggunakan item frekuen, memproyeksikan database sekuen dalam database proyeksi. Setiap database proyeksi kemudian diproyeksikan lebih lanjut secara rekursif. Ukuran database proyeksi sering kali berkurang lebih jauh, dan lebih mudah untuk bekerja dengan database yang lebih kecil ini. Metode ini secara signifikan lebih cepat dari pada metode yang berbasis apriori. Permasalahan pada metode ini adalah sekuen yang sama dapat diduplikasi dalam banyak database proyeksi. Dalam paper PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth yang berikutnya, Pei dan kawan-kawan memperkenalkan PrefixSpan. PrefixSpan tidak hanya mengeliminasi permasalahan duplikasi sekuen, tapi juga melebihi algoritma penggalian pola sekuensial sebelumnya, terutama untuk penggalian pola sekuensial yang panjang.

PrefixSpan
Tidak seperti algoritma berbasis apirori, seperti GSP, yang menggali pola frekuen sekuensial dengan menhasilkan kandidat, PrefixSpan menggunakan proyeksi prefix untuk menggali set komplit dari pola frekuen sekuensial.

PrefixSpan mengunakan rekursi untuk menggali sekuen frekuen. Pertama Item frekuen dalam database dtemukan, dan kemudian untuk setiap item frekuen sebuah database proyeksi dibuat (prefiksdari database proyeksi adalah sebuah sekuen frekuen). Proses ini diulangi untuk setiap database proyeksi, sampai database proyeksi tidak mengandung item frekue lagi, yang pada saat itu rekursi pada cabang berakhir, dan eksekusi kembali pada prosedur yang memanggi. Akhir rekursi cabang ini disebut sebagai backtrack.

Filed under: Tanpa Aksara

Sebuah Jawaban Dari Sebuah Komen

Ceritanya gini, sudah beberapa hari ini udah balik ke surabaya. Weekend gini, pinginnya sih pergi ke malang. Tapi karena suatu sebab akibat yang memaksa untuk tidak bisa pergi ke malang. Sebenarnya, udah berapa lama baca postingan ini. Gara-gara ada reply-an yang ini, rasanya tangan udah gatel mau bales. Tapi berhubung waktu itu bukanya di warnet, dan jamnya udah mau habis, jadi gak bisa bales waktu itu juga.

Ternyata Tuhan ingin menunjukkan sesuatu padaku.

Beberapa malem kemudian, di rumah ada pengajian. Nyokap yang ngadain. Padahal perut mules gak karuan gara-gara siangnya kebanyakan kena shabu-shabu. Pinginnya sih ikut makannya doang. Tapi setelah dipaksa dapet pencerahan dari adinda, akhirnya ikut juga. Waktu itu, ustadnya, yang namanya naman jawa tapi logat ngomongnya betawi banget, kebetulan menjelaskan Surat Ali Imron ayat 190 – 191. Pas itu, ustadnya menjelaskan, bahwa kalo orang Islam, gak ada yang namanya sia-sia. Meskipun apa yang kita lakukan hasilnya gak sesuai sama yang diharapkan, ato gak sesuai sama target, selama apa yang dilakukan didasari oleh niat baik, maka Insya Allah gak bakal sia-sia.

Mendengar ustad ngomong kaya gitu, aku jadi mikir. Memikirkan ulang apa yang sudah orang tulis di blogku. Lalu, kenapa banyak? ada orang yang menyesal? Tadi, waktu iseng-iseng memeriksa blog Mardi datang memberikan jawaban.

Pingin rasanya ngomong kaya gini. So what mas? Emangnya kenapa kalo ada senior yang ngomong kaya gitu? Emangnya apa yang diomongin senior-senior itu pasti bener? Emangnya kita, yang notabene masih muda, harus ngikutin apa yang diomongin senior-senior itu? Emangnya kalo orang muda ngomong gak boleh?

Beberapa hari yang lalu, waktu masih liburan di rumah, sempet nonton tv yang nayangin sebuah iklan rokok. Seperti biasanya, iklan dari merek rokok tersebut selalu menarik perhatian. Termasuk yang satu ini. Belum tua, belum boleh ngomong….

Wakakakakakakkaakakkakakakkakak.

Salah satu pertanda lainkah dari Tuhan? Hanya Dia yang tahu….

Filed under: jalan-jalan Jalan Hidup

Tentang Sekuence Mining

Seiring dengan perkembangan zaman, bermunculan berbagai macam algoritma untuk menggali data-data dengan tipe yang lebih kompleks. Tipe-tipe data tersebut adalah:
• Multidimensional analysis and descriptive mining of complex data objects
• Mining spatial databases
• Mining multimedia databases
• Mining time-series and sequence data
• Mining text databases
• Mining the World-Wide Web

Penggalian data multimedia membutuhkan pengembalian berbasis isi dan pencarian kemiripan yang terintegrasi dengan metode penggalian

Penggalian data sekuensial atau time-series termasuk analisa trend, pencarian kemiripan dalam time series, penggalian pola dan perioditas sekuensial dalam sekuen waktu

Penggalian teks bekerja berdasarkan kata kunci dan pengembalian informasi berbasis kemiripan dan mencari pengetahuan dari data semi-terstruktur menggunakan metode seperti asosiasi berbasis kata kunci dan klasifikasi dokumen

Penggalian web termasuk penggalian struktur tautan web untuk mengidentifikasi authorative web pages, klasifikasi dokumen web otomatis, membangun basis informasi web multilayer, dan penggalian weblog

Sequence mining adalah bagian dari data mining yang khusus mencari pola yang relevan secara statistik di antara contoh data dimana nilai-nilainya terletak pada urutan. Sequence mining adalah kasus khusus dari structured data mining

Ada dua jenis berbeda dari sequence mining: string mining dan itemset mining. string mining digunakan secara luas dalam biologi, untuk memeriksa urutan gen dan protein, dan secara khusus membahas urutan dengan anggota single pada setiap posisi. Itemset mining lebih sering digunakan dalam aplikasi pemasaran dan CRM, dan mentitikberatkan pada multiple-simbol pada setiap posisi. Itemset mining juga merupakan pendekatan yang populer terhadap text mining

Ada beberapa permasalahan kunci dalam bidang ini. Hal ini termasuk membangun database dan indeks yang efisien untuk informasi urutan, pengekstraan pola frekuen yang muncul, perbandingan urutan untuk kecocokan, dan pengembalian anggota urutan yang hilang.

Dua teknik yang umum digunakan untuk sequence database untuk penggalian frekuen itemset adalah algoritma apriori dan yang lebih akhir yaitu teknik FP-Growth. Bagaimanapun, kedua teknik tersebut bukanlah teknik yang dikhususkan untuk sequence mining.

Aturan asosiasi, penggalian pola frekuen diajukan oleh Agrawal, Imielinski, dan Swami dalam Mining association rules between sets of items in large databases. Berbagai teknik dan algoritma yang berbeda telah diajukan untuk memecahkan permasalahan ini. Penggalian pola frekuen dapat menghasilkan sejumlah besar pola frekuen. Berbagai stufdi telah dilakukan untuk untuk mengimplementasikan konstrain dalam proses penggalian, untuk menghasilkan hanya pola yang diinginkan. Pei dan Han dalam Can We Push More Constraints into Frequent Pattern Mining menunjukkan konstrain mana yang dapat didorong dalam proses penggalian untuk meningkatkan efesiensinya. Dalam Mining Frequent Itemsets Using Support Constraints, Wang, He dan Han mengajukan sebuah metode untuk memasukkan konstrain supportuntuk itemset. Garofalakis dalam Mining Sequential Patterns with Regular Expression Constraints menunjukkan bagaimana konstrain dapat diintegrasikan dalam proses penggalian pola sekuensial dengan menggunakan ekspresi regular.

Sebuah alternative untuk penggalian pola frekuen adalah penggalia pola frekuen tertutup, yang menghasilkan jumlah pola yang lebih sedikit, dan telah dibuktikan sama bergunanya sebagaimana pengaalian pola frekuen untuk penggalian auran asosiasi. Zaki dan Hsio dalam CHARM: An Efficient Algorithm for Closed Association Rule Mining mengajukan sebuah algoritma yang disebut CHARM untuk penggalian pola frekuen tertutup. Pei, Han, dan Mao kemudian dalam CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets memperkenalkan CLOSET, sebuah algoritma yang efesien untuk penggalian pola frekuen tertutup yang melebihi CHARM. Penggalian sekuen frekuen juga dapat menghasilkan sejumlah sekuen. Dua alternative untuk penggalian penggalian sekuen frekuen adalah penggalian sekuen Max frekuen dan Closed.

Sejak perkenalannya, penggalian pola sekuensial telah menjadi bagian penting dalam data mining, dan telah digunakan dalam berbagai lingkup aplikasi, termasuk analisa kelakukuan pembelian konsumen, penanganan penyakit, pola akses web, sekuen DNA, dan banyak lagi. Permasalahannya adalah mencari semua pola sekuensial dengan support yang lebih tinggi, atau sama dengan support threshold minimum yang telah didefinisikan sebelumnya dalam database data sekuen. Suppor dari pola sekuensial adalah angka, atau persentase dari data sekuen dalam database yang mengandung pola tersebut. Berbagai tejnik dan algoritma telah diajukan untuk meningkatkan efesiensi dari permasalahan ini.

Pola sekuensial yang dihasilkan oleh program penggalian pola sekuensial dapat digunakan sebagai nput untuk program lain untuk melakukan tugas spesifik data mining lainnya, misalkan pola frekuen dapat digunakan untuk menghasilkan aturan asosiasi. Telah disadari bahwa dengan mengurangi support minimum, jumlah pola frekuen sekuensial data meningkat dengan drastic. Sejumlah besar pola frekuen sekuensial dapat mengurangi efesiensi dana efektifitas dari pekerjaan data mining. Efesiensi dikurangi, karena jumlah yang banyak dari pola yang dihasilkan dalam tahap pertama digunakan untuk proses dalam tahap berikutnya dari urutan penggalian. Efektifitas juga dikurangi, karena user harus melewati sejumlah elemen dalam result set untuk mencari informasi yang berguna

Filed under: Tanpa Aksara

Tentang Data Mining

Secara sederhana, data mining merujuk pada ekstraksi atau penggalian pengetahuan dari sejumlah besar data. termin ini sebetulnya adalah salah kaprah. Karena penggalian emas dari batu atau dari pasar disebut dengan penggalian emas, bukan penggalian batu atau penggalian pasir. Oleh karena itu, data mining seharusnya diberi nama knowledge mining from data. Termin pendeknya knowledge mining sama sekali tidak menggambarkan proses penggalian data untuk mendapatkan pengetahuan. Oleh karena itu kesalahkaprahan yang menggambarkan data dan mining tetap digunakan.

Banyak orang yang memperlakukan Knowledge Discovery in Databases atau KDD sebagai sinonim dari data mining. Selain itu, sebagian orang melihat data mining sebagai langkah esensial dalam pencarian pengetahuan (knowledge discovery) dalam database. Pencarian pengetahuan sebagai sebuah proses terdiri dari urutan berulang dari langkah-langkah sebagai berikut:

  1. Data Cleaning. Untuk membuang noise atau data yang tidak konsisten
  2. data integration. Dimana multiple sumber data digabungkan.
  3. Data selection. Dimana data yang relevan dengan analisis didapat dari database
  4. Data transformation. Dimana data ditransformasikan dan dikonsolidasikan kedalam bentuk yang sesuai untuk penggalian dengan melakuka operasi penjumlahan atau agregasi.
  5. Data Mining. Sebuah proses esensial dimana metode cerdas diaplikasikan untuk mengekstrak pola data
  6. Pattern evaluation. Untuk mengidentifikasi pola tertentu yang merepresentasikan pengetahuan berdasar pada pengukuran ketertarikan
  7. Knowledge presentation. Dimana visualisasi dan teknik representasi pengetahuan digunakan untuk menghadirkan pengetahuan yang telah digali pada user

Langkah data mining memungkinkan untuk berinteraksi dengan user atau berbasis pengetahuan. Pola yang menarik ditampilkan pada user, dan dapat disimpan sebagai pengetahuan baru dalam basis pengetahuan (knowledge base). Berdasarkan pandangan ini, data mining adalah sebuah bagian dari keseluruhan proses. Meskipun merupakan proses yang esensial karena akan mengungkapkan pola tersembunyi untuk dievaluasi lebih lanjut.

Jadi, data mining, yang menjadi termin yang lebih populer daripada KDD, adalah proses pencarian pengetahuan tertentu dari sejumlah besar data yang disimpan baik dalam database, data warehouse, maupun penyimpanan informasi lainnya.

Arsitektur umum dari sistem data mining dapat memiliki komponen sebagai berikut:

    Database, data warehouse, maupun penyimpanan informasi lainnya.
    Server database atau data warehouse. Server database atau data warehouse bertanggung jawab untuk mengambil data yang relevan, berdasarkan pada permintaan data mining user
    Knowledge base. Bagian ini merupakan domain pengetahuan yang digunakan untuk membimbing pencarian atau mengevaluasi ketertarikan pada pola hasil. Pengetahun in dapat termasuk konsep hirarki, digunakan untuk mengorganisir atribut atau nilai atribut ke dalam berbagai level abstraksi.
    Data mining engine. Modul ini merupakan bagian yang esensial dalam sistem data mining dan idealnya terdiri dari modul funsional untuk tugas-tugas misalkan seperti karakterisasi, asosiasi, klasifikasi, analisa kluster, dan analisa evolusi dan deviasi
    Pattern evaluation module. Komponen ini secara umum mengatur tingkat kepentingan dan berinteraksi dengan modul data mining sehingga dapat memfokuskan pencarian terhadap pola tertentu.
    Graphical user interface. Modul ini mengkomunikasikan user dengan sistem data mining, mengizinkan user untuk berinteraksi dengan sistem dengan mendefinisikan query atau tugas data mining, menyediakan informasi agar user terbantu untuk tetap fokus dalam pencarian. Sebagai tambahan, komponen ini mengizinkan user untuk mencari skema atau struktur data database dan data warehouse, mengevaluasi pola yang telah digali, dan memvisualisasi pola dalam bentuk yang berbeda.

Tidak semua “sistem data mining” yang digunakan dalam kehidupan nyata dapat melakukan proses data mining yang sebenarnya. Sebuah sistem analisis data yang tidak menangani data dalam jumlah besar seharusnya dikategorikan dalam sistem mechine learning, alat analisa data statistik, atau prototipe sistem eksperimental. Sebuah sistem yang hanya dapat melakukan temu kembali data atau informasi, termasuk mencari nilai agregasi, atau yang melakukan penjawaban query dalam database yang besar harusnya dikategorika sebagai sistem database, atau sistem temu kembali informasi, atau sistem database deduktif.

Data mining melibatkan sebuah integrasi teknik dari berbagai disiplin seperti teknologi database, statistik, machine learning, pengenalan pola, neural network, visualisasi data, temu kembali informasi, pemrosesan citra dan sinyal, dan analisa data spasial. Dengan melakukan data mining, pengetahuan tertentu, informasi level biasa atau level tinggi dapat diekstrak dari database dan dapat dilihat atau dicari dari sudut pandang yang berbeda. Pengetahuan yang ditemukan dapat digunakan untuk pembuatan keputusan, kontrol proses, manajemen informasi, dam pemrosesan query. Oleh karena itu, data mining disadari merupakan salah satu dari bagian terpenting dalam sistem database dan salah satu pengembangan interdisiplin paling menjanjikan dalam industri informasi

Filed under: Tanpa Aksara

Dibuka

  • 15,996 kali

Hari-hari Menghitung Hari

Agustus 2007
S S R K J S M
« Jul   Sep »
 12345
6789101112
13141516171819
20212223242526
2728293031  

Tentang

Blog ini punya Nuruddin Arroniry. Cuma sedikit yang bisa Terungkap. Kalo sumbang jangan didengarkan. Kalo merdu ikutlah bernyanyi.

Powered by  MyPagerank.Net

KampungBlog.com - Kumpulan Blog-Blog Indonesia
Add to Technorati Favorites
BlogFam Community
naruto
Which Naruto Character Are You?
Test by naruto - kun.com

I am ichigo!

Dapur dan Kepulan Asapnya