vemby: Text Mining

TEXT MINING
Text mining (disebut juga dengan text data mining), adalah suatu proses untuk mengambil informasi dari teks yang ada. Text mining mencari pola-pola yang ada di teks teks dalam bahasa natural yang tidak terstuktur seperti buk, email, artikel, halaman web, dll. Kegiatan yang biasa dilakukan oleh text mining adalah text categorization, text clustering, conception/entity extraction, dll.
Ada 3 proses yang biasanya ada dalam sebuah kegiatan text mining
1. Characterization of data
Teks yang ada distrukturkan dengan proses seperti parsing, dan diamsukkan ke dalam sebuah database
2. Data mining
Dari data yang ada lalu dilakukan sebuah pencarian dengan algoritma tertentu untuk mendapatkan pola dari data tersebut
3. Data visualization
Hasil pencarian yang ada akan diinterpretasi dan dikeluarkan dalam bentuk output yang dapat dimengerti dengan mudah.
Salah satu metode yang dapat digunakan untuk text mining adalah PIMIENTO, yang berarti Platform Independent Text Mining Engine Tool.
PIMIENTO, adalah suatu framework untuk melakukan kegiatan text mining berbasis JAVA. PIMIENTO berdasar kepada OOAF (Object Oriented Application Framework), dan dikembangkan pada tahun 2004.
Arsitektur dari PIMIENTO adalah dia terbagi-bagi dalam berdasarkan modul-modul sesuai dengan fitur-fitur text mining yang dapat digunakan olehnya. Modul-modul yang ada diantaranya seperti : Similarity Analysis, Summarization, dan Language Identification.
Aplikasi dapat berinteraksi dengan PIMIENTO dengan menggunakan Web Service atau menggunakan API. Pengguna lalu dapat menggunakan sebuah interface web untuk melakukan monitoring sistem.
Fitur-fitur utama PIMIENTO
• Ditulis 100% dalam Java 1.4.x, sehingga bisa digunakan di komputer apapun selama ada JVM
• Mempunyai performa yang tinggi
• Dapat melakukan Text Categorisation, yaitu kemampuan untuk memasukkan ke teks ke katagori tertentu dari dokumen yang belum pernah diperiksa sebelumnya
• Document Clustering
• Languange Identification
• Similarity Analysis
• Summarisation, membuat summary/ringkasan dari data teks yang ada
• Bebas digunakan untuk kegiatan akademik

Garis besar cara kerja text mining adalah sebagai berikut :
(lihat Gambar di atas)

Tahapan yang dilakukan secara umum adalah :
(lihat Gambar di atas)

Tokenizing
Tahap Tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya
Contoh : (lihat Gambar di atas)

Filtering
Tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stop list (membuang kata yang kurang penting) atau word list (menyimpan kata penting)
Contoh : (lihat Gambar di atas)

Stemming
Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering.
Contoh : (lihat Gambar di atas)

Tagging
Tahap tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil stemming
Contoh : (lihat Gambar di atas)

Analyzing
Tahap analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata antar dokumen yang ada.

Ilustrasi Algoritma Text Mining
(lihat Gambar di atas)

DAFTAR PUSTAKA
1. lecturer.eepis-its.edu/~iwanarif/kuliah/dm/6Text%20Mining.pdf
2. totoltotol.wordpress.com/.../text-mining-menggunakan-pimiento
3. http://en.wikipedia.org/wiki/Text_mining

vemby

Sabtu, 14 Mei 2011

Text Mining

2 komentar: