ANALISIS PEMUNCULAN KATA TERBANYAK DALAM MAKALAH MENGGUNAKAN METODE ALGORITMA BAYESIAN



Intisari

Disini bisa sedikit saya jelaskan secara singkat Penggunaan Keyword dalam sebuah informasi sangat diperlukan, karena hal tersebut memudahkan para pembaca untuk mengetahui langsung point-point tertentu yang terdapat pada isi informasi. Karena point-point itu dapat menjelaskan sebagian besar isi informasi dan menyampaikan info kepada pembaca, sehingga pembaca tahu hal-hal apa yang bisa dia ambil dari informasi. 

Oleh karena itu, pada laporan ini menjelaskan bahwa keyword untuk laporan atau makalah digunakan untuk mempermudah pembaca mencari point-point penting pada laporan atau makalah. Dan software aplikasi yang digunakan dalam Makalah Pencarian Keyword ini adalah Apache (sebagai Web Server), PHP (Pemrograman berbasis Web) dan Mysql (aplikasi Data base).Untuk algoritma pemrosesan kami gunakan Bayesian Classifier sebagai machine learning untuk memfilter dan menghasilkan keyword yang sesuai. Program aplikasi pencarian keyword makalah ini akan ditampilkan pada Web, sehingga pengakses mudah untuk menggunakannya.

          Dengan begitu dari makalah pencarian keyword, dapat menghasilkan user pengimput makalah harus dalam format teks, jika terdapat format lain maka data tersebut tidak dapat diproses. Karena sebelum diproses, makalah terlebih dahulu dieliminasi kata penghubung beserta karakter selain teks seperti angka, petik dan lain-lain. Baru makalah masuk pada algoritma bayesian dan memperoses makalah tersebut dan baru menghasilkan  kata kunci makalah tersebut.

1.     Latar Belakang

Pesatnya perkembangan teknologi informasi disemua kalangan dan aspek tentunya pada lingkungan kita, semua itu disebabkan karena adanya pemikiran bagaimana aktifitas yang bersifat konvensional dapat dilakukan pada masa sekarang ini dengan proses yang lebih mudah. Dengan munculnya teknologi untuk dapat menghubungkan komunitas di seluruh dunia yaitu menggunakan internet, dan layanan ini bisa langsung mengakses sesuai alamat yang akan dituju dengan menggunakan IP Public. Layanan akses informasi juga cepat dengan adanya bantuan situs pencari seperti Google, Lycos atau Yahoo service, sehingga orang-orang dapat langsung menemukan informasi yang diinginkan tanpa harus membuang waktu membaca semuanya tetapi cukup memberikan kata kunci. Disitulah pentingnya kata kunci untuk membantu pencarian informasi yang dibutuhkan. Kata kunci itu juga dapat mewakili point-point penting pada media informasi. Disini kami akan membantu pengaksesan informasi menemukan kata kunci pada media informasi yang berupa makalah dimaksudkan agar pengakses dapat mengetahui isi pokok dengan melihat kata kunci yang dihasilkan, tanpa harus membaca seluruh isi makalah. Dan pencarian ini menggunakan metode Bayesian karena terbukti metode ini pada machine learning mampu memberikan hasil yang optimal.

2.     Rumusan Masalah

Adapun bentuk masalah yang akan di bahas yaitu tentang bagaimana cara kerja dari analisis pemunculan kata terbanyak dalam makalah menggunakan metode algoritma Bayesian tersebut.

3.     Batasan Penelitian

Penulis membatasi masalah atas beberapa poin penting yang akan di bahas seputar judul yang diajukan, untuk menghindari penyimpangan-penyimpangan dalam tujuan penelitian yaitu :
  1. Pembuatan data base mengenai proses server side.
  2. Proses penyaringan kata menggunakan algoritma Bayesian.
  3. Proses system berbasis web.
4.     Tujuan Penelitian

Adapun maksud penulis memilih judul analisis pemunculan kata terbanyak dalam makalah menggunakan metode algoritma Bayesian sebagai topic pembahasan T.A adalah agar pembaca tak perlu lagi berlama-lama membaca suatu makalah dari awal hingga akhir hanya untuk dapat intisari dari pembahasan makalah tersebut, dengan begitu selain mempermuda pembaca dalam memahami suatu makalah, mereka juga bisa menghemat waktunya untuk mengerjakan pekerjaan lainnya.

Landasan Teori

     I.          Tinjauan Pustaka

Untuk melakukan penelitian ini diperlukan komponen-komponen sebagai berikut:
1.     HTML 

Adalah singkatan dari Hyper Text Markup Language, yang merupakan bahasa teks yang menggunakan tanda-tanda (markup) yang dikenal dengan <tag>, dimana merupakan pengembangan dari SGML (Standard Generalize Markup Language). Dengan HTML maka dapatlah dibuat suatu halaman web statis dimana nantinya merupakan dasar dari pembuatan halaman web dinamis.

2.     Apache sebagai Web Server

Web Server (World Wide Web Server) adalah server internet yang melayani koneksi transfer data dalam protocol HTTP (Hypertext Transfer Protocol). Web server saat ini merupakan inti dari server-server internet selain e-mail server, ftp, dan news server. Hal ini dapat dimaklumi karena web server yang telah dirancang untuk dapat melayani berbagai jenis data, mulai dari text, hypertext, gambar (image), suara, plug-in dan sebagainya.
Salah satu jenis web server yang banyak dipakai dan digemari adalah Apache. Karena beberapa alasan kemudahan yang dapat didapat, seperti:
a)     Bersifat Free (Gratis).
b)     Mudah dalam proses instalasi.
c)     Ringan dalam proses kerja sebagai server dan cepat dalam proses transfer file.
d)     Handal dengan berbagai fitur keamanan dan lainnya.
e)     Bersifat Multiplatfrom (Perbedaan Operating system masih bisa berkomunikasi).

3.     PHP pemrograman Web Dinamis
PHP (Hypertext Preprocecor) dikenal sebagai sebuah bahasa skrip yang menyatu dengan tag-tag HTML, diproses hanya di server. Sedangkan hasil yang dikirim ke klien berupa skrip HTML, ditangkap menggunakan browser pada sisi klien. Php digunakan untuk pembuatan Web Dinamis seperti halnya Active Server Pages (ASP), Java Server Pages (JSP), PERL dan sebagainya. Ada juga kelebihan PHP sehingga banyak digemari adalah sebagai berikut:
a)     Life Cycle yang disingkat, sehingga PHP selalu mengikuti perkembangan teknologi internet.
b)     Cross platform, php dapat dipakai di hamper semua web server yang ada di pasaran (Apache, AOLServer, fhttpd, Microsoft IIS dan lain-lain), dan dapat dijalankan di berbagai system operasi (Windows, Linux, FreeBSD, Unix, Solaris dan sebagainya).
c)     PHP mendukung banyak paket database baik yang komersil maupun nonkomersil seperti PostgreeSQL, MySQL, Oracle dan lain-lainnya.
d)     Akses database yang lebih fleksibel.
e)     Waktu eksekusi lebih cepat.
f)      Tingkat keamanan tinggi.

4.     MySQL
Adalah salah satu jenis database server yang sangat terkenal. Kepopuleran disebabkan karena MySQL menggunakan SQL sebagai bahasa dasar untuk mengakses databasenya. MySQL merupakan server basis dta yang menggunakan teknik relasional untuk menghubungkan antara table-tabel dalam databasenya atau mendukung RDBMS (Relational Databese Management System), adapun kelebihan lain dari MySQL adalah sebagai berikut:
a)    MySQL bersifat Free (Gratis).
b)    Dikeluarkan oleh GNU General Public Licence (GPL) sama seperti PHP sehingga keduanya cocok untuk digabungkan.
c)     MySQL juga bersifat OpenSource jadi para user dapat mengembangkan pengetahuannya mengenai MySQL secara gratis.
d)      Kemampuan yang handal (robust).
e)     Multi-user (banyak pemakai) cocok untuk server.
f)      Multi-thread (beberapa prosedur dalam proses dikerjakan bersama) sehingga proses cepat.
g)     Kecepatan koneksi yang tinggi dan keamanan yang kuat.

5.     Bayesian sebagai pemrosesan Kata Kunci

A.   Teori Bayes
Teori Bayes sebenarnya merupakan implementasi teori probabilitas bersyarat. Teori Bayes seperti probabilitas bersyarat digunakan untuk menentukan probabilitas suatu kejadian Y, bila diketahui kejadian-kejadian lain X1, X2, X3, ...., Xn. Gambaran teori bayes dalam diagram Venn adalah sebagai berikut.
Probabilitas Xk bila Y diketahui dapat dihitung menggunakan Teori Bayes yang didefinisikan dengan:
B.   HMAP
HMAP (Hypothesis Maximum Appropri Probability) menyatakan hipotesa yang diambil berdasarkan nilai probabilitas berdasarkan kondisi prior yang diketahui. HMAP inilah yang digunakan di dalam metode Bayes untuk proses machine learning dari data training tertentu. Untuk menentukan HMAP untuk kejadian ya dan tidak dari X, terlebih dahulu diketahui P(X) dan P(~X) yang menyatakan probabilitas X dan probabilitas bukan X. Kemudian diketahui P(Yi|X) dan P(Yi|~X) yang menyatakan probabilitas Yi di dalam X dan probabilitas Yi di dalam bukan X. Data-data itulah yang dinamakan dengan fakta atau dikenal dengan keadaan prior. Dari keadaan prior inilah dapat ditentukan hipotesa yang digunakan untuk menentukan keputusan apakah X atau bukan X. HMAP untuk kejadian S={Y} didefinisikan dengan:


C.   Implementasi pada klasifikasi teks
Dengan menggunakan rumus-rumus tersebut maka akan ditentukan algoritma bayesian sebagai pemroses kata kunci.

  II.          Metode Penelitian

User menginputkan makalah berupa dokumen dengan format teks, masukkan pada halaman web aplikasi sisi klien. Kemudian teks akan dikirim ke sisi server untuk diproses dengan Algoritma Bayesian yang terdapat pada bahasa pemrograman PHP, tidak lupa bekerjasama dengan MySQL sebagai database server. Setelah ditemukan kata kunci, kemudian kata kunci tersebut akan dikirim ke sisi klien, untuk memberi jawaban pada user pemberi inputan tadi.

III.          Hasil dan Pembahasan

  1. Konversi Makalah mejadi foermat Teks.
Untuk sementara konversi masih bersifat manual atau tradisional, yaitu dengan:
a.      Buka makalah apapun dengan macam-macam format seperti Document, PDF dan lain-lain.
b.     Blok semuanya copy atau copy teks jika ada.
c.      Buka editor Note Pad, paste dan simpan makalah tersebut.
d.     Makalah yang telah disimpan siap untuk diproses.
  1. Buka Halaman Web
Buka halaman web tempat aplikasi berada dengan menggunakan Browser pada PC anda, tentunya harus berhubungan dengan server tempat aplikasi berada. Maka akan muncul Form tempat untuk memasukkan input berupa teks makalah. Masukkan makalah dengan menekan tombol Browse, kemudian cari Input makalah dimana anda meletakkannya.

  1. Tampilan Hasil sudah Proses
Kemudian klik tombol proses untuk memproses input dengan algoritma Bayesian, maka dengan begitu kata pun terproses dan akan menghasilkan kata kunci itu sendiri.

Kesimpulan

Berdasarkan dari hasil analisa dan pengkajian ini, maka penulis mengambil kesimpulan sebagai berikut:
1. User Menginputkan makalah harus dalam format teks, jika terdapat format lain maka data tersebut tidak akan diproses.
2. Input makalah sebelum diproses dieleminasi kata penghubung beserta karakter selain teks seperti angka, petik dan lain-lain.
3. Sesudah itu akan masuk pada algoritma bayesian untuk memproses makalah kemudian menghasilkan kata kunci makalah tersebut.

DAFTAR PUSTAKA

[1]  Basuki, Achmad, “Machine Learning”, PENS-ITS, Surabaya,
[2] Kadir, Abdul,”Dasar PemrogramanWeb Dinamis Menggunakan PHP”, Penerbit ANDI, Yogyakarta,
[3]  M, Farid, “Belajar Sendiri Pemrograman PHP4”, Elex Media Komputindo, Jakarta, 2001.
[4] Mccallum, Andrew and Nigam, Kamal,”A Comparison of Event Models for Naïve Bayes Text Classification”,http://www.cs.cmu.edu
[5]  Nur Iman, Budi ,dkk,”Statistika dan Probabilitas”, PENS-ITS, Surabaya, 2001.
[6] Shen, Yirong and Jiang, Jing ,”Improving the performance of Naïve Bayes for Text Classification”, CS224N Spring,2003.
[7]  Wasista ,Sigit, “Pemrograman Web ”, PENS-ITS, Surabaya, Juni 2002.