Sequence Clustering in Process Mining for Business Process Analysis Using K-Means




Proses Discovery merupakan teknik utama dalam proses mining yang bertujuan untuk menghasilkan sebuah model dari event log. Namun dalam implementasinya ditemukan masalah, karena banyak varian proses yang terdapat pada event log. Hal ini membuat hasil proses discovery sulit untuk dipahami. Penelitian ini di awali dengan mengelompokan event log menggunakan metode K-Means sebagai tahap pre-processing. Hasil dari tahap pre-processing ini kemudian di modelkan menggunakan teknik proses mining. Namun, pada saat metode K-Means ini di terapkan penentuan jumlah cluster yang optimal sangatlah penting. Kesalahan dalam menentukan nilai K dapat menurunkan nilai fitness dan precision dari model yang dihasilkan. Berdasarkan hasil pengujian pada data set issue tracking dengan jumlah case 1091 dan jumlah event 7924  yang terbagi ke dalam empat cluster nilai precision meningkat dari 0,49 menjadi 1 dan nilai fitness meningkat dari 0,34 menjadi kisaran 0,61-1 pada cluster 2, 3 dan 4.

 Kata kunci: K-Means, proses mining, event log, clustering, sequence clustering


Process Discovery as the main technique in the mining process aims to produce a model of an event log. However, in the implementation, there is a problem found, for a lot of process variants contained in the event log. This makes the results of the discovery process difficult to understand. This research begins by grouping event logs using the K-Means method as a pre-processing stage. The results of this pre-processing stage are then modeled using the process mining technique. However, determining the optimal number of clusters is crucial. Mistakes in determining the K value can reduce the fitness value and precision of the resulting model. Based on the test results on the issue tracking data set with the number of cases 1091 and the number of events 7924 which is divided into four clusters the precision value increased from 0.49 to 1 and the fitness value increased from 0.34 to 0.61-1 in clusters 2, 3 and 4.

Keywords: K-Means, process mining, event log, clustering, sequence clustering



