Feature Fusion TF-IDF dan Analisis URL untuk Deteksi Phishing Lintas Domain dengan LinearSVC

Authors

  • Gemara Aurelya Universitas Amikom Purwokerto
  • Ridho Rian Sahputra Universitas Amikom Purwokerto
  • Hanrifki Pratama Universitas Amikom Purwokerto
  • Nur Rahma Keysha Maharani Universitas Amikom Purwokerto
  • Indah Adi Setiaputri Universitas Amikom Purwokerto
  • Mohammad Rizki Dwi Saputra Universitas Insan Pembangunan Indonesia

DOI:

https://doi.org/10.63547/jiite.v3i1.118
Abstract View: 0,

Keywords:

phishing email, feature fusion, TF-IDF, LinearSVC, evaluasi lintas domain

Abstract

Meningkatnya serangan phishing melalui email menuntut sistem deteksi otomatis yang tidak hanya akurat, tetapi juga mampu beradaptasi terhadap perbedaan karakteristik data antar domain. Meskipun berbagai pendekatan berbasis machine learning telah menunjukkan performa tinggi, sebagian besar penelitian masih berfokus pada penggunaan satu jenis fitur dan evaluasi dalam satu domain, sehingga kemampuan generalisasi model pada data nyata yang heterogen belum teruji secara komprehensif. Penelitian ini bertujuan untuk mengatasi keterbatasan tersebut dengan mengusulkan pendekatan deteksi email phishing yang lebih menyeluruh melalui integrasi fitur tekstual dan struktural serta evaluasi lintas domain. Metode yang diusulkan mengombinasikan fitur tekstual dari badan email yang diekstraksi menggunakan Term Frequency–Inverse Document Frequency (TF-IDF) dan fitur struktural URL dalam skema feature fusion, dengan proses klasifikasi menggunakan algoritma Linear Support Vector Classifier (LinearSVC) yang efisien untuk data berdimensi tinggi dan bersifat sparse. Dataset SpamAssassin digunakan sebagai data pelatihan dan evaluasi internal, sedangkan dataset Enron digunakan untuk evaluasi lintas domain guna mengukur ketahanan model terhadap domain bias. Hasil evaluasi internal menunjukkan bahwa model mencapai akurasi sebesar 98,84% dengan nilai F1-score makro 97,75%, sementara pada evaluasi lintas domain model mempertahankan kemampuan deteksi email legitimate dengan nilai recall sebesar 93,62% meskipun terjadi penurunan kinerja akibat perbedaan distribusi data. Temuan ini menunjukkan bahwa pendekatan feature fusion lebih tangguh dibandingkan penggunaan fitur tunggal dan efektif sebagai baseline deteksi phishing lintas domain, serta berpotensi dikembangkan lebih lanjut melalui strategi adaptasi domain untuk meningkatkan ketahanan model pada lingkungan nyata.

Published

2026-04-30

How to Cite

Aurelya, G., Sahputra, R. R., Pratama, H., Nur Rahma Keysha Maharani, Setiaputri, I. A., & Saputra, M. R. D. (2026). Feature Fusion TF-IDF dan Analisis URL untuk Deteksi Phishing Lintas Domain dengan LinearSVC. Journal of Informatics and Interactive Technology, 3(1), 520–528. https://doi.org/10.63547/jiite.v3i1.118

Issue

Section

Articles