Feature Fusion TF-IDF dan Analisis URL untuk Deteksi Phishing Lintas Domain dengan LinearSVC

Gemara Aurelya; Ridho Rian Sahputra; Hanrifki Pratama; Nur Rahma Keysha Maharani; Indah Adi Setiaputri; Mohammad Rizki Dwi Saputra

doi:10.63547/jiite.v3i1.118

Authors

Gemara Aurelya Universitas Amikom Purwokerto
Ridho Rian Sahputra Universitas Amikom Purwokerto
Hanrifki Pratama Universitas Amikom Purwokerto
Nur Rahma Keysha Maharani Universitas Amikom Purwokerto
Indah Adi Setiaputri Universitas Amikom Purwokerto
Mohammad Rizki Dwi Saputra Universitas Insan Pembangunan Indonesia

DOI:

https://doi.org/10.63547/jiite.v3i1.118

Abstract View: 0,

Keywords:

phishing email, feature fusion, TF-IDF, LinearSVC, evaluasi lintas domain

Abstract

Meningkatnya serangan phishing melalui email menuntut sistem deteksi otomatis yang tidak hanya akurat, tetapi juga mampu beradaptasi terhadap perbedaan karakteristik data antar domain. Meskipun berbagai pendekatan berbasis machine learning telah menunjukkan performa tinggi, sebagian besar penelitian masih berfokus pada penggunaan satu jenis fitur dan evaluasi dalam satu domain, sehingga kemampuan generalisasi model pada data nyata yang heterogen belum teruji secara komprehensif. Penelitian ini bertujuan untuk mengatasi keterbatasan tersebut dengan mengusulkan pendekatan deteksi email phishing yang lebih menyeluruh melalui integrasi fitur tekstual dan struktural serta evaluasi lintas domain. Metode yang diusulkan mengombinasikan fitur tekstual dari badan email yang diekstraksi menggunakan Term Frequency–Inverse Document Frequency (TF-IDF) dan fitur struktural URL dalam skema feature fusion, dengan proses klasifikasi menggunakan algoritma Linear Support Vector Classifier (LinearSVC) yang efisien untuk data berdimensi tinggi dan bersifat sparse. Dataset SpamAssassin digunakan sebagai data pelatihan dan evaluasi internal, sedangkan dataset Enron digunakan untuk evaluasi lintas domain guna mengukur ketahanan model terhadap domain bias. Hasil evaluasi internal menunjukkan bahwa model mencapai akurasi sebesar 98,84% dengan nilai F1-score makro 97,75%, sementara pada evaluasi lintas domain model mempertahankan kemampuan deteksi email legitimate dengan nilai recall sebesar 93,62% meskipun terjadi penurunan kinerja akibat perbedaan distribusi data. Temuan ini menunjukkan bahwa pendekatan feature fusion lebih tangguh dibandingkan penggunaan fitur tunggal dan efektif sebagai baseline deteksi phishing lintas domain, serta berpotensi dikembangkan lebih lanjut melalui strategi adaptasi domain untuk meningkatkan ketahanan model pada lingkungan nyata.

Feature Fusion TF-IDF dan Analisis URL untuk Deteksi Phishing Lintas Domain dengan LinearSVC

Authors

DOI:

Keywords:

Abstract

Downloads

Published

How to Cite

Issue

Section

License

E-ISSN

Quick Menu

Indexed By

Article Template

Recommended Tools

Current Issue