SlideShare uma empresa Scribd logo
1 de 18
Kötücül Yazılımların Tanınmasında
Evrişimsel Sinir Ağlarının Kullanımı ve
Karşılaştırılması
A. Selman Bozkır, A. Oğulcan Çankaya, Murat Aydos
Hacettepe Universitesi Bilgisayar Müh. Bölümü
Bu çalışma Comodo Inc. tarafından desteklenmektedir.
Gündem
 Kötücül Yazılım (Malware) ve türleri nedir?
 Kötücül Yazılım’da güncel istatistikler
 Karşı Önlemler
 Yaklaşım - Yöntem
 Veri Kümesi – “MaleVis”
 Deneysel Sonuçlar
 Tartışma ve Sonuç
Kötücül Yazılım nedir?
 Kötü amaçlı yazılım, bilgisayar virüsü, solucan(virüs), truva atı, fidye virüsü,
casus yazılım, reklam destekli yazılım ve diğer zararlı yazılımları oluşturan
gruba verilen genel isimdir.
 Bu yazılımlar çalıştırılabilir kod, betik, aktif içerik ve diğer farklı yazılım
türleri şeklinde ortaya çıkabilir.
Kötücül Yazılım Türleri
 Bilgisayar virüsü
 Bilgisayar solucanı (worm)
 Truva atı (Trojan horse)
 Arka kapı (backdoor)
 Mesaj sağanağı (spam) (Yığın ileti)
 Şantaj yazılımı (ransomware)
 Kök kullanıcı takımı (rootkit)
 Telefon çevirici (dialer)
 Klavye dinleyiciler (key logger)
 Casus yazılım (spyware)
 .. ve diğerleri
Sayılarla
Kötücül yazılımlar son yıllarda üssel şekilde artmaktadır.
Source: safetydetective.com – 2018 trends report
Sayılarla
Yeni KY üretimi azalmakta, varolanlar değiştirilerek ve çoğaltılarak kullanılıyor.
Source: safetydetective.com – 2018 trends report
Sayılarla
Cep telefonlarında, özellikle Android için KY üretiminde azalış var.
Source: safetydetective.com – 2018 trends report
Karşı Önlemler – Dinamik Analiz
 Dinamik analiz potansiyel zararlı kod bir kum kutusu ya da sanal makine
üzerinde çalıştırılarak davranışsal örüntüleri tespit edilerek sınıflama yapılır
[2]
- Kaynak tüketimi ve hesaplama süresi yüksek
- Sanal makine veya kum kutusu ihtiyacı var
- Polimorfik (çok biçimli) veya metamorfik (kendi iç kodunu değiştirebilen)
zararlılara karşı yüksek doğruluk
Karşı Önlemler – Statik Analiz
 Statik analiz zararlı kodun çalıştırılmaksızın ihtiva ettiği ikili (binary)
dizilimleri, kütüphane çağrıları, opcode (operational code) sıklık
dağılımları, akış kontrol çizgeleri gibi örüntüleri keşfetmeyi ve bu
örüntüler üzerinden tanımlayıcı bir imza oluşturmayı hedefler [3]
- Kaynak tüketimi az, hızlı
- Polimorfik, metamorfik zararlılara karşı zaafiyet
Yaklaşım
 Byte dizilimlerinden 3 kanallı (RGB) imge edilmesi
 Yeniden boyutlandırma (224px – 300px)
 Modern evrişimsel sinir ağı modelleriyle uçtan uca eğitim ve çıkarım
 Eğitim hızı ve doğruluk kıyaslaması
Yaklaşım – Kullanılan ESA Türleri
 AlexNet
 VGG (Vgg 11 – Vgg 16)
 Inception (GoogleNet, Inception v3)
 Resnet (Resnet 18, Resnet 34, Resnet 50, Resnet 101)
 Densenet (Densenet 121, Densenet 169, Densenet 201)
Veri Kümesi - MaleVis
Akademik ücretsiz: https://web.cs.hacettepe.edu.tr/~selman/malevis/
Veri Kümesi - MaleVis
 Toplam Familya Sayısı: 25
(Kötücül Yazılım) + 1 (Özgün
Yazılım)
 Toplam Örnek (Açık küme): 9100
eğitim – 4660 geçerleme imgesi
 Toplam Örnek (Kapalı küme)
8750 eğitim, 3750 geçerleme
imgesi
 Eğt/Test 70% -30%
No Sınıf İsmi Kategori Eğitim/Test Örneği Sayıları
1 Win32/Adposhel Adware 350/144
2 Win32/Agent-fyi Trojan 350/120
3 Win32/Allaple.A Worm 350/128
4 Win32/Amonetize Adware 350/147
5 Win32/Androm Backdoor 350/150
6 Win32/AutoRun-PU Worm 350/146
7 Win32/BrowseFox Adware 350/143
8 Win32/Dinwod!rfn Trojan 350/149
9 Win32/Elex Trojan 350/150
10 Win32/Expiro-H Virus 350/150
11 Win32/Fasong Worm 350/150
12 Win32/HackKMS.A Trojan 350/149
13 Win32/Hlux!IK Worm 350/150
14 Win32/Injector Trojan 350/145
15 Win32/InstallCore.C Adware 350/150
16 Win32/MultiPlug Adware 350/149
17 Win32/Neoreklami Adware 350/150
18 Win32/Neshta Virus 350/147
19 Win32/Regrun.A Trojan 350/135
20 Win32/Sality Virus 350/149
21 Win32/Snarasite.D!tr Trojan 350/150
22 Win32/Stantinko Backdoor 350/150
23 VBA/Hilium.A Virus 350/150
24 Win32/VBKrypt Trojan 350/146
25 Win32/Vilsel Trojan 350/146
Örnek İmgeler – MaleVis
Adposhel
HackKMS
Deneysel Sonuçlar
• Platform: GTX 1060 6GB Hafıza, i7 6700K işlemci, 16 GB DDR4 Ram 1333 Mhz
• Rassal ağırlıkla başlama, LR: 0.01, Sönümleme katsayısı: 0.8, Dönem: 60, SGD
• En yüksek doğruluk: DenseNet mimarisi - İçlerinde Densenet 121 en hızlısı
• Resnet 18 mimarisi görece düşük doğrulukla eğitim ve test sürecinde en etkin
Ağ-Mimari Doğruluk
(Eğitim)
Doğruluk
(Geçerleme)
Epoch Süreleri
(Eğitim/Geçerleme)
Toplam
Eğitim Süresi
Yığın Sayısı
AlexNet 98.73% 94.43% 11/2 saniye 13 dakika 128
VGG11 99.99% 96.46% 132/16 saniye 153 dakika 16
VGG16 99.82% 96.10% 242/31 saniye 278 dakika 16
Resnet18 99.99% 97.17% 39/5 saniye 45 dakika 64
Resnet34 99.98% 96.84% 76/9 saniye 84 dakika 48
Resnet50 99.97% 97.03% 119/16 saniye 136 dakika 16
Resnet101 99.97% 97.09% 212/26 saniye 233 dakika 12
Inception
(Googlenet)
99.99% 96.38% 42/8 saniye 50 dakika 32
Inception V3 99.53% 96.62% 180/24 saniye 214 dakika 12
Densenet121 99.98% 97.48% 122/16 saniye 138 dakika 12
Densenet169 99.92% 97.48% 169/23 saniye 192 dakika 8
Densenet201 99.98% 97.48% 217/29 saniye 247 dakika 8
Tartışma ve Sonuç
 Bu çalışmada problem kapalı küme olarak tanımlı bir veri kümesi üzerinde
gerçekleştirilmiştir
 Problem özelinde modern evrişimsel sinir ağlarında yer alan evrişimsel katman
sayısı ve doğruluk arasında doğrusal bir korelasyon gözlemlenmemiştir
 DenseNet mimarisi doğruluk noktasında, Resnet18 mimarisi kaynak tüketimi ve
verimlilik noktasında en başarılı ESA olarak tespit edilmiştir
 Densenet mimarisinin yakaladığı başarı, KY imgelerinden çıkarılan nitelik ve nitelik
haritalarından elde edilen bilginin ilk katmanlardan uç katmanlara kadar
taşınabilmesinin ve birleştirilebilmesinde yatmaktadır
 Gelecek çalışmalarda problem açık küme (open-set) problem olarak kurgulanarak
ikili dosyaların zararlı olup olmadığı da tanınmaya çalışılacaktır. Bu bağlamda hem
mevcut ağlar hem de çekişmeli ağlardan yararlanılması planlanmaktadır
Başvurular
 1. "An Undirected Attack Against Critical Infrastructure" (PDF). United States
Computer Emergency Readiness Team(Us-cert.gov). 24 Aralık 2016
 2. K. Aktas and S. Sen,“UpDroid: Updated Android Malware and Its Familial
Classification",in Nordsec'18 2018.
 3. L. Nataraj, D. Kirat, B.S. Manjunath, G. Vigna, “SARVAM: Search and RetrieVAl of
Malware”, in NGMAD’13, 2013
Dinlediğiniz için teşekkür ederim
Sorular?

Mais conteúdo relacionado

Mais de Selman Bozkır

Phishing Attacks: Trends, Detection Systems and Computer Vision as a Promisin...
Phishing Attacks: Trends, Detection Systems and Computer Vision as a Promisin...Phishing Attacks: Trends, Detection Systems and Computer Vision as a Promisin...
Phishing Attacks: Trends, Detection Systems and Computer Vision as a Promisin...Selman Bozkır
 
Use of hog descriptors in phishing detection
Use of hog descriptors in phishing detectionUse of hog descriptors in phishing detection
Use of hog descriptors in phishing detectionSelman Bozkır
 
ADEM: An Online Decision Tree Based Menu Demand Prediction Tool for Food Courts
ADEM: An Online Decision Tree Based Menu Demand Prediction Tool for Food CourtsADEM: An Online Decision Tree Based Menu Demand Prediction Tool for Food Courts
ADEM: An Online Decision Tree Based Menu Demand Prediction Tool for Food CourtsSelman Bozkır
 
Measurement and metrics in model driven software development
Measurement and metrics in model driven software developmentMeasurement and metrics in model driven software development
Measurement and metrics in model driven software developmentSelman Bozkır
 
Probabilistic information retrieval models & systems
Probabilistic information retrieval models & systemsProbabilistic information retrieval models & systems
Probabilistic information retrieval models & systemsSelman Bozkır
 
SHOE (simple html ontology extensions)
SHOE (simple html ontology extensions)SHOE (simple html ontology extensions)
SHOE (simple html ontology extensions)Selman Bozkır
 
Predicting food demand in food courts by decision tree approaches
Predicting food demand in food courts by decision tree approachesPredicting food demand in food courts by decision tree approaches
Predicting food demand in food courts by decision tree approachesSelman Bozkır
 
Identification of User Patterns in Social Networks by Data Mining Techniques:...
Identification of User Patterns in Social Networks by Data Mining Techniques:...Identification of User Patterns in Social Networks by Data Mining Techniques:...
Identification of User Patterns in Social Networks by Data Mining Techniques:...Selman Bozkır
 
FUAT – A Fuzzy Clustering Analysis Tool
FUAT – A Fuzzy Clustering Analysis ToolFUAT – A Fuzzy Clustering Analysis Tool
FUAT – A Fuzzy Clustering Analysis ToolSelman Bozkır
 
Data mining & Decison Trees
Data mining & Decison TreesData mining & Decison Trees
Data mining & Decison TreesSelman Bozkır
 

Mais de Selman Bozkır (12)

Phishing Attacks: Trends, Detection Systems and Computer Vision as a Promisin...
Phishing Attacks: Trends, Detection Systems and Computer Vision as a Promisin...Phishing Attacks: Trends, Detection Systems and Computer Vision as a Promisin...
Phishing Attacks: Trends, Detection Systems and Computer Vision as a Promisin...
 
Use of hog descriptors in phishing detection
Use of hog descriptors in phishing detectionUse of hog descriptors in phishing detection
Use of hog descriptors in phishing detection
 
ADEM: An Online Decision Tree Based Menu Demand Prediction Tool for Food Courts
ADEM: An Online Decision Tree Based Menu Demand Prediction Tool for Food CourtsADEM: An Online Decision Tree Based Menu Demand Prediction Tool for Food Courts
ADEM: An Online Decision Tree Based Menu Demand Prediction Tool for Food Courts
 
Measurement and metrics in model driven software development
Measurement and metrics in model driven software developmentMeasurement and metrics in model driven software development
Measurement and metrics in model driven software development
 
UML ile Modelleme
UML ile ModellemeUML ile Modelleme
UML ile Modelleme
 
Hopfield Ağı
Hopfield AğıHopfield Ağı
Hopfield Ağı
 
Probabilistic information retrieval models & systems
Probabilistic information retrieval models & systemsProbabilistic information retrieval models & systems
Probabilistic information retrieval models & systems
 
SHOE (simple html ontology extensions)
SHOE (simple html ontology extensions)SHOE (simple html ontology extensions)
SHOE (simple html ontology extensions)
 
Predicting food demand in food courts by decision tree approaches
Predicting food demand in food courts by decision tree approachesPredicting food demand in food courts by decision tree approaches
Predicting food demand in food courts by decision tree approaches
 
Identification of User Patterns in Social Networks by Data Mining Techniques:...
Identification of User Patterns in Social Networks by Data Mining Techniques:...Identification of User Patterns in Social Networks by Data Mining Techniques:...
Identification of User Patterns in Social Networks by Data Mining Techniques:...
 
FUAT – A Fuzzy Clustering Analysis Tool
FUAT – A Fuzzy Clustering Analysis ToolFUAT – A Fuzzy Clustering Analysis Tool
FUAT – A Fuzzy Clustering Analysis Tool
 
Data mining & Decison Trees
Data mining & Decison TreesData mining & Decison Trees
Data mining & Decison Trees
 

Kötücül Yazılımların Tanınmasında Evrişimsel Sinir Ağlarının Kullanımı ve Karşılaştırılması

  • 1. Kötücül Yazılımların Tanınmasında Evrişimsel Sinir Ağlarının Kullanımı ve Karşılaştırılması A. Selman Bozkır, A. Oğulcan Çankaya, Murat Aydos Hacettepe Universitesi Bilgisayar Müh. Bölümü Bu çalışma Comodo Inc. tarafından desteklenmektedir.
  • 2. Gündem  Kötücül Yazılım (Malware) ve türleri nedir?  Kötücül Yazılım’da güncel istatistikler  Karşı Önlemler  Yaklaşım - Yöntem  Veri Kümesi – “MaleVis”  Deneysel Sonuçlar  Tartışma ve Sonuç
  • 3. Kötücül Yazılım nedir?  Kötü amaçlı yazılım, bilgisayar virüsü, solucan(virüs), truva atı, fidye virüsü, casus yazılım, reklam destekli yazılım ve diğer zararlı yazılımları oluşturan gruba verilen genel isimdir.  Bu yazılımlar çalıştırılabilir kod, betik, aktif içerik ve diğer farklı yazılım türleri şeklinde ortaya çıkabilir.
  • 4. Kötücül Yazılım Türleri  Bilgisayar virüsü  Bilgisayar solucanı (worm)  Truva atı (Trojan horse)  Arka kapı (backdoor)  Mesaj sağanağı (spam) (Yığın ileti)  Şantaj yazılımı (ransomware)  Kök kullanıcı takımı (rootkit)  Telefon çevirici (dialer)  Klavye dinleyiciler (key logger)  Casus yazılım (spyware)  .. ve diğerleri
  • 5. Sayılarla Kötücül yazılımlar son yıllarda üssel şekilde artmaktadır. Source: safetydetective.com – 2018 trends report
  • 6. Sayılarla Yeni KY üretimi azalmakta, varolanlar değiştirilerek ve çoğaltılarak kullanılıyor. Source: safetydetective.com – 2018 trends report
  • 7. Sayılarla Cep telefonlarında, özellikle Android için KY üretiminde azalış var. Source: safetydetective.com – 2018 trends report
  • 8. Karşı Önlemler – Dinamik Analiz  Dinamik analiz potansiyel zararlı kod bir kum kutusu ya da sanal makine üzerinde çalıştırılarak davranışsal örüntüleri tespit edilerek sınıflama yapılır [2] - Kaynak tüketimi ve hesaplama süresi yüksek - Sanal makine veya kum kutusu ihtiyacı var - Polimorfik (çok biçimli) veya metamorfik (kendi iç kodunu değiştirebilen) zararlılara karşı yüksek doğruluk
  • 9. Karşı Önlemler – Statik Analiz  Statik analiz zararlı kodun çalıştırılmaksızın ihtiva ettiği ikili (binary) dizilimleri, kütüphane çağrıları, opcode (operational code) sıklık dağılımları, akış kontrol çizgeleri gibi örüntüleri keşfetmeyi ve bu örüntüler üzerinden tanımlayıcı bir imza oluşturmayı hedefler [3] - Kaynak tüketimi az, hızlı - Polimorfik, metamorfik zararlılara karşı zaafiyet
  • 10. Yaklaşım  Byte dizilimlerinden 3 kanallı (RGB) imge edilmesi  Yeniden boyutlandırma (224px – 300px)  Modern evrişimsel sinir ağı modelleriyle uçtan uca eğitim ve çıkarım  Eğitim hızı ve doğruluk kıyaslaması
  • 11. Yaklaşım – Kullanılan ESA Türleri  AlexNet  VGG (Vgg 11 – Vgg 16)  Inception (GoogleNet, Inception v3)  Resnet (Resnet 18, Resnet 34, Resnet 50, Resnet 101)  Densenet (Densenet 121, Densenet 169, Densenet 201)
  • 12. Veri Kümesi - MaleVis Akademik ücretsiz: https://web.cs.hacettepe.edu.tr/~selman/malevis/
  • 13. Veri Kümesi - MaleVis  Toplam Familya Sayısı: 25 (Kötücül Yazılım) + 1 (Özgün Yazılım)  Toplam Örnek (Açık küme): 9100 eğitim – 4660 geçerleme imgesi  Toplam Örnek (Kapalı küme) 8750 eğitim, 3750 geçerleme imgesi  Eğt/Test 70% -30% No Sınıf İsmi Kategori Eğitim/Test Örneği Sayıları 1 Win32/Adposhel Adware 350/144 2 Win32/Agent-fyi Trojan 350/120 3 Win32/Allaple.A Worm 350/128 4 Win32/Amonetize Adware 350/147 5 Win32/Androm Backdoor 350/150 6 Win32/AutoRun-PU Worm 350/146 7 Win32/BrowseFox Adware 350/143 8 Win32/Dinwod!rfn Trojan 350/149 9 Win32/Elex Trojan 350/150 10 Win32/Expiro-H Virus 350/150 11 Win32/Fasong Worm 350/150 12 Win32/HackKMS.A Trojan 350/149 13 Win32/Hlux!IK Worm 350/150 14 Win32/Injector Trojan 350/145 15 Win32/InstallCore.C Adware 350/150 16 Win32/MultiPlug Adware 350/149 17 Win32/Neoreklami Adware 350/150 18 Win32/Neshta Virus 350/147 19 Win32/Regrun.A Trojan 350/135 20 Win32/Sality Virus 350/149 21 Win32/Snarasite.D!tr Trojan 350/150 22 Win32/Stantinko Backdoor 350/150 23 VBA/Hilium.A Virus 350/150 24 Win32/VBKrypt Trojan 350/146 25 Win32/Vilsel Trojan 350/146
  • 14. Örnek İmgeler – MaleVis Adposhel HackKMS
  • 15. Deneysel Sonuçlar • Platform: GTX 1060 6GB Hafıza, i7 6700K işlemci, 16 GB DDR4 Ram 1333 Mhz • Rassal ağırlıkla başlama, LR: 0.01, Sönümleme katsayısı: 0.8, Dönem: 60, SGD • En yüksek doğruluk: DenseNet mimarisi - İçlerinde Densenet 121 en hızlısı • Resnet 18 mimarisi görece düşük doğrulukla eğitim ve test sürecinde en etkin Ağ-Mimari Doğruluk (Eğitim) Doğruluk (Geçerleme) Epoch Süreleri (Eğitim/Geçerleme) Toplam Eğitim Süresi Yığın Sayısı AlexNet 98.73% 94.43% 11/2 saniye 13 dakika 128 VGG11 99.99% 96.46% 132/16 saniye 153 dakika 16 VGG16 99.82% 96.10% 242/31 saniye 278 dakika 16 Resnet18 99.99% 97.17% 39/5 saniye 45 dakika 64 Resnet34 99.98% 96.84% 76/9 saniye 84 dakika 48 Resnet50 99.97% 97.03% 119/16 saniye 136 dakika 16 Resnet101 99.97% 97.09% 212/26 saniye 233 dakika 12 Inception (Googlenet) 99.99% 96.38% 42/8 saniye 50 dakika 32 Inception V3 99.53% 96.62% 180/24 saniye 214 dakika 12 Densenet121 99.98% 97.48% 122/16 saniye 138 dakika 12 Densenet169 99.92% 97.48% 169/23 saniye 192 dakika 8 Densenet201 99.98% 97.48% 217/29 saniye 247 dakika 8
  • 16. Tartışma ve Sonuç  Bu çalışmada problem kapalı küme olarak tanımlı bir veri kümesi üzerinde gerçekleştirilmiştir  Problem özelinde modern evrişimsel sinir ağlarında yer alan evrişimsel katman sayısı ve doğruluk arasında doğrusal bir korelasyon gözlemlenmemiştir  DenseNet mimarisi doğruluk noktasında, Resnet18 mimarisi kaynak tüketimi ve verimlilik noktasında en başarılı ESA olarak tespit edilmiştir  Densenet mimarisinin yakaladığı başarı, KY imgelerinden çıkarılan nitelik ve nitelik haritalarından elde edilen bilginin ilk katmanlardan uç katmanlara kadar taşınabilmesinin ve birleştirilebilmesinde yatmaktadır  Gelecek çalışmalarda problem açık küme (open-set) problem olarak kurgulanarak ikili dosyaların zararlı olup olmadığı da tanınmaya çalışılacaktır. Bu bağlamda hem mevcut ağlar hem de çekişmeli ağlardan yararlanılması planlanmaktadır
  • 17. Başvurular  1. "An Undirected Attack Against Critical Infrastructure" (PDF). United States Computer Emergency Readiness Team(Us-cert.gov). 24 Aralık 2016  2. K. Aktas and S. Sen,“UpDroid: Updated Android Malware and Its Familial Classification",in Nordsec'18 2018.  3. L. Nataraj, D. Kirat, B.S. Manjunath, G. Vigna, “SARVAM: Search and RetrieVAl of Malware”, in NGMAD’13, 2013