Faster R-CNN Derin Öğrenme Modeli

fav gif
Kaydet
Alıntıla
kure star outline
ChatGPT Image 9 Mar 2026 14_38_07.png

Alan(lar)

Bilgisayarlı görü (Computer Vision)

Geliştirici(ler)

Jian Sun

Ross Girshick

Kaiming He

Shaoqing Ren

Temel Kullanım Alanları

Güvenlik ve gözetim sistemleri

Video analiz sistemleri

Otonom araç algılama sistemleri

Görüntü analizi

Nesne tespiti

Başlıca Veri Kümeleri

MS COCO

ILSVRC

PASCAL VOC

Model Ailesi

R-CNN tabanlı nesne tespit modelleri

Model Türü

Derin öğrenme tabanlı nesne tespit modeli

Faster R-CNN, görüntülerde nesne tespiti gerçekleştirmek amacıyla Shaoqing Ren, Kaiming He, Ross Girshick ve Jian Sun tarafından geliştirilmiş iki aşamalı bir derin öğrenme mimarisidir. Model, nesne aday bölgelerinin belirlenmesi ve bu bölgelerin sınıflandırılması süreçlerini tek bir evrişimli sinir ağı içerisinde birleştirir. Bu yaklaşım, bölge önerisi üretimini ağ içinde öğrenilen bir işlem hâline getirerek önceki yöntemlere kıyasla daha bütünleşik bir yapı sunar. Faster R-CNN, R-CNN ve Fast R-CNN yaklaşımlarının devamı niteliğinde geliştirilmiş olup nesne tespiti sürecinde bölge önerisi üretiminin doğrudan model tarafından gerçekleştirilmesini sağlar.

Geliştirilme Bağlamı

Bölge tabanlı nesne tespiti yöntemleri iki temel aşamadan oluşur: aday bölgelerin belirlenmesi ve bu bölgelerin sınıflandırılması. R-CNN yaklaşımında her aday bölge ayrı ayrı işlenmekteydi ve bu durum yüksek hesaplama maliyetine neden olmaktaydı.


Fast R-CNN yöntemi, görüntü üzerinden tek seferde özellik çıkarımı yaparak bu maliyeti azaltmış ve RoI Pooling mekanizması ile bölge bazlı değerlendirme gerçekleştirmiştir. Ancak bu yöntem hâlâ haricî bölge önerisi algoritmalarına bağımlı kalmıştır. Faster R-CNN, bölge önerisi üretimini doğrudan ağ içerisinde öğrenilen bir süreç hâline getirerek bu bağımlılığı ortadan kaldırmıştır.

Faster R-CNN mimarisinin işlem akışını gösteren şema. Görselde özellik haritası üretimi, Region Proposal Network, RoI Pooling ve nesne tespit aşamaları yer almaktadır. (Yapay zeka ile oluşturulmuştur)

Mimari ve Çalışma Akışı

Faster R-CNN mimarisi, ortak bir evrişimsel özellik çıkarım ağı, Region Proposal Network ve nesne tespit ağından oluşur. Modelin çalışma süreci bir işlem hattı şeklinde ilerler. İlk aşamada girdi görüntü evrişimli sinir ağı tarafından işlenerek bir özellik haritasına dönüştürülür. Bu özellik haritası hem bölge önerisi üretimi hem de nesne sınıflandırması için ortak olarak kullanılır. Bu ortak yapı, aynı görüntü için tekrar eden özellik çıkarımını ortadan kaldırarak hesaplama maliyetini düşürür. Region Proposal Network, bu özellik haritası üzerinde kayan bir yapı olarak çalışır ve her konum için çok sayıda anchor üretir. Bu anchorlar üzerinden nesne/arka plan sınıflandırması ve sınır kutusu koordinatları tahmin edilir. Üretilen aday bölgeler RoI Pooling işlemi ile sabit boyutlu özellik vektörlerine dönüştürülür. Bu işlem, farklı boyutlardaki bölgelerin aynı sınıflandırma katmanına girdi olarak verilmesini sağlar. Son aşamada nesne tespit ağı, bu bölgeleri sınıflandırır ve bounding box regresyonu ile konumlarını daha hassas şekilde düzenler.

Teknik Bileşenler

Faster R-CNN mimarisinde anchor adı verilen referans kutular kullanılır. Her özellik haritası konumunda farklı ölçek ve en-boy oranlarına sahip anchorlar tanımlanır ve bu yapı farklı boyutlardaki nesnelerin tespit edilmesini mümkün kılar. Anchorların gerçek nesne kutularıyla örtüşme oranı Intersection over Union metriği ile ölçülür. Genellikle IoU ≥ 0.7 olan anchorlar pozitif, IoU ≤ 0.3 olan anchorlar negatif olarak etiketlenir. Bu eşikler arasında kalan anchorlar eğitim sürecinde dikkate alınmaz. Ayrıca her gerçek nesne için en yüksek IoU değerine sahip anchor pozitif olarak atanır.


Model tarafından üretilen aday kutular arasında aynı nesneye ait birden fazla tahmin bulunabilir. Bu durum Non-Maximum Suppression algoritması ile giderilir. Bu algoritma, en yüksek güven skoruna sahip tahmini koruyarak diğerlerini eler. Bounding box regresyonu, anchor kutularının merkez koordinatları ve boyut parametreleri üzerinden gerçek nesne sınırlarına yaklaşmasını sağlayacak şekilde optimize edilir.

Eğitim Süreci

Faster R-CNN modeli, sınıflandırma ve regresyon görevlerini birlikte optimize eden çok görevli bir kayıp fonksiyonu ile eğitilir. Toplam kayıp fonksiyonu aşağıdaki şekilde ifade edilir:



Bu ifadede sınıflandırma kaybı, anchor’ın nesne içerip içermediğini belirlerken; regresyon kaybı, sınır kutusu parametrelerinin gerçek değerlere yaklaşmasını sağlar. Regresyon bileşeni yalnızca pozitif anchorlar için hesaplanır. Regresyon kaybında kullanılan Smooth L1 fonksiyonu şu şekilde tanımlanır:



Bu fonksiyon, küçük hatalarda karesel, büyük hatalarda doğrusal davranarak öğrenme sürecinde daha kararlı bir optimizasyon sağlar ve klasik L2 kaybına göre aykırı değerlere karşı daha dayanıklıdır. Anchor etiketleme sürecinde, IoU eşiklerine göre pozitif ve negatif örnekler belirlenir. Bunun yanı sıra, her gerçek nesne için en yüksek örtüşmeye sahip anchor pozitif olarak atanır ve belirli aralıkta kalan anchorlar eğitim dışı bırakılır. Bu yaklaşım, örnek dengesini sağlayarak modelin öğrenme sürecini düzenler. Eğitim süreci, Region Proposal Network ve nesne tespit ağının dönüşümlü olarak eğitilmesi şeklinde gerçekleştirilebilir. Ayrıca tüm ağın tek aşamada optimize edilebildiği yaklaşık ortak eğitim yöntemi de tanımlanmıştır.

Performans ve Değerlendirme

Faster R-CNN modeli, PASCAL VOC ve MS COCO veri kümeleri üzerinde değerlendirilmektedir. Model performansı accuracy, precision ve mean Average Precision (mAP) gibi metriklerle ölçülür. mAP metriği, farklı IoU eşiklerinde elde edilen precision değerlerinin ortalaması alınarak hesaplanır. PASCAL VOC veri kümesinde genellikle sabit bir IoU eşiği kullanılırken, MS COCO veri kümesinde birden fazla IoU eşiği üzerinden ortalama alınarak daha kapsamlı bir değerlendirme yapılır.

Uydu görüntüsü üzerinde Faster R-CNN tabanlı nesne tespiti örneği. Model tarafından tespit edilen uçaklar sınır kutuları (bounding box) ile işaretlenmiştir. (Yapay zeka ile oluşturulmuştur)

Kullanım Alanları

Faster R-CNN, genel nesne tespiti problemlerinde kullanılan bir mimari olup farklı türde görüntülerde nesnelerin belirlenmesi amacıyla kullanılmaktadır. Bu kapsamda model, otonom sürüş sistemleri, video analizi ve çeşitli bilgisayarlı görü uygulamalarında nesne tespiti görevlerini gerçekleştirmek üzere kullanılmaktadır.


Kaynakça

Girshick, Ross. “Fast R-CNN.” arXiv preprint arXiv:1504.08083 (2015). Erişim tarihi: 09/03/2026. https://arxiv.org/pdf/1504.08083

Li, Fei-Fei, Justin Johnson, and Serena Yeung. Lecture 14: Object Detection and Segmentation. CS231n: Convolutional Neural Networks for Visual Recognition, Stanford University, 2020. Erişim tarihi: 09/03/2026. https://cs231n.stanford.edu/slides/2020/lecture_14.pdf

PyTorch. “Smooth L1 Loss.” Erişim tarihi: 09/03/2026. https://pytorch.org/docs/stable/generated/torch.nn.SmoothL1Loss.html

Ren, Shaoqing, Kaiming He, Ross Girshick ve Jian Sun. “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.” Advances in Neural Information Processing Systems 28 (2015): 91–99. Erişim tarihi: 09/03/2026. https://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf

Ren, Shaoqing, Kaiming He, Ross Girshick ve Jian Sun. “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.” arXiv preprint arXiv:1506.01497 (2015). Erişim tarihi: 09/03/2026. https://arxiv.org/pdf/1506.01497

Sen de Değerlendir!

0 Değerlendirme

Yazar Bilgileri

Avatar
Yazarİpek Özşaşılar13 Mart 2026 13:50

Etiketler

Tartışmalar

Henüz Tartışma Girilmemiştir

"Faster R-CNN Derin Öğrenme Modeli" maddesi için tartışma başlatın

Tartışmaları Görüntüle

İçindekiler

  • Geliştirilme Bağlamı

  • Mimari ve Çalışma Akışı

  • Teknik Bileşenler

  • Eğitim Süreci

  • Performans ve Değerlendirme

  • Kullanım Alanları

Bu madde yapay zeka desteği ile üretilmiştir.

KÜRE'ye Sor