Alan(lar) | Bilgisayarlı görü (Computer Vision) | ||||||||
|---|---|---|---|---|---|---|---|---|---|
Geliştirici(ler) | Jian Sun Ross Girshick Kaiming He Shaoqing Ren | ||||||||
Temel Kullanım Alanları | Güvenlik ve gözetim sistemleri Video analiz sistemleri Otonom araç algılama sistemleri Görüntü analizi Nesne tespiti | ||||||||
Başlıca Veri Kümeleri | MS COCO ILSVRC PASCAL VOC | ||||||||
Model Ailesi | R-CNN tabanlı nesne tespit modelleri | ||||||||
Model Türü | Derin öğrenme tabanlı nesne tespit modeli | ||||||||
Faster R-CNN, görüntülerde nesne tespiti gerçekleştirmek amacıyla Shaoqing Ren, Kaiming He, Ross Girshick ve Jian Sun tarafından geliştirilmiş iki aşamalı bir derin öğrenme mimarisidir. Model, nesne aday bölgelerinin belirlenmesi ve bu bölgelerin sınıflandırılması süreçlerini tek bir evrişimli sinir ağı içerisinde birleştirir. Bu yaklaşım, bölge önerisi üretimini ağ içinde öğrenilen bir işlem hâline getirerek önceki yöntemlere kıyasla daha bütünleşik bir yapı sunar. Faster R-CNN, R-CNN ve Fast R-CNN yaklaşımlarının devamı niteliğinde geliştirilmiş olup nesne tespiti sürecinde bölge önerisi üretiminin doğrudan model tarafından gerçekleştirilmesini sağlar.
Bölge tabanlı nesne tespiti yöntemleri iki temel aşamadan oluşur: aday bölgelerin belirlenmesi ve bu bölgelerin sınıflandırılması. R-CNN yaklaşımında her aday bölge ayrı ayrı işlenmekteydi ve bu durum yüksek hesaplama maliyetine neden olmaktaydı.
Fast R-CNN yöntemi, görüntü üzerinden tek seferde özellik çıkarımı yaparak bu maliyeti azaltmış ve RoI Pooling mekanizması ile bölge bazlı değerlendirme gerçekleştirmiştir. Ancak bu yöntem hâlâ haricî bölge önerisi algoritmalarına bağımlı kalmıştır. Faster R-CNN, bölge önerisi üretimini doğrudan ağ içerisinde öğrenilen bir süreç hâline getirerek bu bağımlılığı ortadan kaldırmıştır.

Faster R-CNN mimarisinin işlem akışını gösteren şema. Görselde özellik haritası üretimi, Region Proposal Network, RoI Pooling ve nesne tespit aşamaları yer almaktadır. (Yapay zeka ile oluşturulmuştur)
Faster R-CNN mimarisi, ortak bir evrişimsel özellik çıkarım ağı, Region Proposal Network ve nesne tespit ağından oluşur. Modelin çalışma süreci bir işlem hattı şeklinde ilerler. İlk aşamada girdi görüntü evrişimli sinir ağı tarafından işlenerek bir özellik haritasına dönüştürülür. Bu özellik haritası hem bölge önerisi üretimi hem de nesne sınıflandırması için ortak olarak kullanılır. Bu ortak yapı, aynı görüntü için tekrar eden özellik çıkarımını ortadan kaldırarak hesaplama maliyetini düşürür. Region Proposal Network, bu özellik haritası üzerinde kayan bir yapı olarak çalışır ve her konum için çok sayıda anchor üretir. Bu anchorlar üzerinden nesne/arka plan sınıflandırması ve sınır kutusu koordinatları tahmin edilir. Üretilen aday bölgeler RoI Pooling işlemi ile sabit boyutlu özellik vektörlerine dönüştürülür. Bu işlem, farklı boyutlardaki bölgelerin aynı sınıflandırma katmanına girdi olarak verilmesini sağlar. Son aşamada nesne tespit ağı, bu bölgeleri sınıflandırır ve bounding box regresyonu ile konumlarını daha hassas şekilde düzenler.
Faster R-CNN mimarisinde anchor adı verilen referans kutular kullanılır. Her özellik haritası konumunda farklı ölçek ve en-boy oranlarına sahip anchorlar tanımlanır ve bu yapı farklı boyutlardaki nesnelerin tespit edilmesini mümkün kılar. Anchorların gerçek nesne kutularıyla örtüşme oranı Intersection over Union metriği ile ölçülür. Genellikle IoU ≥ 0.7 olan anchorlar pozitif, IoU ≤ 0.3 olan anchorlar negatif olarak etiketlenir. Bu eşikler arasında kalan anchorlar eğitim sürecinde dikkate alınmaz. Ayrıca her gerçek nesne için en yüksek IoU değerine sahip anchor pozitif olarak atanır.
Model tarafından üretilen aday kutular arasında aynı nesneye ait birden fazla tahmin bulunabilir. Bu durum Non-Maximum Suppression algoritması ile giderilir. Bu algoritma, en yüksek güven skoruna sahip tahmini koruyarak diğerlerini eler. Bounding box regresyonu, anchor kutularının merkez koordinatları ve boyut parametreleri üzerinden gerçek nesne sınırlarına yaklaşmasını sağlayacak şekilde optimize edilir.
Faster R-CNN modeli, sınıflandırma ve regresyon görevlerini birlikte optimize eden çok görevli bir kayıp fonksiyonu ile eğitilir. Toplam kayıp fonksiyonu aşağıdaki şekilde ifade edilir:
Bu ifadede sınıflandırma kaybı, anchor’ın nesne içerip içermediğini belirlerken; regresyon kaybı, sınır kutusu parametrelerinin gerçek değerlere yaklaşmasını sağlar. Regresyon bileşeni yalnızca pozitif anchorlar için hesaplanır. Regresyon kaybında kullanılan Smooth L1 fonksiyonu şu şekilde tanımlanır:
Bu fonksiyon, küçük hatalarda karesel, büyük hatalarda doğrusal davranarak öğrenme sürecinde daha kararlı bir optimizasyon sağlar ve klasik L2 kaybına göre aykırı değerlere karşı daha dayanıklıdır. Anchor etiketleme sürecinde, IoU eşiklerine göre pozitif ve negatif örnekler belirlenir. Bunun yanı sıra, her gerçek nesne için en yüksek örtüşmeye sahip anchor pozitif olarak atanır ve belirli aralıkta kalan anchorlar eğitim dışı bırakılır. Bu yaklaşım, örnek dengesini sağlayarak modelin öğrenme sürecini düzenler. Eğitim süreci, Region Proposal Network ve nesne tespit ağının dönüşümlü olarak eğitilmesi şeklinde gerçekleştirilebilir. Ayrıca tüm ağın tek aşamada optimize edilebildiği yaklaşık ortak eğitim yöntemi de tanımlanmıştır.
Faster R-CNN modeli, PASCAL VOC ve MS COCO veri kümeleri üzerinde değerlendirilmektedir. Model performansı accuracy, precision ve mean Average Precision (mAP) gibi metriklerle ölçülür. mAP metriği, farklı IoU eşiklerinde elde edilen precision değerlerinin ortalaması alınarak hesaplanır. PASCAL VOC veri kümesinde genellikle sabit bir IoU eşiği kullanılırken, MS COCO veri kümesinde birden fazla IoU eşiği üzerinden ortalama alınarak daha kapsamlı bir değerlendirme yapılır.

Uydu görüntüsü üzerinde Faster R-CNN tabanlı nesne tespiti örneği. Model tarafından tespit edilen uçaklar sınır kutuları (bounding box) ile işaretlenmiştir. (Yapay zeka ile oluşturulmuştur)
Faster R-CNN, genel nesne tespiti problemlerinde kullanılan bir mimari olup farklı türde görüntülerde nesnelerin belirlenmesi amacıyla kullanılmaktadır. Bu kapsamda model, otonom sürüş sistemleri, video analizi ve çeşitli bilgisayarlı görü uygulamalarında nesne tespiti görevlerini gerçekleştirmek üzere kullanılmaktadır.
Girshick, Ross. “Fast R-CNN.” arXiv preprint arXiv:1504.08083 (2015). Erişim tarihi: 09/03/2026. https://arxiv.org/pdf/1504.08083
Li, Fei-Fei, Justin Johnson, and Serena Yeung. Lecture 14: Object Detection and Segmentation. CS231n: Convolutional Neural Networks for Visual Recognition, Stanford University, 2020. Erişim tarihi: 09/03/2026. https://cs231n.stanford.edu/slides/2020/lecture_14.pdf
PyTorch. “Smooth L1 Loss.” Erişim tarihi: 09/03/2026. https://pytorch.org/docs/stable/generated/torch.nn.SmoothL1Loss.html
Ren, Shaoqing, Kaiming He, Ross Girshick ve Jian Sun. “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.” Advances in Neural Information Processing Systems 28 (2015): 91–99. Erişim tarihi: 09/03/2026. https://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf
Ren, Shaoqing, Kaiming He, Ross Girshick ve Jian Sun. “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.” arXiv preprint arXiv:1506.01497 (2015). Erişim tarihi: 09/03/2026. https://arxiv.org/pdf/1506.01497
Alan(lar) | Bilgisayarlı görü (Computer Vision) | ||||||||
|---|---|---|---|---|---|---|---|---|---|
Geliştirici(ler) | Jian Sun Ross Girshick Kaiming He Shaoqing Ren | ||||||||
Temel Kullanım Alanları | Güvenlik ve gözetim sistemleri Video analiz sistemleri Otonom araç algılama sistemleri Görüntü analizi Nesne tespiti | ||||||||
Başlıca Veri Kümeleri | MS COCO ILSVRC PASCAL VOC | ||||||||
Model Ailesi | R-CNN tabanlı nesne tespit modelleri | ||||||||
Model Türü | Derin öğrenme tabanlı nesne tespit modeli | ||||||||
Henüz Tartışma Girilmemiştir
"Faster R-CNN Derin Öğrenme Modeli" maddesi için tartışma başlatın
Geliştirilme Bağlamı
Mimari ve Çalışma Akışı
Teknik Bileşenler
Eğitim Süreci
Performans ve Değerlendirme
Kullanım Alanları
Bu madde yapay zeka desteği ile üretilmiştir.