Yıl(Sayısal) | 2018 | ||||||||
|---|---|---|---|---|---|---|---|---|---|
Avantaj(lar) | Düşük Bellek Kullanımı Adaptif Öğrenme Oranı | ||||||||
Adafactor, Google tarafından geliştirilen ve özellikle büyük ölçekli dil modelleri gibi hafıza tüketimi yüksek modeller için tasarlanmış, verimli ve düşük bellekli bir optimizasyon algoritmasıdır. İlk olarak 2018 yılında "Adafactor: Adaptive Learning Rates with Sublinear Memory Cost" başlıklı çalışmada tanıtılmıştır. Adafactor, Adam algoritmasına benzer şekilde moment temelli güncellemeler yapar ancak ikincil moment tahminlerini daha az bellek kullanarak hesaplar ve böylece büyük modellerin eğitimine olanak tanır.
Adafactor’ın en önemli özelliği, ikinci moment vektörünü tam matris olarak tutmak yerine satır ve sütunların ortalamalarını ayrı ayrı saklamasıdır. Bu yaklaşım, özellikle yüksek boyutlu tensörlerde bellek tüketimini karekök oranında azaltır. Örneğin, boyutunda bir parametre matrisinde yerine yalnızca adet değer saklanır.
Adam algoritmasındaki gibi Adafactor da gradyanların ilk momenti (ortalama değeri) ile ikinci momentini (kareler ortalaması) kullanır. Ancak ikinci moment şöyle hesaplanır:
Parametre matrisi için:
Bu değerler kullanılarak yaklaşık kare norm matris elde edilir:
Öğrenme oranı ve normalleştirme ile parametre güncellenir:
Adafactor, varsayılan olarak mutlak öğrenme oranı yerine göreli öğrenme oranı kullanır. Böylece büyük modeller için sabit değerler ayarlamadan otomatik öğrenme oranı kontrolü sağlanır.

Adafactorün (4,4) noktası için adım adım optimizasyon süreci görselleştirildi. (
Adafactor, parametre matrisinin satır ve sütun boyutlarında ayrı moment tahminleri kullanarak bellek kullanımını azaltır.
Noam Shazeer, and Mitchell Stern. 2018. “Adafactor: Adaptive Learning Rates with Sublinear Memory Cost.” ArXiv (Cornell University), April. https://doi.org/10.48550/arxiv.1804.04235.
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” ArXiv.org. December 5, 2017. https://doi.org/10.48550/arXiv.1706.03762.
Yıl(Sayısal) | 2018 | ||||||||
|---|---|---|---|---|---|---|---|---|---|
Avantaj(lar) | Düşük Bellek Kullanımı Adaptif Öğrenme Oranı | ||||||||
Henüz Tartışma Girilmemiştir
"Adafactor" maddesi için tartışma başlatın
Adafactor Optimizasyon Algoritması
Bellek Verimliliği
Güncelleme Mekanizması
Özellikleri
Adaptif Öğrenme Oranı
Bellek Kullanımı
Avantajları
Dezavantajları
Kullanım Alanları
Bu madde yapay zeka desteği ile üretilmiştir.