top of page

DeepSeek'in Yükselişi: Manşetlerin Gözden Kaçırdıkları

  • Yazarın fotoğrafı: mutlunecmettin
    mutlunecmettin
  • 31 Oca
  • 5 dakikada okunur

DeepSeek'in AI modellerinin son zamanlardaki kapsamı, etkileyici kıyaslama performanslarına ve verimlilik kazanımlarına yoğun bir şekilde odaklanmıştır. Bu başarılar tanınmayı hak ederken ve politika çıkarımları taşırken (aşağıda daha fazlası), hesaplama erişimi, ihracat kontrolleri ve AI geliştirme hikayesi birçok raporun öne sürdüğünden daha karmaşıktır. Daha fazla ilgiyi hak eden bazı temel noktalar şunlardır:

  1. Yapay zeka çipleri üzerindeki gerçek ihracat kısıtlamaları ancak Ekim 2023'te başladı ve bu da bunların etkisiz olduğu yönündeki iddiaları erken hale getirdi. DeepSeek , özellikle Ekim 2022'deki orijinal kontrolleri atlatmak için tasarlanmış çipler olan Nvidia H800'lerde eğitim aldı . DeepSeek'in iş yükleri için bu çipler, Amerika Birleşik Devletleri'nde bulunan H100'lere benzer performans gösteriyor. Şu anda mevcut olan ve Çin'e ihraç edilebilen Nvidia'nın en son yapay zeka çipi olan H20, eğitim için daha az performanslı (yine de ele alınması gereken önemli dağıtım yetenekleri sunuyor [1] ).

İhracat kontrolleri, Çin'in yapay zeka ekosistemini, azaltılmış dağıtım kapasiteleri, sınırlı şirket büyümesi ve sentetik eğitim ve kendi kendine oynama yetenekleri üzerindeki kısıtlamalar yoluyla etkileyecektir.

  1. Donanım üzerindeki ihracat kontrolleri zaman gecikmesiyle çalışır ve henüz etki edecek zamanları olmamıştır. [2] Çin hala on binlerce çip içeren kısıtlama öncesi veri merkezleri çalıştırırken, ABD şirketleri yüz binlerce çip içeren veri merkezleri inşa ediyor. Gerçek test, bu veri merkezlerinin yükseltilmesi veya genişletilmesi gerektiğinde ortaya çıkıyor; bu süreç ABD firmaları için daha kolay ancak ABD ihracat kontrolleri altındaki Çinli şirketler için zorlu olacak. Yeni nesil modeller eğitim için 100.000 çip gerektiriyorsa, ihracat kontrolleri Çin sınır modeli gelişimini önemli ölçüde etkileyecektir. Ancak, böyle bir ölçekleme olmasa bile , kontroller Çin'in yapay zeka ekosistemini azaltılmış dağıtım yetenekleri, sınırlı şirket büyümesi ve sentetik eğitim ve kendi kendine oynama yetenekleri üzerindeki kısıtlamalar yoluyla etkileyecektir.

  2. DeepSeek V3'ün daha az hesaplama üzerinde eğitilmiş olması şaşırtıcı değil: makine öğrenimi algoritmaları zamanla her zaman daha ucuz hale geldi ( PDF ) . Ancak DeepSeek gibi daha küçük aktörlerin belirli bir yeteneğe erişmesine izin veren aynı verimlilik kazanımları ("erişim etkisi") muhtemelen diğer şirketlerin daha büyük hesaplama kümelerinde daha güçlü sistemler kurmasına da izin verecektir ("performans etkisi"). DeepSeek'in V3 modelini 200.000 B200 çipi (Nvidia'nın son nesli) ile değil, 2.000 H800 çipi ile eğitmiş olmasından çok memnun olmalıyız.

  3. Zamanlamaları stratejik olabilir, ancak teknoloji gerçektir. Geçtiğimiz hafta Başkan Trump'ın göreve başlama töreni sırasında R1'in piyasaya sürülmesi, ABD politikasında önemli bir anda, eski Bakan Raimondo'nun Çin ziyareti sırasında Huawei'nin ürün lansmanını yansıtan, halkın ABD'nin AI liderliğine olan güvenini sarsmak için tasarlanmış olabilir [3] . Bu potansiyel olarak hesaplanmış PR zamanlaması iki gerçeği gizlememelidir: DeepSeek'in teknik ilerlemesi ve ihracat kontrollerinden kaynaklanan halihazırda ve giderek artan yapısal zorluklar.

  4. İhracat kontrollerinin bireysel eğitim çalışmalarını etkilemesi daha zordur ve tüm bir ekosistemi etkilemeleri daha kolaydır. En önemlisi, en gelişmiş çiplerdeki kısıtlamalar büyük ölçekli AI dağıtımını (yani çok sayıda kullanıcının AI hizmetlerine erişmesine izin verme) ve yetenek gelişimini etkili bir şekilde kısıtlayabilir. AI şirketleri genellikle hesaplamalarının %60-80'ini dağıtıma harcıyordu; bu, hesaplama yoğunluklu akıl yürütme modellerinin yükselişinden önce bile geçerliydi. Hesaplama erişimini kısıtlamak, ÇHC'nin AI maliyetlerini artıracak, yaygın dağıtımı sınırlayacak ve sistem yeteneklerini kısıtlayacaktır. Önemlisi, dağıtım hesaplaması yalnızca kullanıcılara hizmet etmekle ilgili değildir; sentetik eğitim verileri oluşturmak ve model etkileşimleri aracılığıyla yetenek geri bildirim döngülerini etkinleştirmek ve daha iyi modeller oluşturmak, ölçeklemek ve çıkarmak için çok önemlidir. [4]

  5. DeepSeek'in verimlilik kazanımları daha önce önemli bir hesaplamaya erişime sahip olmasından kaynaklanmış olabilir. Sezgiye aykırı olarak, daha az çip kullanmanın yolu (yani, "verimlilik") çok daha fazlasıyla başlamayı gerektirebilir. DeepSeek, Asya'nın ilk 10.000 Nvidia A100 kümesini işletiyordu, bildirildiğine göre 50.000 "Hopper" (Nvidia'nın H100, H800 veya H20'si olabilir) bulunduruyor ve Çinli ve yabancı bulut sağlayıcılarına ek olarak sınırsız erişime sahip (ihracat kontrollü değil). Bu kapsamlı hesaplama erişimi, deneme yanılma yoluyla verimlilik tekniklerini geliştirmek ve modellerini müşterilere sunmak için muhtemelen çok önemliydi. [5] R1 modelleri etkileyici bir verimlilik gösterirken, geliştirilmesi sentetik veri üretimi, damıtılması ve deney için önemli bir hesaplama gerektiriyordu.


  1. ABD ile Çin arasındaki hesaplama açığı—ihracat kontrolleriyle daha da genişledi—DeepSeek'in birincil kısıtlaması olmaya devam ediyor. DeepSeek'in liderliği bir hesaplama dezavantajını açıkça kabul etti . DeepSeek Kurucusu Liang Wenfeng şunları söyledi: "Bu, aynı sonuçları elde etmek için iki kat daha fazla hesaplama gücüne ihtiyacımız olduğu anlamına geliyor. Ek olarak, veri verimliliğinde yaklaşık 2 katlık bir fark var, bu da karşılaştırılabilir sonuçlara ulaşmak için 2 kat daha fazla eğitim verisi ve hesaplama gücüne ihtiyacımız olduğu anlamına geliyor. Bir araya geldiğinde, bu 4 kat daha fazla hesaplama gücü gerektiriyor." Şunu ekledi: "Kısa vadeli fon toplama planlarımız yok. Sorunumuz hiçbir zaman fonlama olmadı; üst düzey çiplere uygulanan ambargo."

  2. Önde gelen ABD şirketleri yeteneklerinin en iyilerini gizli tutuyor, bu da kamu ölçütlerinin AI ilerlemesinin kusurlu bir resmini çizdiği anlamına geliyor. Bazı Çinli firmalar ilerlemelerini açıkça paylaşırken, Anthropic, Google ve OpenAI gibi şirketler önemli özel yeteneklerini sürdürüyor. Bu, kamu bilgilerine dayalı doğrudan karşılaştırmaları eksik kılıyor. DeepSeek'e olan ilgi kısmen açık yaklaşımlarından kaynaklanıyor; Batılı şirketlerin giderek daha kapalı duruşlarının aksine, model ağırlıklarını ve yöntemlerini ayrıntılı olarak paylaşıyorlar. Ancak, açıklığın zorunlu olarak stratejik avantaja dönüşüp dönüşmediği henüz belli değil. [6]

Ne olmuş?

DeepSeek'in başarıları gerçek ve önemlidir. İlerlemelerini sadece propaganda olarak reddeden iddialar hedefi ıskalamaktadır. [7]

DeepSeek'in başarıları gerçek ve önemlidir. İlerlemelerini sadece propaganda olarak reddeden iddialar hedefi ıskalamaktadır.

Artan hesaplama verimliliğinin gerçekliği, AI yeteneklerinin kaçınılmaz olarak dağılacağı anlamına gelir. Kontroller tek başına yeterli değildir: toplumsal dayanıklılığı ve savunmayı güçlendirmeye yönelik eylemlerle eşleştirilmelidir ( PDF ) : AI risklerini belirlemek, değerlendirmek ve ele almak için kurumlar oluşturmak ve rakiplerden gelebilecek potansiyel olarak zararlı AI uygulamalarına karşı sağlam savunmalar oluşturmak. Ancak, ihracat kontrollerinin halihazırda Çin AI gelişimini etkilediğini ve gelecekte daha da güçlü etkilere sahip olabileceğini de kabul etmeliyiz. [8] AI yetenekleri muhtemelen kontrollerden bağımsız olarak dağılacak olsa da (ve ihracat kontrollerinin veya diğer "yetenek müdahalelerinin" yayılmayı tamamen önlemesi her zaman zor olacaktır) teknolojik avantajlarımızı sürdürmek için önemli olmaya devam etmektedir. Kontroller değerli zaman kazandırır, ancak demokrasilerin lider kalmasını ve rakiplere karşı dayanıklı olmasını sağlayan politikalarla tamamlanmaları gerekir.

Dipnotlar

  • [1] Eğitim için kısıtlanmış olsa da H20 çipi, özellikle uzun bağlam çıkarımı gibi bellek yoğun iş yükleri için sınır AI dağıtımı için kontrolsüz ve oldukça yetenekli olmaya devam ediyor. Bu, test zamanı hesaplama, sentetik veri üretimi ve takviyeli öğrenmeye yönelik son eğilimler göz önüne alındığında önemlidir; bunların hepsi hesaplamaya bağlı olmaktan çok belleğe bağlı süreçlerdir. Aralık 2024'te yüksek bant genişliğine sahip bellek ihracatlarına getirilen kısıtlamaların ardından , özellikle dağıtım hesaplaması AI yetenekleri için giderek daha merkezi hale geldikçe, H20'nin sürekli kullanılabilirliği ele alınmalıdır.

  • [2] Unutmayın: tüm bunlar ihracat kontrollerinin mükemmel bir şekilde çalıştığını varsayıyor - ki çalışmıyorlar. Yarı iletken kontrollerinde birçok boşluk gördük ve Çin'e büyük ölçekli çip kaçakçılığıyla ilgili güvenilir raporlar aldık. Difüzyon Çerçevesi bazı boşlukları kapatmaya yardımcı olsa da, uygulama hala önemli bir zorluk olmaya devam ediyor.

  • [3] R1 önizlemesinin kıyaslama sonuçları Kasım ayından bu yana kamuoyuna açıklanmıştı.

  • [4] Örneğin, dağıtım hesaplamasının yalnızca kullanıcılara hizmet etmenin ötesinde önemli bir rol oynadığını öne süren bu son Gwern yorumuna bakın . OpenAI'nin o1'i gibi modeller, gelecekteki modeller için yüksek kaliteli eğitim verileri üretmek için kullanılır ve dağıtım yeteneklerinin doğrudan geliştirme yeteneklerini ve etkinliğini artırdığı bir geri bildirim döngüsü oluşturur.

  • [5] Diğer AI şirketlerindeki son kullanım artışları, daha büyük hesaplama kaynaklarına rağmen hizmet kesintilerine yol açtı. DeepSeek'in benzer dalgalanmaları idare etme yeteneği henüz test edilmedi ve sınırlı hesaplama ile zorluklarla karşılaşacaklar. (Sam Altman, şu anda ChatGPT Pro planında para kaybettiklerini bile iddia etti .)

  • [6] Ve bu konuda daha fazla tartışma ve analiz görmek isterim.

  • [7] Bildirilen eğitim maliyetleri, tarihsel algoritmik verimlilik eğilimleri göz önüne alındığında benzeri görülmemiş değildir . Ancak, karşılaştırmalar dikkatli bir bağlam gerektirir; DeepSeek yalnızca son eğitim öncesi çalıştırma maliyetlerini bildirir ve personel zamanı, ön deneyler, veri edinimi ve altyapı kurulumu gibi önemli giderleri hariç tutar. Farklı maliyet muhasebesi yöntemlerinin yanıltıcı karşılaştırmalara nasıl yol açabileceğine ilişkin bir tartışma için bu gönderiye bakın.

  • [8] Modellerin kendileri birçok kişinin varsaydığı stratejik hendek olmasa da , hesaplamanın ulusal güvenlik üzerindeki etkisi kullanım durumuna göre değişir. Büyük ölçekli dağıtım gerektiren kullanım durumları ( kitlesel gözetim gibi ) için hesaplama sınırlamaları önemli engeller yaratabilir. Tek kullanıcılı uygulamalar için kontrollerin etkisi daha azdır. Hesaplama erişimi ile ulusal güvenlik yetenekleri arasındaki ilişki, model yetenekleri daha kolay çoğaltılabilir hale gelse bile karmaşıklığını korur.

  • LinkedIn'de paylaş

  • Twitter'da paylaş


 
 
 

Son Yazılar

Hepsini Gör
Dünyadan

CFR'nin Günlük Haber Özetine hoş geldiniz. Bugün ABD Başkanı Donald Trump'ın İran'a karşı olası askeri eylemlere hazırlığını ve......

 
 
 
13 ton

Fordow'u yok edecek silah sadece Washington'da: 13 tonluk bombaları getirdiler, İran'a 45 bin özel asker ABD Başkanı Donald Trump, Orta...

 
 
 

Comments


©2023 copyright by MD all rights reserved

bottom of page