Araştırmacılar, yapay zeka üretimi içeriğin insan üretimi içerikten ayrıştırılması için adımlar atılması gerektiğini söylüyor
Diğer yapay zekalardan elde edilen verilerle eğitilen gelecek nesil yapay zeka sohbet botlarının internette giderek artan bir anlamsızlık sarmalına yol açabileceği, yeni bir araştırmada ortaya kondu.
ChatGPT gibi büyük dil modelleri (large language models/LLM'ler) internette hızla yaygınlaşırken, birçok kullanıcı yapay zekayla oluşturulan metin ve görsellerden meydana gelen yepyeni bir ekosistem yaratmak için bu teknolojiyi benimsedi.
Ancak henüz hakem denetiminden geçmemiş yeni bir çalışmaya göre, bu tür yapay zeka sistemlerinden elde edilen çıktı verilerinin sonraki nesil yapay zeka modellerinin de eğitiminde kullanılması, "geri dönüşü olmayan bozukluklara" ve çöp içeriğe sebebiyet verebilir.
ChatGPT gibi yapay zeka modelleri, şimdiye kadar çoğunluğu insan üretimi olan internet platformlarından edinilen muazzam miktarlarda veriyle eğitiliyor.
Ancak yapay zekanın bu tür modelleri kullanarak ürettiği veri internette giderek daha fazla yer kaplıyor.
Aralarında Birleşik Krallık'taki Oxford Üniversitesi'nden isimlerin de bulunduğu araştırmacılar, yapay zekaların art arda birkaç nesil boyunca birbirini eğitmesi halinde ne olacağını anlamaya çalıştı.
Araştırmacılar, LLM'lerin internette içerik yayımlamak için yaygın ölçekte kullanımının "LLM'leri eğitmek için toplanan veriyi kirleteceğini" ve "model çöküşüne" yol açacağını buldu.
Bilim insanları, ön baskısı arXiv'de yayımlanan çalışmada "Diğer modellerin ürettiği veriden öğrenimin model çöküşüne yol açabileceğini keşfettik. Bu, modellerin zaman içinde temel gerçek veri dağılımını unuttuğu bozucu bir süreç" diye yazdı.
Yeni bulgular, LLM'lerin eğitiminde bir "ilk hamle avantajı" bulunduğunu ortaya koyuyor.
Bilim insanları bu değişimi, yapay zeka modelleri insan bestecilerin yarattığı ve insan müzisyenlerin çaldığı müzik üzerinde eğitildiğinde yaşananlara benzetiyor. Elde edilen yapay zeka çıktısı daha sonra diğer modelleri eğitiyor ve bu durum müzik kalitesinin düşmesine yol açıyor.
Sonraki nesil yapay zeka modelleri, kaynaklarında daha düşük kalitede veriyle karşılaşmaları olasılığı sebebiyle, bilim insanlarının "veri zehirlenmesi" adını verdiği bir süreçte bilgiyi hatalı bilgi ekleyerek yanlış yorumlamaya başlayabilir.
Araştırmacılar, veri zehirlenmesi yaşanabilecek ölçeğin LLM'lerin devreye girmesi sonrası büyük çapta değiştiği uyarısında bulundu.
Bilim insanları, orijinal veri korunmuş bile olsa, sadece birkaç veri yinelemesinin esaslı bozulmalara yol açabileceğini söyledi.
Bu da zaman içinde hataların artmasına yol açarak, üretilen verilerden öğrenen modellerin gerçekliği yanlış anlamasına yol açabilir.
Araştırmacılar, "Bu da modelin temeldeki öğrenme görevini yanlış algılamasına neden oluyor" dedi.
Bilim insanları, insan yapımı orijinal verinin gelecek yapay zeka eğitimleri için korunması çabalarının yanı sıra yapay zeka üretimi içeriğin insan üretimi içerikten ayrıştırılması için adımlar atılması gerektiği uyarısında bulundu.
Araştırmacılar çalışmada, "Öğrenmenin uzun bir dönem sürdürülebilmesini sağlamak için, orijinal veri kaynağına erişimin korunması ve LLM'lerin oluşturmadığı ek verilerin zaman içinde mevcudiyetini yitirmemesi gerekiyor" diye yazdı.
Aksi takdirde, internette bu teknolojinin yaygın benimsenmesi öncesi taranmış veya büyük ölçekte insanlarca üretilmiş verilere doğrudan erişim olmaksızın LLM'lerin yeni sürümlerini eğitmek giderek daha zor hale gelebilir.
Independent Türkçe