Pazartesi, Ekim 13, 2008

GOOGLE : 10 YILDA 1 TRİLYON SAYFA


Bugün Google da dahil hiç bir arama motoru indeksledikleri web sayfalarının içindeki kelimelerin semantik düzeyden ne anlama geldiklerini bilmemektedir. Bu tıpkı bilmediğiniz bir lisanda yazılmış metinlere bakmaya benzer. Metnin ne anlama geldiğini bilmezsiniz ama aynı işaretlerin aynı şeyi ifade ettiğini kolaylıkla anlayabilirsiniz.


Google 10. yaşını kutluyor. Bu aralar google.com sayfasına giderseniz Google’ın geçen bu on yıllık tarihçesinin kilometre-taşlarını yıl yıl görebilirsiniz. Onuncu yılında Google’ın internet üzerinde yaptığı tarama sonucunda indekslemiş olduğu toplam web sayfa sayısının 1 trilyona ulaştığı da yine bu tarihçenin sonlarına doğru yer alıyor.

Uzmanların tam “arama motoru savaşları bitti; kazanan yahoo” diye açıkladıkları bir sırada (90ların ikinci yarısı) sislerin arasından çıkıp gelen iki genç tüm resmi alt üst etti. Mücadele yeniden başladı ancak bu hiç de birinci dönemdeki kanlı savaşlara benzemiyordu. Google en güçlü rakibi olan Yahoo’ya bile daha ilk günden itibaren öyle bir fark attı ki ikinci arama motoru savaşları neredeyse kansız bir şekilde sona erdi.

Bugün pek çok kişi bilgisayarını açıp da internete bir şey aramak ya da araştırmak için giriyorsa ilk gittiği sayfa Google.com.

Şüphesiz Google’un bu başarısının ardında yatan temel öge arama modelinin liberalliği. Arama sürecinin en kritik iki ögesi doğru sayfaların bulunması ile listede ilk çıkacak sayfaların hangi sırada yer alacağıdır. Google’dan önce bu ikinci ögeyi oluşturan listede üst sıralarda yer almak daha ziyade arama motoru dünyasının en değerli ürünü olarak pazarlanıyordu. Parayı veren adını üste yazdırabiliyordu.

Google ile birlikte bu listenin oluşumu belli bir mantığa göre sistematiğe bağlandı. Bu mantık ise bugün yaygın bir şekilde Web 2.0 diye adlandırılan akımın temelinde yer alan mentalite ile aynı aslında: Yani listeyi kullanıcıların yapmasını sağlamak!

Google arama metodolojisinde bu durum, bir arama yapıldığında listelenecek web sayfalarının sırasının, aynı aramanın daha önce yapıldığı durumlarda en çok hangi web sayfalarına gidildiğine bakılarak oluşturulması. “ODTÜ” diye yapılan aramalar sonucunda kullanıcılar en çok http://www.odtu.edu.tr/ (ve Ingilizcesi olan http://www.metu.edu.tr/) sitesine gitmiş olduklarından dolayıdır ki bugün siz de google’a gidip odtü diye arama yaparsanız ilk sırada ODTÜ’nün bu web siteleri gelecektir.

Web 2.0 diye adlandırılan içinde bulunduğumuz dönemde bu mentalite web sitelerinin içeriğine taşındı. Öyle ki web sitelerinin içeriği artık o sitenin yöneticileri tarafından değil, doğrudan kullanıcı tarafından doldurulmakta. Örnek olarak bugün Türkiye hariç dünyanın diğer ülkelerinden erişilen youtube.com sitesinin devasa video klip içeriği, o sitenin sahipleri ya da personeli tarafından değil kayıtlı kullanıcıları tarafından siteye yüklenmekte.

Arama motoru dünyasında yukarıda altını çizdiğim iki ögeden ilki bugün hala sorunlu durumunu koruyor. Yani yapılan bir aramada arzu edilen doğru web sitelerinin listelenebilmesinin sağlanması. Doğruluk yanlışlık olgusu belki iki düzeyde incelenebilir. Birinci seviyedeki temel hatalı durum bugün aşılmış durumdadır. Yani ne google ne yahoo ne de başka bir arama motoru siz “bugün tv’de ne var” diye aradığınızda Paraguay’daki seçimlerle ilgili bir web sayfasını listelemez.

Öte yandan yaptığınız arama ya da araştırma çok spesifik değilse, bu durumda ekranda listelenecek sayfalar içinde sizin asıl aradıklarınızı ayıklamak sorun yaratmaya bugün de devam etmekte. Sevdiğim müzisyenlerden Fish’i örnek olarak ele alalım. Marillion topluluğunun eski solisti olan şov dünyasında kendisine Fish adını takmış olan Derek William Dick ile ilgili Google’da bir arama yaptığınızda karşınıza müzisyen Fish ile ilgili web sayfalarından çok (fish kelimesi İngilizce’de balık anlamına geldiğinden) balıklarla ilgili web siteleri listelenecektir.

Bugün Google da dahil hiç bir arama motoru indeksledikleri web sayfalarının içindeki kelimelerin semantik düzeyden ne anlama geldiklerini bilmemektedir çünkü. Bu tıpkı bilmediğiniz bir lisanda yazılmış metinlere bakmaya benzer. Metnin ne anlama geldiğini bilmezsiniz ama aynı işaretlerin aynı şeyi ifade ettiğini kolaylıkla anlayabilirsiniz.

Arama motorları da benzer bir körlükte çalışır. Fish diye aradığınızda içinde “fish” kelimesi yer alan tüm sayfalar en popülerinden başlayarak sıralanır.

Webin mucidi Sir Tim Berners Lee’nin başını çektiği bir grup internet öncüsü son yıllarda bu konuya odaklanmış durumdalar. Semantik Web adını verdikleri bu dalga belki de web’in üçüncü kuşağını oluşturacak. Ben de o zaman şarkıcı Fish diye aradığımda akvaryumlarla ilgili web sayfalarını ayıklamak zorunda kalmayacağım.

Doğum günün kutlu olsun Google! Bakalım on yıl sonra herkes nerede olacak...

Cumhuriyet Bilim Teknoloji - Ooof Off Line Köşesi - 10 10 2008

Hiç yorum yok: