09 Ekim 2007

Arama Motorları Link-Verisini Gereğinden Uzun Süre mi Kullanıyor?


Arada bir, arama sonuçlarında uzun süredir değişmemiş sayfalara denk gelinir. Aaron'un Yahoo!'daki önemli sıralama değişiklikleri hakkındaki yazısını okurken en sevdiğim aramalarımdan birini yaptım: CSS3 için olanı.


İki tuhaf şey dikkatimi çekti: ilkin, 1. ve 3. sonuç ile 2. ve 4. sonuçlar aynı sitelerden ve diğer bütün arama motorlarında olduğu gibi paragraf başı şeklinde içeriden başlamamışlar.

Bu tuhafıma gitti, Aaron'un da gitmiş, hatta bunun bir geri adım olduğunu söylemiş.

Dikkatimi çeken ikinci şey 5. sıradaki geocities sayfasından olan sonuçtu. Bu sayfa 2003'te yapılmış, ve o tarihten beri değişmemişti. CSS3 gibi bir konu için, bu durum sayfanın tamamıyla eskimiş olduğu anlamına gelir. Arama motorlarının sayfa ya da alan adı olsun, eski şeyleri sevdiği bilinen bir gerçek, ve sıralamalarında bunlara öncelik tanıyorlar. Ama insan, artık bu sayfalara daha fazla link verilmiyorsa, yavaş yavaş sıralamalarda aşağı iner diye düşünüyor. Şu sayfa geçmişini ele alalım mesela:

Geocities'deki bu sayfa 2003'te yaratılmış ve ilk altı ayında 27 link almış olsun. Arama Motoru Sonuç Sayfalarını (SERP) hedeflediği anahtar sözcük için ele geçirmiş ve orada yıllanmaya başlamış. 2006'da ise, css3.info çıktı. Oldukça fazla sayıda link alıyor, ve her birkaç haftada bir güncelleniyor. Ama arama sonuçlarında 1. sayfaya ancak 2007 başlarında geçebildi. 2003'ten beri, hedeflediği anahtar sözcük oldukça popüler hale geldi, ve bunun hakkında insanlar her türden harika makaleler yazıyor. Ve hâlâ, bu sayfa Yahoo!'da 5. sırada, çünkü diğer sitenin hem kendisi ve linkleri eski hem de geocities alan adı sağlam bir ad.

Yanlış giden ne? Geocities'deki sayfanın kendine verilen bağlantılar (backlinks) eski, ve yaşından ötürü bir otoritesi olmuş olabilir, ama son 2 yıldan beri artık link verilmiyor ki. Öte yandan, aynı anahtar sözcük hakkındaki çok sayıda başka sayfa pek çok bağlantı alıp duruyor. Arama motorları link-verisini bir sayfanın sıralamasında ya da güncel olup olmadığına karar vermede fazlasıyla kullanıyor olabilir. Ancak, aynı sayfanın Google'da 13. sırada ve yeni Live search'de 19. sırada olması gerçeğinden, arama motorlarının bu veriyi pek de fazla kullanmadıkları sonucunu çıkardım.

Sebebi geocities alan adının çok kayda değer olması olabilir, ama bana göre bu, arama motorlarının düzeltmesi gereken bir durum.

Joost de Valk, 2007-10-01

Arama rehberinin notu: Bu yazı, Davut Golyat'a karşı durumu yaşayan yerli arama motorlarımız için çevrildi. Bir fark yaratmaya ve tercih edilmeleri için bir sebebe ihtiyaçları var. Büyük arama motorlarının hatalarını tekrarlamayan yerli arama motorları, sanıyorum ki rekabet şansı yakalayabilecekler.

02 Ekim 2007

Arama Motoruna Gelen Ani Yükte Bilgi.com'un Hız Testi


Önceki yazımızda Türkiye'de 4 gerçek arama motorumuz olduğunu ve bunların hız konusunda çok yavaş kaldıklarını, bir teste gerek olduğunu yazmıştık. O yazıdan sonra bir iki gündür bir kaç değişik testi bu dört arama motorunda deniyorum. Test sonuçlarını, her bir yazıda farklı bir arama motorlarını ele elınmış bir şekilde bu Arama Rehberi sitesinde bulabilirsiniz...

İncelemeye, içlerinde en iddialı konuşan oldukları için bilgi.com'dan başladım. Bu arama motoru ekibi, sistemlerini dağıtık bir bilgisayar mimarisi üzerinde çalıştırdıklarını söylüyorlar. Bakalım gerçekten öyle mi diye aşağıdaki sınamayı hazırladım.

Bu testte gerçek aramaları yansıtmak için internette en çok arananlar listesininin tepesindeki sözcüklerden ayıp olmayanları arasından ve karışık bir isim listesinden 140 tanesini seçerek harmanladım. Sonra da bu listeyi her bir dosyada 20 farklı arama terimi olacak şekilde 7 ayrı dosya şeklinde linux makinemde txt dosyalara böldüm.

Sınamaların yapıldığı bu linux makine oldukça hızlı bir internet çıkışına sahip ve çift Xeon işlemcili bir makine. Test esnasında da testten başka hiçbir iş yapmıyordu. Kısaca testteki sonuçlara kayda değer bir yan etkisi bulunamayacak bir makine bu.

İşte bu linux makinede 7 dosyayı, hazırladığım 'bilgizorla' adlı shell scriptiyle arama motoruna şu şekilde sorgulattım:

time bilgizorla test-karmasa-01.txt&
time bilgizorla test-karmasa-02.txt&
...
time bilgizorla test-karmasa-07.txt&

Ardından bu görevlerin bitmesini bekledim. Bir dakika kırk altı saniye kadar sonra 20'lik grupların arama sürelerini gösteren time komutu çıktıları ekranda peşpeşe belirmeye başladı:

real 1m46.354s
user 0m2.055s
sys 0m0.228s

real 2m16.873s
user 0m2.025s
sys 0m0.241s

real 2m37.251s
user 0m2.049s
sys 0m0.224s

real 2m38.607s
user 0m2.046s
sys 0m0.237s

real 2m41.982s
user 0m2.016s
sys 0m0.258s

real 2m44.038s
user 0m2.053s
sys 0m0.224s

real 3m25.714s
user 0m2.046s
sys 0m0.216s

Bu sonuçlar şunu gösteriyor. İlk 20'lik paket'in tamamlanması 1 dakika 46 saniye 35 salise sürmüş. Sonuncu da 3 dakika 26 saniye kadar sürmüş. Bu arada bu arattıklarımı daha önce bilgi.com'da aratmamış olduğum için arama motorunun motoru daha soğuk, yani veritabanındaki tupple'lar henüz önbelleklerde birikmiş değil. Neyse, süreleri toplayalım:

1091 saniye! Sadece 140 aramayı yapması 1091 saniye sürdü! 18 dakika. Yani bir aramayı yapması 7.79 saniye sürüyor... Sanırım cluster ve concurrent veritabanı mimarisi dedikleri şeyin verimliliğini biraz (epeyce) gözden geçirmeleri gerek. Üstelik bu deneyi hatların boş olduğu geç bir gece saatinde yapıyorum... Buradaki tek kusur aramaların yedişer yedişer aynı anda yapılıyor olması. Ama zaten popüler olması beklenen bir arama motorunda aynı anda belki binlerce arama yapılıyor olması gerekir. Biz sadece 7 tane arıyoruz...

Aynı deneyi hiçbir şey değiştirmeden gene deneyelim. Bu kez disk aramalarının hatta sorguların çoğu önbelleklerde yer almış olacağından ciddi bir hızlanma olması gerekir. Bakalım doğru mu:

... Bunun sonucunu hiç yazmiim. Belli ki bilgi.com'da bir terslik var, çünkü öncekinden daha yavaş bir sonuç çıktı. İki test arasında 15 dakika boşlık bırakmıştım. Belki önbellekleri boşalmıştır... Bu kez 5 dakika sonra 3. ve son kez deniyorum:

Neyse ki bu sefer sonuçlar teoriyle uyumlu. Önbellek sebebiyle hızlanma var: 509 saniye. Yani 1 aramayı 3.64 saniyede yapabiliyor yoğunken... Eh, bu hep malum şeyleri arayan bir grup kesimi memnun edecektir. Ama nadir şeyler arayan gerçek araştırmacılar için 3.64 saniye gayet yavaş...

Şimdi bir de aynı 140 arama sözcüğünü bir seferde tek tek sırayla sorgulatalım. Aynı anda 7 sorguyla başa çıkamıyor, tıkanıyordu bilgi.com. Bakalım tek tek sorgulatınca, ve veritabanı sıcakken verimliliği artacak mı:

time bilgizorla test-karmasa.txt

real 3m46.552s
user 0m14.253s
sys 0m1.624s

Eh. Esrar çözüldü şimdi. Teker teker ve alfabetik sırayla sorgulatınca 140 aramayı yapması 227 saniye sürdü. Yani herkes sıraya girer de, sırası gelen aramasını yapar öyle bilgi.com'dan çıkarsa, 1 aramanın sonucunu getirmesi en iyi koşullarda (önbellekler doluyken) 1.62 saniye alacak. Yeter ki insanlar aynı anda arama yapıyor olmasın. Mesela internetin en yoğun olduğu saat 16:00-17:00 arasındaki 60 dakikanın, 3600 saniyenin en verimli kullanılabilmesi için bu saatlerde bilgi.com'a en çok 2220 kişi, sırayla girmeli ki herkese en çabuk şekilde bir yanıt verebilsin...

Göründüğü kadarıyla bilgi.com'da yapılması gereken epey bir optimizasyon var daha...


Bu arada testte kullandığım sözcükler listesini 4 arama motorunu da test ettikten sonra yayınlayarak göstermeyi düşünüyorum. Diğer arama motorlarının bu Arama Rehberi blogumuz'daki testlerden erken haberleri olursa bir uyanıklık yaparlar belki, kimbilir...

28 Eylül 2007

Türkiye’nin Örümcek Robotlu Arama Motorları

Arama Motoru diye aratınca pek çok sonuç geliyor arama motorlarında (arama.com hariç! rakiplerini tanımayan bu yaklaşıma sonra değineceğiz). Ama dikkat ettiyseniz kendisini ‘arama motoru’ olarak nitelendiren bu sitelerin çoğunda ‘motor’ bulunmuyor. Bunların çoğu aslında birer ‘dizin’ hizmeti. Robot ElSitenizin kaydını siz, kendiniz elle yapıyorsunuz. Site ise sizin sitenizi ya ilgili kategoride görüntülüyor ya da diğer elle girilmiş sitelerin de bulunduğu veritabanlarında basit bir sql sorgusu çalıştırıyor. İsterseniz siz de bu sitelerin veritabanı sorgulama hatalarını rahatlıkla test edebilirsiniz. Sadece ‘BİLİM’ sözcüğünü bir kez büyük, bir kez de küçük harflerle ‘bilim’ diye aratın. Farklı sayıda ve farklı sonuçlar gelecek. Bunun sebebini bir başka yazıda açıklayalım. Asıl konumuzsa Türkiye’de otomatik olarak webi dolaşan robota sahip gerçek arama motorları sayısının bir elin parmaklarının sayısını geçmediği…

Türkiye’de temelde 3 tip arama motoru var. En sık rastlananı az önce bahsettiğimiz dizinler. Bunlar birkaç bin link içerikleriyle doyurucu olmaktan çok uzak ve dostlar alışverişte görsün mantığıyla yapılmış amatör siteler. Gene de bunları bir başka yazıda aralarında yarıştırsak, incelesek fena olmaz. İkinci tip arama motorları ise meta-arama dediğimiz türden. Bunlar aslında bir tür geçit. Sizin yaptığınız aramayı birkaç büyük arama motoruna gönderir, ve dönen sonuçları bir şekilde harmanlayarak size sunarlar. Bu tür bir arama motorunu rahatlıkla yapabilirsiniz, hele günümüzde büyük arama motorlarının API ve RSS beslemesi sağlaması sayesinde çok daha basit böyle bir arama motoruna sahip olmak. Ama bizim esas merak ettiğimiz sırtını başkasına yaslamayan, kendi indekslerini kendileri oluşturan, interneti dolaşan zeki robot programlara sahip yerli arama motorları. Bu üçüncü tip arama motorlarının arkasında ciddi bir emek yatar. Güzel bir robot yazılacak, internet düzenli olarak taranacak, Türkçe siteler ayıklanacak, akıllıca hazırlanmış bir veritabanı altyapısına siteler anahtar sözcükleriyle birlikte zekice, optimize bir biçimde yerleştirilecek. Ve tabii ki bir de Türkçe’ye uygun yazılmış bir arama ön yüzü ile bu veritabanı Türkçe harf sorununu olmaksızın, Türkçe eklere, Türkçe imla hatalarına uygun bir biçimde ve hızlıca aranacak.

Türkçe’ye uygun arama yapabilen ve kendi web-örümcek robotlarına sahip olduğunu, apache web sunucu loglarımdan tespit edebildiğim Türkçe arama motorları alfabetik sırayla şunlar:

www.aramanet.com aramanet/1.4
www.bilgi.com BilgiBot/1.0(beta)
www.didikle.com DidikleBot/0.1
www.turkce-arama.com GezginBot v0.1

Yanlarına apache web sunucu loglarında görülen User-Agent’larını da yazdım. Örneğin malum büyük yabancı arama motorlarının User-Agent’ları da şunlardır: ‘Googlebot/2.1′, ‘Yahoo! Slurp’, ‘msnbot/1.0′. Bu dördünden başka gözüme loglarda başka bir Türkçe robot ismi çarpmadı, ama belki yabancı bir isim kullanan vardır. Mesela bir ara Bilkent’ten bazı akademisyenler ‘Larbin’ ile tarama denemeleri yapıyorlardı. Ayrıca arama.com sitesi de geniş bir arşive sahip, ancak loglarda hiç bir izi yok… Evet, yeni bir keşfe kadar elimizde sadece 4 tane gerçek Türkçe Arama motoru var.

Başka yazılarda bu 4 arama motorunu ayrı ayrı ve karşılaştırmalı olarak ele alacağız. Şimdilik kısaca tanıtırsak genel özellikleriyle şöyleler:

Aramanet gri-yeşil temasıyla daha çok bir portal görünümde. Türkçe internet, blog, haber, eğitim ve resim şeklinde 5 ayrı alanda arama yapıyor. 2004 Aralığında kurulmuş. Altyapı olarak linux, apache-tomcat ve java üçlüsünü kullanıyor. Sonuçları yavaş bulsa da tatminkar miktarda sonuç döndüren web arama motoru kısmı göz yormayan cinsten. Sonuçların sağında ise ücretsiz sponsorluk hizmeti sunuyor. Ek olarak arama motoru teknolojisini merak edenler için forum kısmında ve sitenin çeşitli yerlerinde değişik yazılar ve bazı araçlar bulunuyor.

Bilgi.com sade bir tasarıma sahip. web, video, haber, blog, wiki, akademik ve dizin adında 7 ayrı alt alana sahip. Dizin kısmı şimdilik çalışmıyor görünüyor. Diğer alanlarsa sade ve temiz görünüşlü. 2006 Aralığında kurulmuş olan bilgi.com da apache-tomcat ve java servlet teknolojisini kullanıyor. Sonuçların solunda sayfa görüntülerini göstermesi ve kümeleme yapması güzel düşünülmüş. Yalnız arama motorunun hızı da önemli. Fakat, ya benim internetim yavaş ya da bilgi.com da yavaş. Emin olmak için bir arama sonucunun url’sini www.websitepulse.com sitesinde web-page test kısmında sınadım. Orada da basit bir aramanın sonucunu getirmesi 14 saniyeyi buldu. Aynı aramayı aramanet 5.5 saniyede getirmişti ki bu da yavaş. Sanırım bu konuya ciddi bir biçimde eğilmeliler. Şahsen birkaç saniyede sonuç gelmeyince oflayıp puflamaya başlıyorum. En iyisi Arama Rehberi sitemizde haftada bir ya da ayda bir güncellenen standart bir web-sitesi hız testi köşesi açalım. Örneğin en çok aranan ve nadir arananlardan bir standart bir de rastgele bir anahtar sözcük listesini yüksek hızlı bir hat üzerinden bu arama motorlarında sorgulatarak ortalama sonuç bulma sürelerini saptayalım. Hem kim bilir, belki bu test sayesinde aralarında tatlı bir rekabet bile başlatabiliriz.

Turkce-Arama.com ise 2003 yılında kurulmuş. Gri ve açık-mavi karışımı temasını yakın zaman önce değiştirmeye başlayan bu arama motorunda görünüşe göre görsel dönüşüm süreci henüz tamamlanmamış. Yeni arayüzünde web 2.0 felsefesi kullanılmaya başlayan arama motorunda pastel mavi tonlar, büyük arama kutuları ve tuşları göze çarpıyor. Bu arama motorunun en belirgin özelliği ise eposta arama özelliği. Birkaç ay önce bu kısmı daha basit bir görünüşteydi. Sanırım yenilenmeden en çok bu kişi arama kısmı nasibini almış. Web, email, altyazı ve video arama motorlarına sahip Turkce-Arama.com’un bu email arama modülünde sadece soyad, ad ve soyad ya da sadece eposta adresi yazarak arama yapabiliyorsunuz. Böylece bir msn adresinin kime ait olduğunu veya bir arkadaşınızın email adresini bulmak mümkün olabiliyor. Sayfa tasarımı hoş, ve bulunan mail adresleri önem sırasına göre canlı renklerle gösterilmiş. Bu arada bu arama motorunun bir de web kısmında ‘engelli siteyi aç’ özelliği dikkate değer. Örneğin wordpress.com’a çoğu yerde hala girilemiyor. Mahkemece engellenmiş siteleri açmak için bu arama motoruna adresi girmek yetiyor.

Didikle.com ise sanıyoruz henüz emekleme sürecinde. Sitenin şekline şemaline bakınca bunun bir Turkce-Arama.com kopyası olduğu anlaşılıyor, ama kesinlikle veritabanları ve web arama kısımları apayrı. Henüz her iki sitede de bir açıklama yapılmamış. Bir açıklama yapılınca neler oluyor burada bulabileceksiniz.

Başka yazılarda derinlemesine bir Türkçe Arama Motoru incelemesi yapacağız. Bu kısa değerlendirme ile şimdilik Türkiye’deki arama sektöründe ciddiye alınabilecek 4 arama motorunu kısaca incelemiş olduk.

Hakia 2008′de Türkçe

Semantik teknolojili arama yaptığını söyleyen Türkiye kökenli ama İngilizce arama yapan Hakia arama motoru 2008′de Türkçe olarak da hizmet vereceğini açıkladı.Hakia Arama Motoru

2004 yılında ABD’nin New York şehrinde yaşayan nükleer fizikçi bir Türk, Dr. Rıza Can Berkan, tarafından kurulan alternatif arama motoru Hakia, Fince ‘araştırmacı’ anlamına gelen ‘hakija’ sözcüğünden türetilmiş. 2005 yılında online olan Hakia’nın şu an dünyada 2 milyon kullanıcısı bulunuyor.

Biliyorsunuz, bugün kullandığımız web teknolojisini ve HTML dilini de Fizikçilere borçluyuz. 90′lı yılların başında CERN parçacık fiziği laboratuvarında üretilen çeşitli dökümanların birbiriyle ilişkili bir biçimde dünyaya duyurulması ihtiyacını karşılamak üzere oluşturulmuştu bugünkü HTML ve web altyapısı. Dolayısıyla, çalışmaları için gereken teknoloji geri kaldığında ellerindeki işi bırakıp teknolojiyi ilerleten fizikçilerden arama motoru konusunda da iyi işler çıkarmalarını bekleyebiliriz…

Arama Motorları ve Türkiye

Türkiye’de 1993′ten beri internet var. Bir o kadar zamandır da ‘bu internette ne var?’ diye arama ihtiyacı…

İşte, bu Arama Rehberi‘nde arama motorlarının Türkiye’deki serüvenini mercek altında tutacağız. Arama motoru sektöründe neler var, aktörler kim, neler yapıyorlar, insanlar neler arıyor neler buluyor. Aranılanlar bulunsun diye arama motorlarımız neler yapıyor… Tüm bunlar Arama Rehberi‘mizin konusu.

 

arama motorları nelerdir, arama motoru, kişi arama motoru, arama motoru nelerdir?, arama motoru adresleri, arama motorunun kullanımı, kişi arama rehberi, türkiyenin arama motorları nelerdir, arama motoru optimizasyonu, türkçe arama motorları, Türkiye'deki arama motorları