Google on yllättävän sokea
Valtaenemmistö käyttää internetissä tiedon hakuun yleisimpiä hakukoneita, kuten Googlea.
Denis Shestakovin väitöstutkimuksen mukaan yleiseti uskotaan, että hakukoneen löytämät tulokse sisältävät kaikki olemassaolevat relevantit linkit haettuun kohteeseen.
Väitöksen mukaan tämä ei ole totta, koska nykyiset hakukoneet jättävät indeksoimatta hyvin merkittävän osan kaikesta verkon sisältämästä tiedosta. Kyse on oikeastaan vain tiedon jäävuoren huipusta.
Piiloon jää
paljon tietoa
Tutkimksen tulokset ososittavat, että netin käyttäjiltä jää usein piiloon hyvin korkealaatuista tietokantoja.
Esimerkkejä ovat matkatoimistojen ylläpitämät
tietokannat, joiden sisältämä tieto voi olla tärkeää lomaansa
suunnitteleville.
Väitöskirjan mukaan johonkin tiettyyn aihealueeseen
keskittyvä tieto on usein hyvin korkealaatuista ja tarkkaa, mutta piilossa
hakukoneiden käyttäjiltä.
Väitöskirja tarkistetaan Turun yliopistossa 12. kesäkuuta.

















Kommentit (21)
Suljettujen tietokatojen sivuihin Google ei tietenkään pääse käsiksi, mutta senhän pitäisi olla itsestään selvää tiedon hakijalle.
Koska firmat maksavat googlelle siitä, että niiden sivut nousevat hakutulosten kärkeen.
C'mon, yhtä maailman suurinta yritystä kiinnostaa varmaan ihan saatanasti Directan ja vastaavien lahjukset.
Muitakin hakukoneita on olemassa yllin kyllin ja jotkut sivut tarjoavat mahdollisuuden saada yhdellä haulla useamman koneen tulokset. Niin että jos on tietoa vailla, keinot sen löytämiseen löytyvät kyllä netistä.
...
Miksi Google ei puutu tähän?
Jaa. Joku voisi rakentaa spämmifiltterin Googlen päälle.
www.nordicnet.fi
...
www.europages.gr
Jos hakemasi yritys löytyy "näistä" niin niiltä on huijattu rahat pois. Sinäkin voit saada keploteltua niiltä helppoa rahaa. Ainakin niiden markkinointi-, viestintä-, myyntiosastolta tai tms.
Unohdit listalta kovinta hintaa nollahyötyä kohtaan tarjoavat "palvelut". Oman ja muutaman muunkin yrittäjän kokemusten perusteella Inoa.fi ja keltaisetsivut.fi ovat pahimpia huijaajia "keplottelupalveluista".
Olilhan Ankkalinnassa asuneilla (asuvilla) Tupulla, Hupulla ja Lupulla aikaansa ja vertaansa vailla oleva hakukirja käytettävissään suoraan repusta kaivamalla.
Yhteen aikaan englanninkielinen hakusana tuotti pelkästään kiinankielisiä sivuja, joissa hakusana kökötti yksinäisenä sutena kiinankielisen tekstin seassa. Onpa käynyt niinkin, että suhteellisen tavallinen englanninkielinen hakusana ei tuottanut yhtään sivua tulokseksi.
Viime syksynä etsin vanhan koneeni (Compaq) bioksen päivityspakettia voidakseni päivittää bioksen uudempaan versioon. HPn support-sivuilta (HP nielaisi Compaqin) löytyi kyseisen päivityspaketin download-sivu, mutta se oli tyhjä eli pelkkä frame ilman sisältöä. Sitten hain pakettia (tiesin sen tarkan nimen) googlella koko maailmasta ja kaikilla kielillä, mutta täysin tuloksetta. Päivitys kyllä mainittiin useammallakin sivulla, mutta download-sivua ei löytynyt millään keinolla. Tuntien hakemisen jälkeen päätin käyttää Lycos-nimistä vanhaa hakukonetta ja heti ensimmäisen haun ensimmäinen linkki antoi sivun Kiinasta ja sieltä tuo etsitty bioksen päivityspaketti löytyi. Sen linkki istui siellä kiinankielisten koukeroiden seassa, mutta totteli kuitenkin downloadkomentoa ja paketti tuli alas. Myöhemmin testasin vielä erikseen oliko totta, että google ei löydä tuota sivua ja näin oli. Katsomatta valitettavasti jäi, löysikö Lycos tuon paketin myös Kiinan ulkopuolelta.
Yhteen aikaan hakusanat kyllä tuottivat paljon linkkejä, mutta noin puolet niistä oli toimimattomia, joskus jopa 90%. Jonkin aikaa tätä ongelmaa lievitti se, että Googlen välimuistista kuitenkin löytyi tuo sivu, mutta myöhemmin myös välimuistilinkit muuttuivat toimimattomiksi.
Kerran törmäsin sellaiseen ongelmaan, että yhdessä erään kemian alan käsitteen kanssa käytettävät sanat eivät pystyneet tuottamaan sivua, jossa tuo käsite olisi esiintynyt. Kun hakusanoja lisäsi, niin hakutulokset putosivat nollaan mieluummin kuin tuottivat sivuja joilla tuo käsite oli. Tulin lopulta siihen tulokseen, että jokin sensuroi hakutuloksista pois ne sivut, joissa tuo käsite esiintyi. Lopulta löysin tuon käsitteen muualta ja kun laitoin sen hakusanaksi, niin tuloksena oli valtava määrä sivuja, joilla tuo käsite esiintyi yhdessä juuri niiden sanojen kanssa, joilla tuntien ajan yritin noita sivuja löytää.
Näiden yli 10v kokemusteni vuoksi arvelen, että Suomen Googleen on jo vuosia sitten ympätty sensurointimahdollisuus, jota myös käytettiin. Sillä voitiin poistaa yksittäisen surffaajan hakutuloksista kaikki ne sivut, joilla esiintyi tietty sana. Kerran pystyin jopa haarukoimaan sen sanan, joka oli sensuroitu. Se oli hunt* eli kaikki ne sivut, joilla esiintyi hunt-alkuinen sana poistettiin hakutuloksista. Kaiken lisäksi tuo sensuroitu hakusana muuttui istuntoni aikana. Muistaakseni se piteni sanaksi hunte*. :)