Magyar Tudomány, 2006/11 1325. o.

Hálózatok



PageRank és azon túl: Hiperhivatkozások szerepe a keresésben1


Benczúr András

Bíró István

PhD, tudományos főmunkatárs,

doktori ösztöndíjas,

MTA SZTAKI Informatika Kutató Laboratórium

MTA SZTAKI Informatika Kutató Laboratórium

Webes Keresés és Adatbányászat Kutatócsoport

Webes Keresés és Adatbányászat Kutatócsoport

és Eötvös Loránd Tudományegyetem

és Eötvös Loránd Tudományegyetem

www.ilab.sztaki.hu/websearch

www.ilab.sztaki.hu/websearch



Csalogány Károly

Rácz Balázs

doktori ösztöndíjas

doktori ösztöndíjas

MTA SZTAKI Informatika Kutató Laboratórium

MTA SZTAKI Informatika Kutató Laboratórium

Webes Keresés és Adatbányászat Kutatócsoport

Webes Keresés és Adatbányászat Kutatócsoport

és Eötvös Loránd Tudományegyetem

és Budapesti Műsz. és Gazdaságtud. Egyetem

www.ilab.sztaki.hu/websearch

www.ilab.sztaki.hu/websearch



Sarlós Tamás

Uher Máté

doktori ösztöndíjas,

doktori ösztöndíjas,

MTA SZTAKI Informatika Kutató Laboratórium

MTA SZTAKI Informatika Kutató Laboratórium

Webes Keresés és Adatbányászat Kutatócsoport

Webes Keresés és Adatbányászat Kutatócsoport

és Eötvös Loránd Tudományegyetem

és Eötvös Loránd Tudományegyetem

www.ilab.sztaki.hu/websearch

www.ilab.sztaki.hu/websearch



A hiperhivatkozások kulcsfontosságúak a világhálón található adatok használhatóságában, a "Web" elterjedésében. A hivatkozások teszik hálózattá ezt a rendkívüli méretű és szinte minden létező témát felölelő dokumentumgyűjteményt. Tanulmányunk témája a hivatkozások szerkezetének vizsgálata: bemutatjuk, hogyan lehet segítségükkel rangsorolni a weblapok minőségét, akár az egyes felhasználók igényei szerint személyre szabhatóan; hogyan lehet a manipulatív, keresőrendszerek megtévesztésére létrehozott oldalakat szűrni, illetve adott oldalhoz hasonlókat találni. Foglalkozunk azzal a kérdéssel is, hogy ezek a problémák mennyire nehezek, és milyen különleges algoritmikus technikákat igényel megoldásuk a már több milliárd oldalból álló világhálón.


Bevezetés


A világhálón fellelhető hatalmas információtömegben igen nehéz megtalálni azokat az oldalakat, amelyek információigényünknek mind tartalmukban, mind minőségükben megfelelnek. Elvesznénk az adattengerben olyan keresőrendszerek nélkül, amelyek akár a több millió-százmillió oldalon előforduló szavak, kifejezések esetén is nagy biztonsággal ki tudják választani a legrelevánsabb találatokat tartalmazó pár tíz oldalt. A keresőrendszerek rendkívüli teljesítményének tudományos és technikai vonatkozásairól Friedman Eszter és munkatársai (2003) cikkében olvashatunk. Tanulmányunkban e téma egy kiválasztott területével foglalkozunk, bemutatjuk, hogy a világháló hiperhivatkozásainak szerkezete a szöveges tartalom kiegészítéseként milyen támaszt nyújt a releváns oldalak megtalálásában, és miként vezet el bennünket az információkeresés új korszakába.

A világháló alapvetően új helyzetet jelent a klasszikus, több évtizedes múltra, az első elektronikus könyvtári katalógusok, rendszerek megjelenésére visszatekintő információkeresés tudományterületén. A könyvkiadók, könyvtárosok és dokumentumkezelők központosított munkája, a rendszerezettség, homogenitás és rend helyett azt látjuk, hogy bárki létrehozhat tartalmat, amelynek minőségét és szavahihetőségét senki nem vizsgálja, és azt tetszőleges téma- és kulcsszó- információval láthatja el - ha egyáltalán ellátja. Korábban soha nem látott mennyiségben és rendkívül változó minőségben készül elektronikus tartalom, amelyek között megtalálhatunk magas szintű tudományos munkát éppúgy, mint személyes naplót, áruházi katalógust és kifejezetten a látogatói forgalom befolyásolását célzó, értékelhető tartalom nélküli oldalakat.

A web robbanásszerű elterjedésének talán legfontosabb oka a "linkek", az ún. hiperhivatkozások minden más dokumentumgyűjteményhez képest egyedülálló használhatósága: mindenhonnan minden elérhető, minden információt egyetlen hálózatba kapcsoltunk. A hatalmas adattömegben azonban elvesznénk a tartalmat központosítottan összegyűjtő, tároló és a türelmetlen, másodpercen belüli reakcióidőhöz szokott felhasználó kereséseit kiszolgáló keresőrendszerek nélkül. A hivatkozások megléte a keresőrendszerek működésének alapját is képezik, hiszen azokat követve képesek lényegében az összes elérhető adat összegyűjtésére.

A világháló hatalmas méretét és egyben a keresőrendszerek előtt álló feladat nehézségét jelzi, hogy potenciálisan tetszőlegesen sok olyan weboldal található, amelyek címeikben tartalmazhatják a felhasználó korábbi böngészési lépéseit, amelyből egyedileg generált információt állítanak elő. Az egyes szervereken előforduló címek számának eloszlását (1. ábra) vizsgálva bizonyítékot nyerünk arra, hogy a weboldalak számát az extrém nagy szervertartalmak dominálják, és a megismert címek számát gyakorlatilag csak a letöltést végző rendszer teljesítménye korlátozza. A megfigyelt eloszlás jól illeszkedik egy körülbelül -1 (pontosan -0,97) kitevőjű hatványeloszlásra (Barabási, 2003), azaz annak valószínűsége, hogy egy szerveren kevesebb, mint x oldal található, F(x) ~ x-0,97. Az eloszlás sűrűségfüggvénye tehát f (x) ~ x -1.97, ahonnan az oldalak számára a modellből a divergens ? x f (x) dx becslés adódik, azaz az extrém nagy szerverek létezésének valószínűsége nagyon kicsi ugyan, azonban hozzájárulásuk a weboldalak várható számához domináns.

Az elérhető dokumentumok hatalmas száma miatt a felhasználó által megadott keresőkifejezés tipikusan számtalan weboldalon megtalálható, ám a felhasználó gyakran csak a kereső által felajánlott első egy-kettőt hajlandó ezek közül végignézni. Éppen ezért kulcsfontosságú, hogy a keresőrendszer a találatokat milyen sorrendben jeleníti meg. A keresés találatainak rangsorolása a hagyományos, például könyvtári rendszerekben a keresett szavak gyakorisága, illetve a normális körülmények között reprezentáns helyen (cím, kulcsszó, URL) való előfordulása alapján történik, amely azonban könnyű lehetőséget biztosít a manipulatív weboldalak készítőinek.

A hatalmas mennyiségű rejtett ajánlást, minősítést tartalmazó hiperhivatkozásoknak döntő szerepük van az információ rangsorolásában, értékének, fontosságának megítélésében is: azzal, hogy egy lap szerzője egy másik oldalra mutat, impliciten az ő oldalát látogatók figyelmébe ajánlja azt. A hiperhivatkozásokban megjelenő ajánlások ereje továbbá kombinálható azzal a ténnyel, hogy a hivatkozás szövegében vagy annak közeli környezetében többnyire megtalálható a hivatkozott oldal rövid ismertetése. A legsikeresebb keresőrendszerek, például a Google, a találatokat ezen módszerek alapján is rangsorolják.


PageRank és személyre szabott változata


A Google által sikeresen alkalmazott ún. PageRank (Page et al., 1999) eljárás minden weboldalhoz fontossági mérőszámot, rangot rendel a következő rekurzív definíció szerint: egy oldal akkor jó minőségű, ha sok jó minőségű oldal mutat rá:


P(u) = ?{P (v) / kifok (v) : a v lap u-ra mutat}


Ez a módszer a rámutató oldalak önmagában könnyen manipulálható számának többlépéses általánosításaként fogható fel. Az első naiv értelmezés alapján iteratív algoritmust adhatunk, amely minden lépésben egyenletesen elosztja egy oldal aktuális rangját az általa hivatkozott oldalak között. Ha A a hiperhivatkozások átmenetmátrixa, azaz az u-ra mutató v oldalak esetén Auv = 1 / kifok (v), akkor az i-edik iterációban számolt Pi vektorra


  Pi = Pi -1 ˇ A.


Célszerű a zsákutcákat, azaz hivatkozásokat nem tartalmazó oldalakat rekurzívan kitörölnünk. Így a rekurzív algoritmus egy lépése annak felel meg, hogy a kiinduló rangsor szerinti eloszlásból egy véletlen továbblépést teszünk, azaz véletlen bolyongást valósítunk meg. Ha a rangértékek konvergálnak, azaz létezik stacionárius eloszlás, ezt tekinthetjük az oldal rangjának.

A véletlen bolyongást megvalósító rangsoroló algoritmus végeredménye függ attól, hogy kezdetben milyen minőségértékekből indulunk ki. Ha például hivatkozásokon keresztül nem érhető el minden oldalról minden másik, akkor a webnek csak abban a részében lesz pozitív PageRank értékünk, ahova bármelyik iteráció során az aktuális pozitív értékű oldalakról eljuthatunk. Ez a tulajdonság például oldalak egyetlen irányított úttal összekötött és az utolsón egy önhivatkozásból álló "Web" esetén csak az utolsó oldalra teljesül, a többi oldal egy idő után már nem lesz újra elérhető. Még meglepőbb viselkedést mutat az egyetlen irányított körből álló hálózat, itt az iterált értékek ciklikusan körbeforognak. A Markov-láncok alaptétele szerint azonban lényegében ettől a két esettől eltekintve az iteráció konvergál.

A fenti definíció problémája egyrészt az, hogy csak a világháló központi, erősen összefüggő magjának ad pozitív rangértéket, amely egyes kísérletek szerint az összes oldalnak csak kevesebb mint 30 %-a (Broder et al., 2000). Nagyobb probléma a bolyongás "megcsapolhatósága". Ha egy pozitív rangú v oldalt rá tudunk venni, hogy hivatkozzon a rangmanipuláció céljából kijelölt u oldalunkra, akkor az oldalakat egy olyan u-ból induló és v-be érkező k hosszú hivatkozássorozattal bővítve, amelyen minden oldal visszamutat u-ra, a bolyongást k-ban exponenciális ideig u-ban tarthatjuk, azaz kis ráfordítással, kevés oldal generálásával rendkívül magas rangértéket juttathatunk az u céloldalnak.

A fenti problémák kiküszöbölése és a stacionárius eloszlás létezésének biztosítása érdekében Sergey Brin és Larry Page a Page-Rank értéket az ún. véletlen szörföző modellel határozzák meg, amelynek módosított változatát (Fogaras et al., 2005) ismertetjük. Tételezzük fel, hogy ismeretlen, véletlen weboldalról indulunk, ahonnan pár kattintással "jó" helyre szeretnénk jutni. A weboldalak tartalmát nem igazán olvassuk el, hanem szinte vaktában választunk a lehetséges továbbvezető linkek közül. Minden kattintás után kockadobással eldöntjük, hogy megálljunk-e (a publikált eljárásokban a megállás c valószínűségének 0,1 és 0,2 közötti értéket választanak). Végezetül megnézzük, hogy melyik oldalnál álltunk le a linkek véletlen követésével. Az u oldal központiságát mérő PageRank érték annak a valószínűsége, hogy a fent vázolt véletlen séta u-ban ér véget. Mivel a t hosszú séták valószínűsége kifejezhető az A átmenetmátrix t-edik hatványával, a kezdőcsúcsot pedig az (1/N, ..., 1/N) uniform eloszlás szerint választottuk, a PageRank értékek vektorára

PageRank = (1/N, ..., 1/N) ?t c (1 - c)t At.


Személyre szabott PageRank és ujjlenyomatok


A véletlen szörföző modell módosításával személyre szabott rangsorértékhez juthatunk a következőképpen. Az eredeti modell uniform véletlen weboldal feltételezése irreális, a felhasználó a nagy mennyiségű általa ismeretlen oldal közül nem tud véletlenszerűen választani. Azonban a kedvencei vagy könyvjelzői közül már tud; az u oldal számára személyre szabott PageRank értéke annak a valószínűsége, hogy a megadott kiinduló oldalakról induló, lépésenként c megállási valószínűségű séta éppen u-ban ér véget.

A személyre szabott PageRank keresőrendszerekben történő megvalósítása komoly nehézségbe ütközik. A felhasználó preferenciái keresésről keresésre változhatnak, feltételezhetjük, hogy azokat csak a lekérdezés pillanatában adja meg. A stacionárius eloszlás meghatározása azonban órákig vagy napokig tarthat, a másodperces reakcióidő biztosítása érdekében előre ki kell tehát számítanunk minden szóba jöhető rangsort. Ha figyelembe vesszük, hogy a személyre szabott PageRank az induló oldalak eloszlásában lineáris, akkor is tárolnunk kell egy oldalszámnyi vektorból álló bázist, amely milliárd feletti oldal esetén 1018 byte feletti tárat, azaz pár millió számítógépet igényelne.

Közelítő számításokkal azonban többféleképpen is megvalósítható a személyre szabott rangsorolás (Fogaras et al., 2005; Sarlós et al., 2006), amelyek közül bemutatunk egy szemléletes, bár nem a leghatékonyabb változatot. A személyre szabó eloszlás szerinti linearitás következtében elegendő az egyetlen kiinduló oldal esetével foglalkozni, az összes rangsor ismeretében tetszőleges személyre szabás kikeverhető. Amennyiben egyetlen u oldal alapján történik a személyre szabás, egy v oldal PageRank értéke annak a valószínűségével egyenlő, hogy egy geometriai eloszlás szerint vett lépésszámú séta u-ból éppen v-be érkezik. Amennyiben ezen séták közül véletlen mintákat veszünk, a rang torzítatlan becslését kapjuk. Mérések szerint ezer körüli véletlen séta elegendő a rangsor megfelelő minőségű becsléséhez (Fogaras et al., 2005). Az összes személyre szabó u oldalra egyetlen minta pedig hatékonyan számítható olyan módon, hogy a séta első lépéseként minden oldalhoz választunk egy véletlen linket, majd a további lépéseket a már kész séták végpontjait rendezve hasonló módon választjuk.

A fent vázolt módszer lényegében optimális, amely megmutatható a kommunikációs bonyolultság és az alacsony tárigényű közelítések kapcsolatát először felismerő Gödel-díjas Noga Alon és munkatársai (1999) munkája értelmében. A webkeresők működési jellegéből adódóan az összegyűjtött tartalmat fel kell dolgoznunk, és olyan adatbázisokat kell építenünk, amelyből aztán a felhasználó kérdései gyorsan kiszolgálhatók. Az adatbázis méretére a kommunikációs bonyolultság korlátai érvényesek: feltételezhetjük, hogy Aliz ismeri a teljes világhálót, Bob pedig egy személyre szabott rangsorkérdést kap. Kérdés, hogy mi az a legkisebb adatmennyiség, amit a kérdés ismerete nélkül Aliznak át kell adnia ahhoz, hogy Bob nagy valószínűséggel választ kapjon kérdésére. Sarlós Tamás és munkatársai (2006) ilyen értelmű korlátot és a korláttal egyező méretű adatbázist építő módszert is adnak.


Hasonlóságkeresés


Glen Jeh és Jennifer Widom (2003) a közös hivatkozók számát (kocitációt) általánosítva a PageRankhez hasonlóan úgy definiálták a SimRank hasonlósági mértéket, hogy két oldal hasonló, ha hasonlók mutatnak mindkettőre. Egész pontosan minden oldal hasonlósága önmagához, Sim (v, v) = 1 és u ? v esetén Sim (u, v) az u oldalra mutató u' és a v oldalra mutató v' oldalak Sim (u', v') hasonlóságának átlaga, szorozva a távolságokat figyelembe vevő (1-c) lecsengető tényezővel. A definíció vagy egy egyenletrendszer, vagy pl. a minden u ? v esetén Sim (u', v') = 0 értékkel induló iteráció megoldásához vezet.

A Sim tábla mérete az oldalak számában négyzetes, ami a fenti egyenlet iteratív megoldását, már csak annak tárigénye miatt is, lehetetlenné teszi. Fogaras Dániel és Rácz Balázs (2005) megmutatták, hogy a SimRank az előző szakaszban látott ujjlenyomatok módszerével közelíthető: Sim (u, v) ugyanis ct várható értéke, ahol t az első olyan időpont, amikor egy u-ból és egy v-ből induló két séta összetalálkozik. Ugyanebben a cikkben méréssel igazolják, hogy a többlépéses szomszédságot figyelembe vevő hasonlósági mértékek válaszai nagyobb egyezést mutatnak az emberek ítéletével, mint az egylépéses kocitáció, illetve számos változatot adnak, amelyek többek között eltérő hosszú séták találkozását is figyelembe veszi a hasonlóság meghatározásakor.


Linkfarmok és spamszűrés


A keresők találati oldalain elfoglalt előkelő helyezés nagy forgalmat és így üzleti lehetőséget biztosít az adott weboldal üzemeltetőjének. Emiatt egyes üzemeltetők olyan technikákat alkalmaznak, amelyek a felhasználók számára semmiféle többletszolgáltatást nem nyújtanak, egyetlen céljuk, hogy a céloldal helyezését a kereső rangsorokban manipulálják. A világháló több mint 10 %-ban teljesen értékelhetetlen, esetleg értelmetlen oldalakat tartalmaz, sőt ezt az arányt egyes nemzeti tartományok, pl. a francia (25 %) vagy a német (21 %) meg is haladják (Ntoulas et al., 2006). A magyar nyelvű tartalmat talán épp a hálókultúra alacsonyabb fejlettsége miatt szerencsére még nem árasztották el az ún. spam3 oldalak, ezért cikkeinkben (Benczúr et al., 2005, 2006) példaként a .de német nemzeti tartományt mutatjuk be.

A PageRank módszer robusztus, manipulálása jóval nehezebb, mint a szöveges tartalomé, hisz a web jóval nagyobb szeletét kell módosítani, hivatkozások sűrű szövevényével borítani - de nem lehetetlen. Mivel a Google által használt módszer ismert, a világban számos cég szakosodott a forgalom indokolatlan elterelését célzó manipulatív megoldások megvalósítására, amelynek megnevezése finomabb változatában "kereső optimalizálás", erősebb változatában a "hivatkozás spam" lehet. A PageRank támadásának egyik kedvelt módszere a linkfarmok használata, amikor rendkívül nagyszámú és sok szerveren átívelő, részben értékes tartalmak másolatát, részben számítógéppel generált oldalakat tartalmazó oldalcsoportot hoznak létre, amelyek mindegyike a céloldalra mutat, magas rangot generálva neki.

Amennyiben kellő számú ismert becsületes vagy spam oldal áll rendelkezésünkre, a PageRank eljárás módosításával könnyen nyerhetünk a spam oldalakat elkerülő, azokon alacsony értéket adó, vagy épp magas értékkel büntető eljárásokat. A bizalom terjesztéséből fakadó TrustRank (Gyöngyi et al., 2004) érték az ismert becsületes oldalakra teleportáló személyre szabott PageRank: egy oldal akkor becsületes, ha sok becsületes mutat rá. A bizalom terjesztése kombinálható a bizalmatlanság visszafelé történő terjesztésével (Wu et al., 2006): egy oldal spam, ha sok spam oldalra mutat. Végezetül a kocitáció vagy SimRank változatok is alkalmazhatók: egy oldal becsületes, ha a hozzá hasonló oldalak inkább becsületesek, és spam, ha gyakran nem azok. A módszerek teljesítményének a német .de tartományon történő összehasonlításával azt tapasztaltuk (Benczúr et al., 2006), hogy a kocitáció és a közeli szomszédságokat figyelembe vevő hasonlóságkereső módszerek teljesítenek legjobban.

A geometriai eloszlás szerinti hosszú véletlen séták segítségével azt is feltérképezhetjük, hogy kitől származik egy oldal rangja. Egy tipikus becsületes oldal támogatóinak halmaza a világháló valamilyen témára fókuszáló szelete, amelytől magas rangú központi oldalak esetén elvárható, hogy gazdag, a teljes világhálóra emlékeztető szerkezetük legyen. A manipulatív tartalmak támogatói generált önismétlést, szegényes struktúrát és néhány manipulált céloldal célzott túlhangsúlyozását mutathatnak. A gazdag struktúra kézenfekvő megjelenése a rangok hatványeloszlása, ami a teljes hálózaton is megfigyelhető (Barabási, 2003). Egy-egy becsületes és spam oldal támogatóinak PageRank értékét a 2. ábra mutatja; a módszer spamkeresésre alkalmazható (Benczúr et al., 2005).


Összefoglalás


Tanulmányunkban megmutattuk, hogy a hiperhivatkozások olyan, a világháló dokumentumait gazdagító, szociális hálózatokhoz hasonló szerkezetet mutatnak, amely alkalmas a minőség, központiság és hasonlóság megragadására, bizalom és bizalmatlanság továbbítására, manipulatív tartalmak szűrésére. Bemutattuk az ujjlenyomatok módszerét, amelynek segítségével a hivatkozások szerkezetének elemzése több milliárd weboldal esetében is hatékonyan elvégezhető. Említést tettünk végezetül a keresési feladatok kommunikációs bonyolultsági korlátairól. Az ismertetett eredmények többsége 2005-2006-ban jelent meg, a bemutatott terület fejlődése a keresőrendszerek üzleti potenciálja és a rangsor manipuláció elleni küzdelme következtében még jó ideig töretlennek látszik.

A szerzők köszönetet mondanak Torsten Suelnek a .de és Urban Müllernek a .ch tartományok adataiért, Brian Davidsonnak és Carlos Castillónak a spamkereséssel kapcsolatos eszmecserékért, végezetül Fogaras Dánielnek, aki már a Google munkatársa, a közös munkáért.


Kulcszavak: hasonlóságkeresés, hivatkozás, keresés, keresőrendszerek, spam, személyre szabás, világháló


1 A kutatás az Egyetemközi Informatikai és Távközlési Központ (ETIK) és az NKFP-2/024/2006 kutatási pályázat támogatásával készült.

2 Larry Page nevéből; nem fordítható LapRangnak.

3 Elektronikus levelek esetén szokásos a spam szó "kéretlen levél" fordítása, azonban az elsősorban keresőrendszerek megtévesztésére készült spam oldalak megnevezésére hasonlóan találó magyar elnevezést nem ismerünk.



1. ábra * Az adott darab weboldalt (vízszintes tengely) tartalmazó szerverek darabszáma (függőleges tengely) a keres.sztaki.hu egy 2006 tavaszi.hu tartományon történt letöltésében.

2. ábra * A támogatók rangjának és a támogatás erősségének szorzata, bal oldalon a leggyengébb, jobb oldalon a legerősebb támogatóval. A jobb szélső egyetlen pont a vizsgált oldal mint saját maga legerősebb támogatója. A függőleges és vízszintes skála is logaritmikus.


IRODALOM

Alon, Noga - Matias, Y. - Szegedy M. (1999): The Space Complexity of Approximating the Frequency Moments. Journal of Computer and System Sciences. 58, 137-147.

Barabási Albert-László (2003): Behálózva: A hálózatok új tudománya. Magyar Könyvklub, Budapest

Benczúr András A. - Csalogány K. - Sarlós T. - Uher M. (2005): SpamRank - Fully Automatic Link Spam Detection. In: Proc. AIRWeb'05 Workshop in Conjunction with WWW2005.

Benczúr András A. - Csalogány K. - Sarlós T. (2006): LinkBased Similarity Search to Fight Web Spam. In: Proc. AIRWeb'06 Workshop in Conjunction with SIGIR2006.

Brin, S. - Page, L. (1998): The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Networks and ISDN Systems. 30, 1-7, 107-117.

Broder, Andrei - Kumar, R. - Maghoul, F. - Raghavan, P. - Rajagopalan, S. - Stata, R. - Tomkins, A. - Wiener, J. (2000): Graph Structure in the Web, In Proc. 9th WWW conference, 309-320.

Fogaras Dániel - Rácz Balázs (2005): Scaling Link-based Similarity Search. In Proc. 14th WWW conference. 641-650.

Fogaras Dániel - Rácz B. - Csalogány K. - Sarlós T. (2005): Towards Scaling Fully Personalized PageRank. Internet Mathematics. 2, 3, 333-358.

Friedman Eszter - Uher, M. - Windhager E. (2003): Keresés a Világhálón. Híradástechnika. 3, 58.

Gyöngyi Zoltán - Garcia-Molina, H. - Pedersen, J. (2004): Combating Web Spam with TrustRank. In:Proc. 30th VLDB conference. 576-587.

Jeh, Glen - Widom, Jennifer (2003): Scaling Personalized Web Search. In: Proc. of 12th WWW conference. 271-279.

Ntoulas, Alexandros - Najork, M. - Manasse, M. A. (2006): Detecting Spam Web Pages through Content Analysis. In: Proc 15th WWW Conference.

Page, Lawrence - Brin, S. - Motwani, R. - Winograd, T. (1999): The PageRank Citation Ranking: Bringing Order to the Web. Technical Report 1999-66. Stanford University.

Sarlós Tamás - Benczúr A. A. - Csalogány K. - Fogaras D. - Rácz B. (2006): To Randomize or Not to Randomize: Space Optimal Summaries for Hyperlink Analysis. In: Proc. 15th WWW Conference.

Search Engine Watch. http://searchenginewatch.com/reports/article.php/2156481(letöltve 2006 június).

Wu, Baoning - Goel, V. - Davison, B. D. (2006): Propagating Trust and Distrust to Demote Web Spam. In: Workshop on Models of Trust for the Web


<-- Vissza a 2006/11 szám tartalomjegyzékére


<-- Vissza a Magyar Tudomány honlapra