Átállás saját crawler hardwer-ről Amazon EC2-re
Emiatt a dolog teljes beállásáig előfordulhat, mint ma és tegnap is, hogy a találati lista nem teljes, vagy a weboldal nem elérhető, hiányzó adatokkal indul el.
A látogatók szíves elnézését kérem, igyekszek mihamarabb úrrá lenni a problémákon, most úgy becsülöm a hét közepére már a korábbi szinten lesz az állásajánlatok száma.
Az átállással lehetőség lesz arra, hogy az adatbázist minden nap nulláról kezdjem újra, és csak a napi sikeres találatok letöltött tartalma, illetve a korábban sikeres találatok url-jei lesznek eltárolva. Ez eddig is felesleges volt, mert nem használtam az adatokat semmire, csak költség és macera volt az eltárolásuk.
Ennél fontosabb következmény, hogy így remélhetőleg több, és frissebb találatok lesznek a rendszerben, mert a hét közben bekerült újabb állásajánlatok már másnap megjelennek.
Eddig előfordulhatott az, hogy egy cég karrier aloldalát, amiről részletes állásajánlatokat tartalmazó oldalak nyíltak, csak a hétvégi frissítés során töltöttem le, hétköznap ez már nem frissült. Így ha pl. szerdán jelent meg rajta egy újabb állásajánlatra mutató link, ezt a linket sem követte a robot, az csak a következő hétvégi frissítéssel került volna be.
A megoldás hátránya lehet viszont, hogy a sok linken át követhető, mélyen elrejtett állásajánlatokat nem fogja tudni előszedni a rendszer. Tapasztalataim szerint a főoldalról az állásajánlatok linkjei legfeljebb 3-4 linket követve elérhetőek, ezért nem hiszem hogy jelentős veszteségekre kell felkészülni.
Utolsó kommentek