Pentru cei care nu stiu ce face un crawler web voi spune in cateva cuvinte ca poate prelucra documente de tipul XML pe care le parseaza, pe baza unui URL indicat, mai exact putem cu ajutorul lui sa extragem si sa prelucram anumite informatii.
Ce trebuie sau ar trebui sa faca un crawler web?
In primul rand, trebuie sa respecte politica fiecarui site web si, bineinteles, sa foloseasca doar paginile unde este permis acest lucru. Un webmaster poate specifica ce portiuni din site pot fi accesate de crawler, iar crawler-ul trebuie sa respecte aceste indicatii. Chiar daca aceste specificatii nu exista, este bine sa nu fie accesat foarte des acelasi site de catre crawler, exceptie facand site-urile de stiri unde continutul se schimba foarte des.
Este foarte important ca un crawler web sa fie imun la paginile cu "capcane", inclusiv cele generate dinamic, si la paginile spam.
Un crawler bun este capabil sa ruleze pe mai multe masini distribuite si sa fie scalabil. De asemenea, va permite folosirea completa a resurselor.
Pentru a avea o eficienta cat mai buna, crawler-ul va folosi mai intai paginile de calitate mai buna si va face continuu refresh, in cazul in care apar copii mai noi ale acestora.
Nu ar fi rau nici sa fie extensibil si sa se poata adapta la formate de date si protocoale diferite.
Care sunt pasii pe care ii urmeaza un crawler web?
Initial, ia URL-ul si documentul care se gaseste la URL-ul respectiv. Urmeaza parsarea documentului/documentelor. Apoi se verifica daca a fost deja vazut continutul URL-ului respectiv. In caz contrar, este adaugat la index. Pentru fiecare URL extras se verifica daca trece anumite teste de filtrare si daca nu cumva exista un duplicat al acestuia.
In final, daca doriti sa vedeti implementarea unui crawler care analizeaza relatiile sociale dintr-o comunitate web va invitam pe site-ul nostru.
E incredibil, dar adevarat!
Dupa atatea dispute intre webmasterii incepatori, in sfarsit apare ceva care pune punct discutiilor in contradictoriu: ghid-ul SEO de la Google.
In principiu, nu e mare smecherie, in cazul in care stii ce sunt alea meta tag-uri si la ce folosesc cu adevarat, daca stii ce e ala un "alt" pentru o imagine, daca stii ce e ala Search Engine Friendly URL sau alte chestii de genul asta.
Dar daca aceste lucruri te pun un pic in incurcatura, ar fi bine sa arunci o privire pe acest ghid, mai ales ca e "de la mama lui". :)
Sumarizarea rezultatelor
Dupa efectuarea unei cautari folosind un SE obtinem (speram) un anumit numar de rezultate. De obicei acest numar este foarte mare si nu vom avea nici timpul nici rabdarea sa accesam toate rezultatele pentru a vedea daca este sau nu ce ne trebuie. Si atunci, ce anume ne determina sa ne uitam sau nu la un anumit rezultat? Cu acest scop au aparut asa-numitele "sumare" ale paginilor intoarse ca rezultat. Fiecare rezultat afiseaza in afara de titlu si o mica fraza, pe care noi o citim si decidem daca pagina respectiva are potential sa ne ofere ceea ce cautam.
Dar cum se obtin aceste sumare?
In primul rand trebuie mentionat ca sumarele sunt de doua feluri: statice sau dinamice (numite si snippet). In timp ce un sumar static va fi mereu acelasi indiferent de cautarea care a intors documentul, sumarul dinamic este dependent de query (cuvintele dupa care se face cautarea) si incearca sa explice de ce a fost ales acel document.
In general, un sumar static este o mica parte din document. Cea mai simpla metoda de a extrage un sumar este folosirea primelor x cuvinte din document. O metoda mai complexa este de a extrage cateva dintre propozitiile cheie.
Sumarul dinamic se bazeaza pe query, dupa cum am mai spus, astfel ca daca gaseste o fraza care sa corespunda query-ului, va extrage cateva sau toate aparitiile acestei fraze in document, in caz contrar fragmente de text care contin cat mai multe din cuvintele cautate.
Evaluarea SE (search engine)
Am vorbit despre cum ne prezinta un SE rezultatele pe care le gaseste. Si totusi, cum putem aprecia cat de bine si-a facut acesta datoria? Simplu...folosind anumite "unitati de masura", care pot fi obiective sau subiective.
Evaluarea obiectiva se bazeaza pe criterii cum ar fi:
- viteza de indexare (numar de documente/ora)
- viteza de cautare
- complexitatea limbajului de cautare (cat de complexe pot fi query-urile folosite)
Nu in ultimul rand, evaluarea unui SE se face si pe baza relevantei rezultatelor. Ne intereseaza cate rezultate din cele obtinute sunt relevante si cate nu ne sunt de folos.
Pentru a masura relevanta ne folosim de doua proprietati: precizie si recall.
Precizia determina procentul de rezultate relevante din totalul celor gasite.
precizie = relevant gasit / (relevant gasit + irelevant gasit)
Recall-ul determina procentul de rezultate relevante existente.
recall = relevant gasit /(relevant gasit + relevant negasit)
Etichete: evaluare, motor cautare, query, search engine, snippet, sumar
Salut!
Tocmai am pus pe www.interfete-web.info un articol interesant despre 2 plugin-uri de Eclipse pe care le puteti folosi pentru a va asigura ca scrieti cod Java bine. In plus, am zis si de cateva chestii noi despre imbunatatirile aduse instrumentelor pentru web services in Eclipse Ganymede.
Etichete: Checkstyle, Eclipse Ganymede, FindBugs, web, www.interfete-web.info
XML (Extensible Markup Language) este folosit pentru crearea de limbaje de marcare si poate fi clasificat drept un limbaj extensibil deoarece le permite utilizatorilor sai sa-si defineasca propriile elemente.Principalele lui scopuri sunt de a ajuta transferul de date structurate intre aplicatii pe Internet, de a coda documente si de a serializa date.
Ce face XML?
XML poate fi folosit pentru a structura datele, folosind regulile care il definesc, dar nu este un limbaj de programare si poate fi deci folosit de oricine, fara a avea cunostinte de programare.
Alta facilitate a XML este aceea ca permite utilizatorului sa combine mai multe formate, obtinand astfel un format nou de fisier. Totusi, pot aparea confuzii daca de exemplu doua elemente au acelasi nume. In acest caz XML ne vine in ajutor cu mecanismul "namespace" sau domenii pentru nume (vezi XLS, RDF).
Asemanator cu HTML, XML foloseste tag-uri si atribute, acestea avand rolul de a delimita datele pentru a putea fi interpretate de aplicatii, in timp ce in HTML folosesc pentru aranjarea textului in browser.
XML mai poate fi folosit pentru a crea XHTML. Cum? Se ia un fisier HTML, i se schimba sintaxa atat cat este nevoie pentru a corespunde regulilor XML (vezi corectitudinea unui fisier XML) si s-a obtinut XHTML-ul.
In ceea ce priveste corectitudinea unui document XML, acesta trebuie sa respecte doua conditii:
- sa fie bine-format: sa respecte toate regulile de sintaxa. De exemplu: daca un start-tag nu are un end-tag corespunzator, documentul nu este bine format si nu va fi considerat XML
- sa fie valid: trebuie sa respecte cateva reguli semantice aditionale. De exemplu: un document ce contine un element nedefinit nu este valid
HTML este utilizat pentru:
- a afisa datele
- a defini vizual datele
- a arata cum sunt afisate datele
- a transporta datele
- a descrie datele
- a arata cum sunt utilizate datele
Lume lume, avem o stire senzationala: "Au gasit-o pe Elodia".
Au gasit-o pe Elodia
Cam asa s-au gandit niste colegi de-ai nostri sa-si promoveze site-ul. Destul de ingenios!
"Analytics has been successfully installed and data is being gathered now." - asta e mesajul de intampinare pe care il primesti cand iti inscrii site-ul pentru a fi monitorizat de catre celebrul Google Analytics.
Asadar, site-ul nostru, www.interfete-web.info a fost inscris pentru monitorizare.
Asteptam cu interes un grafic al vizitelor pentru prima saptamana. :)
Etichete: google analitycs, inscriere analytics
Site-ul nostru, http://www.interfete-web.info , in care vom trata subiectul interfete-web a fost inaugurat astazi, 02.11.2008.
Ideea site-ului vine din cerinta unui proiect de la cursul Interfete-Evoluate, de la Facultatea de Automatica si Calculatoare, Universitatea Politehnica Bucuresti.
Etichete: interfete web
Postări mai noi Pagina de pornire