Accesarea cu crawlere şi indexarea

Cum funcționează Căutarea Google

Găsirea informaţiilor prin accesarea cu crawlere

Google utilizează software cunoscut cu numele de „crawlere web” pentru a descoperi pagini web disponibile public. Cel mai cunoscut crawler se numeşte „Googlebot”. Crawlerele accesează paginile web şi urmăresc linkuri din paginile respective, asemenea unei persoane care ar naviga pe web. Acestea merg din link în link pentru a returna serverelor Google date despre respectivele pagini web.

Procesul de accesare cu crawlere începe cu o listă de adrese web de la accesările anterioare şi cu sitemap-uri furnizate de proprietarii site-urilor. Când accesează site-uri, crawlerele caută linkuri către alte pagini. Software-ul acordă atenţie specială site-urilor noi, modificărilor de pe site-urile existente şi linkurilor nevalide.

Site-urile ce vor fi accesate cu crawlere, frecvenţa accesării şi numărul de pagini de preluat de pe fiecare site sunt stabilite de programe informatice. Google nu acceptă plăţi pentru o frecvență mai mare de accesare cu crawlere a unui site. 

Alegere pentru proprietarii de site-uri web

Majoritatea site-urilor nu au nevoie de restricţii pentru accesare cu crawlere, indexare sau afişare, astfel că paginile acestora sunt eligibile pentru a apărea în rezultatele căutării, fără a fi necesare modificări suplimentare. De asemenea, proprietarii de site-uri au la dispoziție numeroase opţiuni pentru accesarea cu crawlere și indexarea site-urilor lor prin Instrumentele Google pentru webmasteri şi un fişier numit „robots.txt”. Utilizând fişierul robots.txt, proprietarii pot alege ca site-urile lor să nu fie accesate cu crawlere de Googlebot sau pot oferi mai multe instrucţiuni privind procesarea paginilor de pe site-urile lor.

Proprietarii site-urilor beneficiază de opţiuni detaliate şi pot alege modul de indexare a conținutului, pentru fiecare pagină în parte. De exemplu, pot opta ca paginile lor să apară fără să se afişeze un fragment (rezumatul paginii afişat sub titlu în rezultatele căutării) sau o versiune salvată în memoria cache (o versiune alternativă stocată pe serverele Google pentru eventualitatea în care pagina live nu este disponibilă).

Organizarea informaţiilor prin indexare

Webul este ca o bibliotecă publică care îşi îmbogăţeşte mereu colecţiile, având miliarde de cărţi, dar niciun sistem de înregistrare centralizat. Practic, Google adună paginile în timpul procesului de accesare cu crawlere, apoi creează un index, astfel încât să ştim exact cum trebuie să căutăm informaţiile. La fel ca indexul de pe spatele unei cărţi, indexul Google include informaţii despre cuvinte şi locaţiile lor. Când faceți o căutare obișnuită, algoritmii noştri caută termenii de căutare în index pentru a găsi paginile potrivite.

De aici procesul de căutare devine mult mai complex. Când căutaţi „câini” , nu doriţi să se afişeze o pagină în care apare de sute de ori cuvântul „câini”. Probabil doriţi fotografii, videoclipuri sau o listă de rase. Sistemele de indexare Google observă numeroase aspecte ale paginilor, cum ar fi: momentul publicării, dacă acestea conţin fotografii şi videoclipuri şi multe altele.

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s