Translate

Παρασκευή, 21 Νοεμβρίου 2014

Πως λειτουργεί το Google;

Ανίχνευση και ευρετηρίαση


Η διαδρομή ενός ερωτήματος ξεκινά προτού καν πληκτρολογήσετε ένα ερώτημα αναζήτησης, με την ανίχνευση και την ευρετηρίαση σε τρισεκατομμύρια έγγραφα στον ιστό.


Εντοπισμός πληροφοριών μέσω ανίχνευσης


Χρησιμοποιούμε λογισμικά τα οποία είναι γνωστά ως "ανιχνευτές ιστού" (web crawlers) για να ανακαλύπτουμε ιστοσελίδες οι οποίες είναι διαθέσιμες δημόσια. Ο πιο γνωστός ανιχνευτής είναι το "Googlebot". Οι ανιχνευτές μεταβαίνουν σε ιστοσελίδες και ακολουθούν τους συνδέσμους που περιέχονται σε αυτές, όπως θα κάνατε κι εσείς εάν κάνατε περιήγηση στον ιστό. Μεταβαίνουν από σύνδεσμο σε σύνδεσμο και εμφανίζουν δεδομένα σχετικά με αυτές τις ιστοσελίδες στους διακομιστές του Google.

Η διαδικασία ανίχνευσης ξεκινά με μια λίστα διευθύνσεων ιστού από προηγούμενες ανιχνεύσεις και χάρτες ιστού, οι οποίοι παρέχονται από κατόχους ιστότοπων. Καθώς οι ανιχνευτές μας επισκέπτονται αυτούς τους ιστότοπους, αναζητούν συνδέσμους για άλλες σελίδες τις οποίες θέλουν να επισκεφτούν. Αυτό το λογισμικό εστιάζει σε νέους ιστότοπους, αλλαγές σε υπάρχοντες ιστότοπους και ανενεργούς συνδέσμους.

Τα υπολογιστικά προγράμματα καθορίζουν σε ποιους ιστότοπους θα γίνει ανίχνευση, με ποιον τρόπο και πόσες σελίδες θα αναλυθούν από κάθε ιστότοπο. Η Google δεν δέχεται πληρωμές για πιο συχνή ευρετηρίαση κάποιου ιστότοπου για τα αποτελέσματα αναζήτησης ιστού. Μας ενδιαφέρει περισσότερο να έχουμε τα καλύτερα δυνατά αποτελέσματα, επειδή μακροπρόθεσμα αυτό είναι το καλύτερο για τους χρήστες και, συνεπώς, για την επιχείρησή μας.



Επιλογή κατόχων ιστότοπων


Οι περισσότεροι ιστότοποι δεν εφαρμόζουν περιορισμούς για την ανίχνευση, την ευρετηρίαση ή την εμφάνιση αποτελεσμάτων, για να είναι κατάλληλοι να εμφανιστούν σε αποτελέσματα αναζήτησης χωρίς κόπο. Επιπλέον, οι κάτοχοι ιστότοπων έχουν στη διάθεσή τους πολλές επιλογές όσον αφορά τον τρόπο με τον οποίο το Google ανιχνεύει και ευρετηριάζει τους ιστότοπούς τους μέσω των Εργαλείων για Webmasters και ενός αρχείου με το όνομα "robots.txt". Με το αρχείο robots.txt, οι κάτοχοι ιστότοπων μπορούν να επιλέξουν να μην ανιχνεύονται από το Googlebot ή μπορούν να παράσχουν πιο συγκεκριμένες οδηγίες σχετικά με τον τρόπο επεξεργασίας των σελίδων στους ιστότοπούς τους.

Οι κάτοχοι ιστότοπων έχουν τη δυνατότητα περισσότερο λεπτομερών επιλογών και μπορούν να επιλέξουν με ποιο τρόπο γίνεται η ευρετηρίαση του περιεχομένου ανά σελίδα. Για παράδειγμα, μπορούν να επιλέξουν να γίνεται εμφάνιση των σελίδων τους χωρίς απόσπασμα κώδικα (η περίληψη της σελίδας εμφανίζεται κάτω από τον τίτλο στα αποτελέσματα αναζήτησης) ή κάποια έκδοση προσωρινής αποθήκευσης (μια εναλλακτική έκδοση η οποία αποθηκεύεται στους διακομιστές της Google σε περίπτωση που κάποια ζωντανή σελίδα δεν είναι διαθέσιμη). Οι webmaster μπορούν επίσης να επιλέξουν να ενσωματώσουν την αναζήτηση στις δικές τους σελίδες με προσαρμοσμένη αναζήτηση.




Οργάνωση πληροφοριών μέσω ευρετηρίασης


Ο ιστός μοιάζει με δημόσια βιβλιοθήκη χωρίς κεντρικό σύστημα αρχειοθέτησης, η οποία επεκτείνεται συνεχώς. Ουσιαστικά, η Google συγκεντρώνει τις σελίδες κατά τη διάρκεια της διαδικασίας ανίχνευσης και δημιουργεί έναν κατάλογο, κι έτσι γνωρίζουμε ακριβώς πώς να αναζητήσουμε κάποιο στοιχείο. Όπως και τα ευρετήρια που υπάρχουν στο πίσω τμήμα των βιβλίων, ο κατάλογος Google περιλαμβάνει πληροφορίες σχετικά με λέξεις και τις τοποθεσίες τους. Όταν κάνετε αναζήτηση, στο πιο βασικό επίπεδο, οι αλγόριθμοί μας αναζητούν στον κατάλογο τους όρους αναζήτησης που έχετε ορίσει για να εντοπίσουν κατάλληλες σελίδες.

Από εκεί κι έπειτα, η διαδικασία αναζήτησης γίνεται πολύ πιο περίπλοκη. Όταν αναζητάτε τον όρο "σκυλιά" θέλετε να εμφανιστεί μια σελίδα η οποία περιέχει τη λέξη "σκυλιά" εκατό φορές. Προφανώς θέλετε να εμφανιστούν εικόνες, βίντεο ή μια λίστα με ράτσες. Τα συστήματα ευρετηρίασης της Google σημειώνουν διαφορετικά στοιχεία των σελίδων, όπως την ημερομηνία δημοσίευσής τους, εάν περιέχουν εικόνες και βίντεο και πολλά άλλα. Με το Knowledge Graph (Γράφημα γνώσεων), συνεχίζουμε να υπερβαίνουμε την απλή αντιστοίχιση λέξεων για να κατανοούμε καλύτερα τα άτομα, τα μέρη και τα πράγματα που σας ενδιαφέρουν.