Κυριακή 25 Σεπτεμβρίου 2011

Το reCAPTCHA σας χρησιμοποιεί για την ψηφιοποίηση εγγράφων

Το CAPTCHA, το σύστημα που τοποθετείται σε δικτυακές φόρμες και καλεί τον χρήστη να αναγνωρίσει δυσανάγνωστες λέξεις για να αποδείξει ότι δεν είναι spambot, πιθανότατα το γνωρίζετε όλοι. Αυτό που ίσως δεν γνωρίζατε όμως είναι πως χρησιμοποιώντας μια από τις δημοφιλέστερες εφαρμογές του είδους, το reCAPTHA, είναι πολύ πιθανό να συμμετέχετε στην ψηφιοποίηση χιλιάδων παλιών εγγράφων.

Πιο συγκεκριμένα, το 2009 κάποιες εταιρείες, μεταξύ των οποίων και η Google, αποφάσισαν να ψηφιοποιήσουν παλιές εφημερίδες και περιοδικά χρησιμοποιώντας ειδικό λογισμικό που διαβάζει τις εικόνες των σκαναρισμένων σελίδων για να τις μετατρέψει σε κείμενο. Παρόλα αυτά, εξαιτίας της κακής ποιότητας κάποιων σελίδων ή της ασυνήθιστης γραμματοσειράς που χρησιμοποιούνταν, υπήρχαν κείμενα που ο υπολογιστής αδυνατούσε να διαβάσει.


Για την αντιμετώπιση του προβλήματος η Google εξαγόρασε το reCAPTCHA, που αρχικά είχε αναπτυχθεί στο Πανεπιστήμιο Carnegie Mellon και το τροφοδότησε με τα κείμενα εκείνα που ήταν υπερβολικά δυσανάγνωστα για να διαβαστούν από τους ηλεκτρονικούς υπολογιστές της.

Η ιδέα ήταν έξυπνη, απλή και συμφέρουσα για όλες τις πλευρές: τα spambots δεν μπορούσαν να διαβάσουν τις λέξεις, αφού επιλέγονταν μόνο αυτές που το λογισμικό ψηφιοποίησης αδυνατούσε να διαβάσει. Το φαινόμενο του spamming περιοριζόταν και οι χρήστες χωρίς να το γνωρίζουν συνέβαλλαν στην ψηφιοποίηση χιλιάδων κειμένων, αποκρυπτογραφώντας τα πιο δύσκολα κομμάτια τους.

Η επιτυχία του reCAPTCHA είναι τέτοια που μέχρι το 2010 είχαν ήδη ψηφιοποιηθεί τα τεύχη 20 ετών από τους Times της Νέας Υόρκης, ενώ υπολογίζεται πως το ποσοστό ακρίβειάς του ξεπερνά το 99,5%. Για του λόγου το αληθές, στις εικόνες που ακολουθούν μπορείτε να δείτε ένα τέτοιο κείμενο (πρώτη εικόνα) και να συγκρίνετε την ψηφιοποίηση που έχει γίνει σε αυτό μέσω του λογισμικού OCR (δεύτερη εικόνα) σε σχέση με αυτή που πραγματοποιήθηκε με το reCAPTCHA (τρίτη εικόνα). 




via

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου