Συνιστάται, 2024

Η επιλογή των συντακτών

Το πρόγραμμα Google μιμείται τον ανθρώπινο εγκέφαλο και το όραμα για αυτόματες λεζάντες

How to change a Fuel Filter (GM, Honda, Toyota Style)

How to change a Fuel Filter (GM, Honda, Toyota Style)
Anonim

Την επόμενη φορά που θα προσπαθήσετε να γράψετε μια λεζάντα φωτογραφίας, δοκιμάστε το Google

Ο γίγαντας της αναζήτησης έχει αναπτύξει ένα σύστημα εκμάθησης μηχανών που μπορεί να γράφει αυτόματα και με ακρίβεια λεζάντες για φωτογραφίες, σύμφωνα με μια ανάρτηση στο Google Research Blog

Η καινοτομία θα μπορούσε να διευκολύνει την αναζήτηση εικόνων στο Google, να βοηθήσει άτομα με προβλήματα όρασης να κατανοήσουν το περιεχόμενο της εικόνας και να παράσχουν εναλλακτικό κείμενο για εικόνες όταν οι συνδέσεις στο Internet είναι αργές.

Σε ένα άρθρο που δημοσιεύτηκε στο arXiv, οι ερευνητές της Google Oriol Vinyals , Ο Alexander Tosev, ο Samy Bengio και ο Dumitru Erhan περιέγραψαν τον τρόπο με τον οποίο ανέπτυξαν ένα σύστημα λεζάντας που ονομάζεται NIC.

"Δύο πίτσες που κάθονται στην κορυφή ενός φούρνου φούρνου" είναι το πώς ένα πρόγραμμα της Google de

Η NIC βασίζεται σε τεχνικές από το πεδίο της ορατότητας του υπολογιστή, που επιτρέπει στις μηχανές να δουν τον κόσμο και την επεξεργασία της φυσικής γλώσσας, η οποία προσπαθεί να καταστήσει την ανθρώπινη γλώσσα σημαντική για τους υπολογιστές.

Οι ερευνητές χρησιμοποίησαν δύο διαφορετικά είδη τεχνητών νευρωνικών δικτύων, τα οποία είναι βιολογικά εμπνευσμένα μοντέλα υπολογιστών. Ένα από τα δίκτυα κωδικοποίησε την εικόνα σε μια συμπαγή αναπαράσταση, ενώ το άλλο δίκτυο δημιούργησε μια πρόταση για να την περιγράψει.

Ο στόχος των ερευνητών ήταν να εκπαιδεύσουν το σύστημα ώστε να παράγουν λεζάντες που βασίζονται στα αντικείμενα που αναγνωρίζει στις εικόνες

Τα αποτελέσματα των αξιολογήσεων των λεζάντων του Google, ομαδοποιημένα με βάση την αξιολόγηση από τον άνθρωπο.

Η NIC παρήγαγε ακριβή αποτελέσματα όπως "Μια ομάδα ατόμων που ψωνίζουν σε μια υπαίθρια αγορά" για μια φωτογραφία μιας αγοράς, των λεζάντων με μικρά λάθη, όπως μια εικόνα τριών σκύλων που υπογράμμισε ως δύο σκυλιά, καθώς και μεγάλα σφάλματα, συμπεριλαμβανομένης μιας εικόνας ενός σημείου οδικής κυκλοφορίας που περιέγραφε ως ψυγείο.

Ακόμα, το μοντέλο NIC σημείωσε 59 σε ένα συγκεκριμένο σύνολο δεδομένων όπου η κατάσταση της τεχνολογίας είναι 25 και υψηλότερα είναι καλύτερα, σύμφωνα με τους ερευνητές, οι οποίοι πρόσθεσαν ότι οι άνθρωποι βαθμολογούν περίπου 69. Η απόδοση αξιολογείται χρησιμοποιώντας έναν αλγόριθμο ταξινόμησης που συγκρίνει την ποιότητα του κειμένου που παράγεται από μια μηχανή w «Είναι σαφές από αυτά τα πειράματα ότι, καθώς το μέγεθος των διαθέσιμων συνόλων δεδομένων για την περιγραφή εικόνας αυξάνεται, θα είναι και η απόδοση προσεγγίσεων όπως η NIC», γράφουν οι ερευνητές.

Top