Συνιστάται, 2024

Η επιλογή των συντακτών

Η αδυναμία των Windows δεν αναφέρει κανείς: Αναγνώριση ομιλίας

ὉμήÏ?ου ὈδÏ?σσεια (Ραψῳδία 14) - The Odyssey (Book 14)

ὉμήÏ?ου ὈδÏ?σσεια (Ραψῳδία 14) - The Odyssey (Book 14)

Πίνακας περιεχομένων:

Anonim

Αυτή η ιστορία δημοσιεύθηκε αρχικά στις 7 Οκτωβρίου 2016 και ενημερώθηκε στις 10 Μαΐου 2017 με νέες πληροφορίες. ήθελα να μιλήσω. Ενώ το λειτουργικό σύστημα σας επιτρέπει να σκαρφαλώνετε σημειώσεις με γραφίδα, συνδεθείτε με το πρόσωπό σας (ή ασφαλίστε τον ιστό) μέσω των Windows Hello, ακόμη και να παραγγείλετε την Cortana για να ορίσετε υπενθύμιση, τι δεν είναι τόσο πρόθυμο να κάνετε, προφανώς, μηχανή αναγνώρισης ομιλίας για να εκδίδει εντολές ή να λαμβάνει φωνητική υπαγόρευση

Ο λόγος για τη σιωπή της μπορεί να πάει πίσω 10 χρόνια, όταν ο διαχειριστής προϊόντων της Microsoft, Shanen Boettcher, παρουσίασε φωνητική υπαγόρευση μέσα στα Windows Vista. Η τεχνολογία συνέχισε να έχει χαμηλό προφίλ μετά από αυτό, και σήμερα, λίγοι χρήστες γνωρίζουν ότι μπορείτε να υπαγορεύσετε ένα έγγραφο μέσα στα Windows.

Αν υπήρχε πάντα χρόνος για να δοκιμάσουν ξανά τα Windows, φαίνεται ότι τώρα, όταν οι πρόοδοι στους υπολογιστές και την τεχνητή νοημοσύνη παρέχουν μια πολύ καλύτερη βάση για την τεχνολογία. Και το έχει.

Στη διάσκεψη προγραμματιστών Build 2017, η Microsoft παρουσίασε μια νέα προεπισκόπηση του Video Indexer που όχι μόνο μεταγράφει το βίντεο, αλλά ταυτόχρονα αναγνωρίζει το ηχείο, παρέχει προαιρετικές μεταφράσεις σε έως και εννέα γλώσσες, δημιουργεί αυτόματα υπότιτλους και υποθέτει τι τα αντικείμενα ή οι επικαλύψεις βρίσκονται στην οθόνη. Εκτελεί ακόμη βασική ανάλυση συναισθημάτων, καθορίζοντας αν οι λέξεις που χρησιμοποιούνται είναι θετικές ή αρνητικές. Και είναι όλα αναζητήσιμα μέσω μιας πύλης Web: Εάν θέλετε να δείτε μόνο το κείμενο από ένα συγκεκριμένο ομιλητή, μπορείτε.

Mark Hachman / IDG

Το Video Indexer της Microsoft τραβά ένα απίστευτο ποσό πληροφοριών από τα βίντεο που έχουν μεταφορτωθεί σε αυτό.

Το Ευρετήριο βίντεο είναι ένα παράδειγμα του πώς η Microsoft εφαρμόζει την τεχνητή νοημοσύνη στις καθημερινές εργασίες. Για παράδειγμα, η εταιρεία παρουσίασε μια συνάρτηση PowerPoint Translator που θα επιτρέπει στους χρήστες να ρυθμίζουν αυτόματα μια παρουσίαση PowerPoint στη μητρική τους γλώσσα. Ο ευρετήριο βίντεο, όμως, πηγαίνει πολύ πιο πέρα.

Σύμφωνα με τον διευθυντή προϊόντος για το Video Indexer, Milan Gada, ο ευρετήριο δεν μπορεί να ταυτοποιήσει άμεσα κάθε ηχείο σε ένα βίντεο. Αλλά αν ένας χρήστης αναγνωρίσει ένα "άγνωστο" ομιλητή με το όνομά του, ολόκληρη η βάση δεδομένων θα ενημερωθεί με τις σωστές πληροφορίες, είπε. Το Video Indexer επιτρέπει επίσης γρήγορα την αναζήτηση ενός βίντεο, επιτρέποντας στους καταναλωτές να μεταβούν δεξιά από εκεί που ενδιαφέρονται περισσότερο.

Ο Mark Hachman / IDG

Βίντεο Indexer μεταφράζει αυτόματα ενσωματωμένο ήχο στο βίντεο.

Ότι όλα θέτουν το ερώτημα: αν η Microsoft μπορεί να παραδώσει μια λύση όπως αυτή για τους εταιρικούς πελάτες, γιατί δεν μπορεί τουλάχιστον να αξιοποιήσει την ισχύ της Cortana για να προσφέρει τα ίδια χαρακτηριστικά για τους καταναλωτές;

Η σιωπή της Microsoft σχετικά με την υπαγόρευση ομιλίας

"Αυτή είναι μια τόσο μεγάλη ερώτηση", δήλωσε ο Harry Shum, ο εκτελεστικός αντιπρόεδρος που επιβλέπει την έρευνα αναγνώρισης ομιλίας της Microsoft, καθώς και η Cortana και ο Bing, όταν ρωτήθηκαν πέρυσι για το μέλλον υπαγόρευσης στο Microsoft Office. "Δεν υπάρχει κανένας λόγος για τον οποίο δεν διαδραματίζει ακόμα πιο σημαντικό ρόλο."

Αποφασίσαμε να του δώσουμε άλλη μια πιθανότητα: Βυθίσαμε τα χαρακτηριστικά φωνητικής υπαγόρευσης των Windows για να δούμε πώς συγκρίνονται με τις πιο πρόσφατες τεχνολογίες ομιλίας .

Ρωτήστε το Word 2016 σχετικά με την υπαγόρευση και είναι σαν να μην ακούστηκε ποτέ ποτέ ούτε ο όρος από την εφαρμογή. Το Word εμφανίζει μια παρόμοια απάντηση για την "αναγνώριση ομιλίας".

Γιατί η αναγνώριση ομιλίας δεν μπορεί να είναι υπερβολικά τέλεια

Μερικοί από εμάς εξακολουθούν να σκέφτονται την υπαγόρευση φωνής με τον ίδιο τρόπο

Doonesbury στρέφοντας "γράφω μια δοκιμαστική πρόταση" στο "Siam αγωνιστική ατομική φρουρά". Και θα σας συγχωρούσαμε και για το σκεπτόμενο αυτό: Το Windows Speech Recognition τροφοδοτείται από το Microsoft Speech Recognizer 8.0, το οποίο παρέμεινε κυριολεκτικά αμετάβλητο από το Vista. Ο Shum το αποκαλούσε τεχνολογία "παππού". Ωστόσο, το

που έχει αλλάξει είναι το υλικό: Η ακρόαση και η ερμηνεία της ομιλίας απαιτεί πολύ λιγότερη ενέργεια επεξεργασίας από ό, τι πριν από μία δεκαετία. Η ποιότητα των ενσωματωμένων μικροφώνων συστοιχίας σε υπολογιστές, όπως το Surface Book, σημαίνει ότι δεν απαιτούνται απαραίτητα ειδικά ακουστικά για την επίτευξη ανώτερης ακρίβειας. Η φωνητική υπαγόρευση για τις μάζες είναι εδώ, έτσι; Όταν δοκιμάσαμε τις δυνατότητες ομιλίας των Windows, βίωσα από πρώτο χέρι την ανελέητη τελειότητα που απαιτείται για να μπορεί το σύστημα να χρησιμοποιηθεί. Αυτή η ιστορία έχει 1.028 λέξεις σε αυτήν, συμπεριλαμβανομένων των υποδιαιρέσεων. Αν χρησιμοποιήσατε λογισμικό φωνητικής υπαγόρευσης για να το γράψετε, ένα ποσοστό ακρίβειας 95,0% σημαίνει ότι θα πρέπει να διορθώσετε περισσότερα από πενήντα λάθη. Αυτό γίνεται παλιό γρήγορα.

Στις δοκιμές μου, με βάση μια μεθοδολογία που ανέπτυξα για ένα άλλο προϊόν αναγνώρισης ομιλίας που δοκιμάζω, τα Windows παρήγαγαν ένα ποσοστό ακρίβειας 93,6%, αυτό είναι πολύ κακό στο χαρτί και κάπως πίσω από το ειδικό λογισμικό προσπαθώ. Τα Windows είχαν επίσης μια περίεργη συνήθεια να παρεμβαίνουν τη λέξη "κόμμα" όταν υπαγόρευα το σημείο στίξης. Η κοινότητα ομιλίας φαίνεται να χωρίζεται από το αν σχετικά μικρά λάθη όπως αυτό είναι σημαντικά.

Αυτό, φυσικά, ήταν μόνο η γραμμή βάσης. Καθώς ο καθένας που χρησιμοποίησε λογισμικό υπαγόρευσης μπορεί να σας πει, το κλειδί για την ακρίβεια είναι η εκπαίδευση. Με την πάροδο του χρόνου, ένα πρόγραμμα φωνητικής υπαγόρευσης μαθαίνει την προφορά σας, είτε προφέρετε το «α» στο βερίκοκο, όπως το «κακό» ή το «πίθηκο», και πώς να φιλτράρετε τα ασυνείδητα λεκτικά τικ. Έχω δει τους υπαλλήλους της Microsoft ισχυρίζονται ότι, με την κατάλληλη εκπαίδευση, η αναγνώριση ομιλίας των Windows ήταν 99% ακριβής. Δέκα λάθη ανά 1000 λέξεις δεν είναι καθόλου κακά.

Πολύ λίγοι από εμάς, ίσως, θέλουν να ξοδέψουν το χρόνο να εκπαιδεύσουν το λογισμικό. Η αναγνώριση ομιλίας των Windows απαιτεί έως και 10 λεπτά για να τρέξει μέσα από λίγες προτάσεις πρακτικής και αισθάνεται σαν μια ζωή. Η Cortana και η Siri δεν χρειάζονται τον ίδιο χρόνο εγκατάστασης, όπως έχουν ήδη εκπαιδευτεί σε εκατομμύρια δείγματα φωνής. Υπάρχει κάτι που πρέπει να ειπωθεί για άμεση ικανοποίηση.

Η ομιλία κατάρτισης στα Windows είναι μια μακρά διαδικασία. Ο χρόνος εγκατάστασης που σχετίζεται με το λογισμικό Dragon του Nuance είναι πολύ μικρότερος, ίσως περίπου ένα λεπτό. Αλλά οι σύγχρονοι ψηφιακοί βοηθοί αναγνωρίζουν αμέσως τα λόγια σας

Αυτό που κάνει την Cortana (που μπορείτε να χρησιμοποιήσετε στον υπολογιστή ή το τηλέφωνό σας) τόσο πολύ καλύτερα από τα αρχικά συστήματα υπαγόρευσης φωνής των Windows είναι η σύνδεσή της με την τεράστια υπολογιστική ισχύ του cloud της Microsoft. Η Microsoft μπορεί να τραγουδήσει και να συσχετίσει τη φωνητική σας είσοδο μαζί με οτιδήποτε άλλα στοιχεία της Microsoft γνωρίζει για εσάς, δημιουργώντας τη νοημοσύνη που είναι η ψυχή της Cortana.

Η Microsoft μιλάει για την αναγνώριση ομιλίας

Λαμβάνοντας υπόψη τις αποδεδειγμένες δεξιότητες της Cortana, πάρτε στο επίκεντρο. Αλλά στο Build 2016, στελέχη δήλωσαν ότι οι δυνατότητες υπαγόρευσης δεν θα προστεθούν στο Office. Τον περασμένο Οκτώβριο, όμως, ο επικεφαλής διευθύνων σύμβουλος της Satya Nadella, στο συνέδριο Ignite, ζωγράφισε την αναγνώριση ομιλίας ως κρίσιμη συνιστώσα του μέλλοντος της Microsoft.

Πάρτε το Skype Translator, για παράδειγμα. Ο μεταφραστής καθολικής μετάφρασης

Star Trek της Microsoft εξαρτάται από τρεις διαφορετικές πτυχές έρευνας, σύμφωνα με το Nadella: αναγνώριση ομιλίας, σύνθεση ομιλίας και μηχανική μετάφραση. "Ακόμα και μέσα στο Word ή το Outlook όταν γράφετε ένα έγγραφο, τώρα δεν έχουμε απλή διόρθωση ορθογραφίας με βάση το θησαυρό", δήλωσε ο Nadella, προσθέτοντας ότι το γραφείο μπορεί να αντισταθμίσει ακόμη και τη δυσλεξία. "Έχουμε πλήρη υπολογιστική γλωσσική κατανόηση για το τι χτίζετε. Ή τι γράφετε. "

Όμως δεν είναι αυτό που είστε

λέγοντας , προφανώς. Microsoft

Ο διευθύνων σύμβουλος της Microsoft, Satya Nadella, στέκεται δίπλα στο ντέφι NFL Deion Sanders στο συνέδριο Ignite της Microsoft. Έχει η Microsoft ξεπεράσει την ευκαιρία υπαγόρευσης;

Κατά τη διάρκεια της ίδιας ομιλίας, η Nadella καυχήθηκε ότι οι αλγόριθμοι ομιλίας της Microsoft πέτυχαν ένα ποσοστό σφάλματος λόγου 6,9% χρησιμοποιώντας το τεστ πίνακα NIST. Αυτό ακούγεται άσχημα: αυτή είναι η ακρίβεια περίπου 93,1%. Όμως, η δοκιμή του πίνακα ελέγχου χρησιμοποιεί ρυθμούς δειγματοληψίας μόλις 8KHz, για την ποιότητα μιας τηλεφωνικής συνομιλίας κατά το έτος 2000. Ο Windows Media Audio 10, ο κωδικοποιητής μέσα στο OneNote, μπορεί να αποτυπώσει ήχο μέχρι και 48KHz, παρέχοντας πολύ πιο ακριβή δείγματα.

Νομίζω ότι είναι αρκετά προφανές ότι τα κομμάτια του παζλ είναι εκεί, τεχνικά. Εάν υπάρχει κάποιο εμπόδιο, μπορεί να είναι οργανωτικό: Οι εφαρμογές του Office της Microsoft έχουν περιστραφεί στη δική τους ομάδα, μακριά από την Cortana και τον Bing. Ο Shum, ωστόσο, δήλωσε ότι η νοημοσύνη εξακολουθεί να αποτελεί μέρος των προσφορών της Microsoft. "Εξασφαλίζουμε ότι εισάγουμε τεχνολογία AI σε όλα τα προϊόντα της Microsoft", δήλωσε τον Οκτώβριο.

Οι εκπρόσωποι της Microsoft ανέφεραν επίσης ότι οι χρήστες θα πρέπει να περιμένουν περισσότερα από τη Microsoft στο μέλλον.

"Βλέπουμε αξία στις συνομιλίες σε μια σειρά συσκευών και εμπειριών", δήλωσε η Microsoft σε μια δήλωση του Οκτωβρίου. "Είμαστε στην αρχή ό, τι πιστεύουμε ότι είναι εφικτό και σίγουρα βλέπουμε πολλές ευκαιρίες να συνδέσουμε τη Cortana και συνομιλίες σε ορισμένα σενάρια παραγωγικότητας. Σήμερα, η Cortana ενσωματώνει στο Office 365 πληροφορίες για τις προσεχείς συναντήσεις, μαζί με την παρακολούθηση πτήσεων και πακέτων, ενώ η Bing παρέχει επίσης έξυπνες πληροφορίες απευθείας στο Office. Θα συνεχίσουμε να επενδύουμε πολύ εδώ. "

Εάν η Microsoft πιστεύει αληθινά στην παραγωγικότητα, το μέλλον της αναγνώρισης ομιλίας στο PC σας πιθανώς δεν χρησιμοποιεί το Skype για να κλείσει ένα ξενοδοχείο στο Μπαγκλαντές. Γράφει για την εμπειρία - αλλά με τη φωνή σας και όχι με τα δάχτυλά σας.

Top