Αυτό το σύστημα μηχανικής εκμάθησης μπορεί να προσομοιώσει πώς ένας ακροατής θα άκουγε έναν ήχο από οποιοδήποτε σημείο ενός δωματίου — ScienceDaily

Φανταστείτε τις αντηχούσες χορδές ενός οργάνου με σωλήνες να αντηχούν μέσα από το κοίλο ιερό ενός τεράστιου πέτρινου καθεδρικού ναού.

Ο ήχος που θα ακούσει ένας θεατής του καθεδρικού επηρεάζεται από πολλούς παράγοντες, συμπεριλαμβανομένης της θέσης του οργάνου, όπου στέκεται ο ακροατής, εάν υπάρχουν κολώνες, στασίδια ή άλλα εμπόδια μεταξύ τους, από τι είναι κατασκευασμένοι οι τοίχοι, η θέση των παραθύρων ή πόρτες, κ.λπ. Η ακρόαση ενός ήχου μπορεί να βοηθήσει κάποιον να οραματιστεί το περιβάλλον του.

Ερευνητές στο MIT και το MIT-IBM Watson AI Lab ερευνούν τη χρήση χωρικών ακουστικών πληροφοριών για να βοηθήσουν τις μηχανές να οπτικοποιήσουν καλύτερα και το περιβάλλον τους. Ανέπτυξαν ένα μοντέλο μηχανικής μάθησης που μπορεί να καταγράψει τον τρόπο με τον οποίο οποιοσδήποτε ήχος σε ένα δωμάτιο θα διαδοθεί μέσα στο δωμάτιο, επιτρέποντας στο μοντέλο να προσομοιώσει τι θα άκουγε ένας ακροατής σε διαφορετικές τοποθεσίες.

Με την ακριβή μοντελοποίηση της ακουστικής μιας σκηνής, το σύστημα μπορεί να μάθει την υποκείμενη τρισδιάστατη γεωμετρία ενός δωματίου από ηχογραφήσεις. Οι ερευνητές μπορούν να χρησιμοποιήσουν τις ακουστικές πληροφορίες που συλλαμβάνει το σύστημά τους για να δημιουργήσουν ακριβείς οπτικές αναπαραστάσεις ενός χώρου, παρόμοιες με το πώς οι άνθρωποι χρησιμοποιούν τον ήχο κατά την εκτίμηση των ιδιοτήτων του φυσικού τους περιβάλλοντος.

Εκτός από τις πιθανές εφαρμογές στην εικονική και την επαυξημένη πραγματικότητα, αυτή η τεχνική θα μπορούσε να βοηθήσει τους πράκτορες τεχνητής νοημοσύνης να αναπτύξουν καλύτερη κατανόηση του κόσμου γύρω τους. Για παράδειγμα, με τη μοντελοποίηση των ακουστικών ιδιοτήτων του ήχου στο περιβάλλον του, ένα υποβρύχιο ρομπότ εξερεύνησης μπορεί να αντιληφθεί τα πράγματα πιο μακριά από ό,τι θα μπορούσε μόνο με την όραση, λέει ο Yilun Du, μεταπτυχιακός φοιτητής στο Τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών (EECS). και συν-συγγραφέας μιας εργασίας που περιγράφει το μοντέλο.

“Οι περισσότεροι ερευνητές έχουν επικεντρωθεί μέχρι στιγμής μόνο στη μοντελοποίηση της όρασης. Αλλά ως άνθρωποι, έχουμε πολυτροπική αντίληψη. Δεν είναι μόνο σημαντική η όραση, αλλά και ο ήχος. Νομίζω ότι αυτή η εργασία ανοίγει μια συναρπαστική ερευνητική κατεύθυνση για την καλύτερη χρήση του ήχου για να μοντελοποιήσουμε τον κόσμο », λέει ο Du.

Με εσάς στο χαρτί είναι ο κύριος συγγραφέας Andrew Luo, φοιτητής στο Πανεπιστήμιο Carnegie Mellon (CMU). Michael J. Tarr, Kavčić-Moura Καθηγητής Γνωστικών και Επιστημών του Εγκεφάλου στο CMU. και ανώτεροι συγγραφείς Joshua B. Tenenbaum, Paul E. Newton Καθηγητής Ανάπτυξης Σταδιοδρομίας Γνωστικής Επιστήμης και Υπολογισμού στο Τμήμα Εγκεφάλου και Γνωστικών Επιστημών του MIT και μέλος του Εργαστηρίου Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης (CSAIL). Antonio Torralba, Καθηγητής Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών της Delta Electronics και μέλος της CSAIL. και ο Chuang Gan, κύριος ερευνητικός συνεργάτης στο MIT-IBM Watson AI Lab. Η έρευνα θα παρουσιαστεί στο συνέδριο για τα συστήματα επεξεργασίας νευρωνικών πληροφοριών.

Ήχος και όραση

Στην έρευνα όρασης υπολογιστή, ένας τύπος μοντέλου μηχανικής μάθησης που ονομάζεται μοντέλο σιωπηρής νευρικής αναπαράστασης έχει χρησιμοποιηθεί για τη δημιουργία ομαλών, συνεχών ανακατασκευών τρισδιάστατων σκηνών από εικόνες. Αυτά τα μοντέλα χρησιμοποιούν νευρωνικά δίκτυα, τα οποία περιέχουν στρώματα διασυνδεδεμένων κόμβων ή νευρώνων, που επεξεργάζονται δεδομένα για να ολοκληρώσουν μια εργασία.

Οι ερευνητές του MIT χρησιμοποίησαν τον ίδιο τύπο μοντέλου για να καταγράψουν πώς ο ήχος κινείται συνεχώς μέσα σε μια σκηνή.

Διαπίστωσαν όμως ότι τα μοντέλα όρασης επωφελούνται από μια ιδιότητα γνωστή ως φωτομετρική συνέπεια που δεν ισχύει για τον ήχο. Αν κάποιος κοιτάξει το ίδιο αντικείμενο από δύο διαφορετικά μέρη, το αντικείμενο φαίνεται περίπου το ίδιο. Αλλά με τον ήχο, αλλάξτε τοποθεσία και ο ήχος που ακούτε μπορεί να είναι εντελώς διαφορετικός λόγω εμποδίων, απόστασης κ.λπ. Αυτό καθιστά πολύ δύσκολη την πρόβλεψη του ήχου.

Οι ερευνητές ξεπέρασαν αυτό το πρόβλημα ενσωματώνοντας δύο ιδιότητες της ακουστικής στο μοντέλο τους: την αμοιβαία φύση του ήχου και την επίδραση των τοπικών γεωμετρικών χαρακτηριστικών.

Ο ήχος είναι αμφίδρομος, πράγμα που σημαίνει ότι αν η πηγή ενός ήχου και ο ακροατής αλλάξουν θέση, αυτό που ακούει το άτομο παραμένει αμετάβλητο. Επιπλέον, αυτό που ακούει κανείς σε μια συγκεκριμένη περιοχή επηρεάζεται έντονα από τοπικά χαρακτηριστικά, για παράδειγμα ένα εμπόδιο μεταξύ του ακροατή και της πηγής ήχου.

Για να ενσωματώσουν αυτούς τους δύο παράγοντες στο μοντέλο τους, που ονομάζεται νευρωνικό ακουστικό πεδίο (NAF), αυξάνουν το νευρωνικό δίκτυο με ένα πλέγμα που καταγράφει αντικείμενα και αρχιτεκτονικά χαρακτηριστικά στη σκηνή, όπως πόρτες ή τοίχους. Το μοντέλο λαμβάνει τυχαία δείγματα σημείων στο πλέγμα για να μάθει τα χαρακτηριστικά σε συγκεκριμένες τοποθεσίες.

“Αν φαντάζεστε να στέκεστε κοντά σε μια πόρτα, αυτό που επηρεάζει περισσότερο αυτό που ακούτε είναι η παρουσία αυτής της πόρτας, όχι απαραίτητα γεωμετρικά χαρακτηριστικά μακριά από εσάς στην άλλη πλευρά του δωματίου. Διαπιστώσαμε ότι αυτές οι πληροφορίες επιτρέπουν καλύτερη γενίκευση από μια απλή πλήρως συνδεδεμένο δίκτυο», λέει ο Luo.

Από την πρόβλεψη ήχων μέχρι την οπτικοποίηση σκηνών

Οι ερευνητές μπορούν να τροφοδοτήσουν το NAF με οπτικές πληροφορίες για μια σκηνή και μερικά φασματογράμματα που δείχνουν πώς θα ακούγεται ένα κομμάτι ήχου όταν ο πομπός και ο ακροατής βρίσκονται σε στοχευμένες τοποθεσίες γύρω από το δωμάτιο. Στη συνέχεια, το μοντέλο προβλέπει πώς θα ακούγεται ο ήχος εάν ο ακροατής μετακινηθεί σε οποιοδήποτε σημείο της σκηνής.

Το NAF εκπέμπει μια παλμική απόκριση, η οποία καταγράφει πώς πρέπει να αλλάζει ένας ήχος καθώς διαδίδεται στη σκηνή. Στη συνέχεια, οι ερευνητές χρησιμοποιούν αυτή την παλμική απόκριση σε διαφορετικούς ήχους για να ακούσουν πώς αυτοί οι ήχοι πρέπει να αλλάζουν καθώς ένα άτομο περπατά μέσα από ένα δωμάτιο.

Για παράδειγμα, εάν ένα τραγούδι παίζει από ένα ηχείο στη μέση ενός δωματίου, το μοντέλο τους θα δείξει πώς ο ήχος γίνεται πιο δυνατός καθώς ένα άτομο πλησιάζει το ηχείο και στη συνέχεια σβήνει καθώς βγαίνει σε έναν παρακείμενο διάδρομο.

Όταν οι ερευνητές συνέκριναν την τεχνική τους με άλλες μεθόδους που μοντελοποιούν ακουστικές πληροφορίες, δημιούργησαν πιο ακριβή μοντέλα ήχου σε όλες τις περιπτώσεις. Και επειδή έμαθε τοπικές γεωμετρικές πληροφορίες, το μοντέλο τους ήταν σε θέση να γενικευτεί σε νέες τοποθεσίες σε μια σκηνή πολύ καλύτερα από άλλες μεθόδους.

Επιπλέον, διαπίστωσαν ότι η εφαρμογή των ακουστικών πληροφοριών που μαθαίνει το μοντέλο τους σε ένα μοντέλο όρασης υπολογιστή μπορεί να οδηγήσει σε καλύτερη οπτική ανακατασκευή της σκηνής.

“Όταν έχετε μόνο ένα αραιό σύνολο προβολών, η χρήση αυτών των ακουστικών χαρακτηριστικών σάς δίνει τη δυνατότητα να καταγράψετε τα όρια με μεγαλύτερη ευκρίνεια, για παράδειγμα. Και ίσως αυτό οφείλεται στο ότι για να αναπαραγάγετε με ακρίβεια την ακουστική μιας σκηνής, πρέπει να καταγράψετε το υποκείμενο 3D τη γεωμετρία του αυτή η σκηνή», λέει ο Du.

Οι ερευνητές σχεδιάζουν να συνεχίσουν να βελτιώνουν το μοντέλο, ώστε να μπορεί να γενικευτεί σε εντελώς νέες σκηνές. Θέλουν επίσης να εφαρμόσουν αυτήν την τεχνική σε πιο σύνθετες αντιδράσεις παρορμήσεων και μεγαλύτερες σκηνές, όπως ολόκληρα κτίρια ή ακόμα και μια πόλη ή πόλη.

«Αυτή η νέα τεχνική μπορεί να ανοίξει νέες δυνατότητες για τη δημιουργία μιας πολυτροπικής εμβαπτιστικής εμπειρίας στην εφαρμογή του metaverse», προσθέτει ο Gan.

Αυτή η εργασία υποστηρίζεται εν μέρει από το MIT-IBM Watson AI Lab και το Tianqiao and Chrissy Chen Institute.

Βίντεο: https://youtu.be/9HavzvJuQls

Leave a Comment