Information

Forscher suchen im Gehirn nach Algorithmen für das Cocktailparty-Problem

Forscher suchen im Gehirn nach Algorithmen für das Cocktailparty-Problem

Die Fähigkeit eines Computers, einige Signale zu erkennen, die in einer Masse von verrauschten Daten verborgen sind, andere jedoch nicht, ist ein bekanntes und derzeit unlösbares Problem für Informatiker, die auf dem Gebiet der Sprach- und Tonverarbeitung arbeiten. Bekannt als das Cocktailparty-Problem, sind Algorithmen, die eine bestimmte Stimme identifizieren und verstärken können, während sie die Kakophonie anderer Stimmen, Geräusche und Verzerrungen dämpfen, die von der Umgebung erzeugt werden, bis heute schwer fassbar geblieben.

VERBINDUNG: DIESES HIRN-COMPUTER-GERÄT STIMMT DENEN, DIE NICHT SPRECHEN KÖNNEN

Glücklicherweise müssen Wissenschaftler ein System modellieren, um dieses Problem zu lösen: das menschliche Gehirn. Menschen sind soziale Tiere, und als solche hat sich unser Gehirn stark weiterentwickelt, um die Stimme der Person, mit der wir sprechen, zu isolieren und sich darauf zu konzentrieren, andere Stimmen und Umgebungsgeräusche zu dämpfen und oft sogar zu unterdrücken, um zu hören, was eine Person sagt. Jetzt machen die Forscher bedeutende Fortschritte beim Verständnis, wie das Gehirn eine bestimmte Stimme unter vielen isoliert und verarbeitet, und entwickeln neue Ansätze zur Lösung des Problems.

Der Cocktailparty-Effekt

Der sogenannte Cocktailparty-Effekt ist die Fähigkeit des menschlichen Gehirns, sich auf eine einzelne Stimme in einer Menschenmenge zu konzentrieren und sie vom Umgebungslärm zu isolieren. Während dies für manche ziemlich einfach zu sein scheint, ist es einfach, den Cocktailparty-Effekt als selbstverständlich zu betrachten und nicht zu schätzen, wie außergewöhnlich ein neurologischer Prozess ist.

In einer Menschenmenge sind Stimmen Störungen in der Umgebungsluft, die sich ineinander schlagen und zerstreuen, was es schwierig macht, eine Stimme zu hören, es sei denn, sie überwältigt einfach alle anderen, die schreien oder ähnliches. Da dies keine ideale Lösung für das Cocktailparty-Problem ist, tun unsere Gehirne stattdessen etwas anderes, das ziemlich außergewöhnlich ist.

In Sekundenbruchteilen identifiziert und isoliert unser Gehirn das Sprachsignal der Person, die wir hören möchten, und verstärkt es. Anschließend werden alle anderen Sprachsignale oder Geräusche gefiltert oder maskiert, sodass diese Geräusche unterdrückt werden, sodass wir hören können, was eine Person unter den meisten sozialen Umständen sagt.

Jeden Tag verarbeitet unser Gehirn eine Unendlichkeit von Geräuschen, die es in Bruchteilen von Sekunden priorisiert. Und gerade als sie ständig das Bild dieses Teils unserer Nase entfernen, der sich physisch in unser ansonsten ungehindertes Sichtfeld erstreckt, verstärkt unser Gehirn die Geräusche, auf die wir uns konzentrieren, und unterdrückt die anderen Geräusche mit niedrigerer Priorität in der Umgebung, so dass sie funktionell verschwinden.

Aber wie genau unser Gehirn diesen unglaublichen Cocktailparty-Effekt erzielt, war jahrzehntelang ein Rätsel, nachdem das „Cocktailparty-Problem“ in den 1950er Jahren erstmals von Forschern diskutiert wurde. Glücklicherweise hat die Forschung der letzten Jahre Aufschluss darüber gegeben, wie unser Gehirn diese wichtigen Sprachsignale in sozialen Umgebungen identifiziert und isoliert. Dies bringt uns der Replikation desselben Prozesses mit einer Maschine viel näher als je zuvor.

Trennung verschiedener Sprachsignale im auditorischen Kortex

Das letztes Jahrzehnt Unser Verständnis, wie Menschen Sprache und Sprache identifizieren und verarbeiten, hat sich erheblich verbessert. Ein Forscherpaar, das vom US-amerikanischen National Institute on Deafness and Other Communication Disorders unterstützt wird, veröffentlicht ein bemerkenswertes Papier in der Zeitschrift Natur im 2012 Dies zeigte, wie wir nicht nur sehen konnten, wie das Gehirn konkurrierende Sprachsignale filterte und unterschied, sondern die Forscher sogar vorhersagen konnten, welches Wort der Befragte hörte.

Edward Chang, Ph.D., Neurochirurg und außerordentlicher Professor an der Universität von Kalifornien in San Francisco (UCSF), wollte zunächst nicht herausfinden, wie Menschen den Cocktailparty-Effekt erzielen. Er behandelte Patienten mit Epilepsie. Er implantierte ein Blatt 256 Elektroden direkt unter dem Schädel seiner Patienten, um die elektrische Aktivität in der äußeren Schicht der Neuronen ihrer Temporallappen zu überwachen.

Chang und Nima Mesgarani, Ph.D., Postdoktorandin an der UCSF, stellten fest, dass diese Patienten ihnen eine seltene Gelegenheit boten. Mit ihrer ausgeklügelten Ausrüstung, die empfindlich genug war, um das Abfeuern eines einzelnen Neurons zu erkennen, und der Tatsache, dass die intrakraniellen Elektroden auch den auditorischen Kortex überwachen könnten, der sich im Temporallappen befindet, konnten sie dies untersuchen wie das Gehirn Klänge in beispiellosen Details verarbeitet.

Drei freiwillige Probanden hörten sich simultane Audioaufnahmen an, eine von einer Frau und die andere von einem Mann, mit Anweisungen, auf eines der beiden spezifischen Zielwörter zu hören, mit denen das Audio-Sample beginnen würde, und berichteten dann über die Stimme im Audio Probe sagte nach diesen Worten. Bei der Analyse der Messwerte von den Elektroden mithilfe eines Decodierungsalgorithmus, der Muster identifizieren und das, was das Subjekt hörte, rekonstruieren konnte, stellten die Forscher fest, dass die Messwerte von den Elektroden nur das Muster des Zielsprechers aufnahmen, was bedeutet, dass der auditive Kortex das Nicht-Signal ignoriert. Ziellautsprecher vollständig.

"Viele Leute dachten, dass der auditive Kortex diese Informationen nur an den kognitiven Teil des Gehirns, den frontalen Kortex und die exekutiven Kontrollbereiche weiterleitet, wo sie wirklich verarbeitet werden", sagte Chang Der auditive Kortex ist an und für sich ziemlich raffiniert. Es ist, als ob er weiß, welche Klänge zusammengefasst werden sollen, und nur diejenigen extrahiert, die für den einzelnen Sprecher relevant sind. “

Noch bemerkenswerter ist die Tatsache, dass der Decodierungsalgorithmus allein anhand der neuronalen Aktivität vorhersagen konnte, welchen Sprecher das Subjekt hörte, und dass er den Moment erkennen konnte, in dem sich die Aufmerksamkeit des Subjekts auf den anderen Sprecher verlagerte oder verirrte. Dies sagt uns, dass der auditive Kortex der Schlüssel zum Verständnis ist, wie das menschliche Gehirn mit dem Cocktailparty-Problem auf eine Weise umgehen kann, die Computer derzeit nicht können.

Die Stimme vom Klang unterscheiden

Während ein Computer die neuronale Aktivität des Gehirns entschlüsseln und genau wissen kann, was der auditive Kortex tatsächlich gehört hat, reicht dies nicht aus, um das Cocktailparty-Problem allein zu überwinden. Wir müssen noch wissen, wie es ist, dass das Gehirn diese Unterscheidungen tatsächlich trifft und Sprachsignale und andere Umgebungsgeräusche unterscheidet, um sich auf die Zielstimme zu konzentrieren.

Forscher der Universität Genf (UNIGE) und der Universität Maastricht in den Niederlanden haben diesen Sommer einen Artikel in der Zeitschrift veröffentlicht Natur Menschliches Verhalten das versuchte, an den Wurzelmechanismus dieses Prozesses zu gelangen, nämlich wie das Gehirn die Stimmen verarbeitet, die wir hören, und die Wörter, die gesprochen werden.

Zu diesem Zweck entwickelten die Forscher eine Sammlung von Pseudowörtern - Wörter ohne Bedeutung -, die von einem ausgebildeten Phonetiker in drei verschiedenen Tonhöhen gesprochen wurden. Die Probanden, die die Stimmproben hörten, wurden dann gebeten, die spezifischen Höraufgaben der Unterscheidung zwischen verschiedenen Tonhöhen derselben Stimme oder durch Hören der Sprachlaute selbst, die als Phoneme bekannt sind, auszuführen.

"Wir haben 120 Pseudowörter erstellt, die der Phonologie der französischen Sprache entsprechen, aber keinen Sinn ergeben, um sicherzustellen, dass die semantische Verarbeitung die reine Wahrnehmung der Phoneme nicht beeinträchtigt", sagte Narly Golestani, Professor in der Abteilung für Psychologie an der UNIGE Fakultät für Psychologie und Erziehungswissenschaften (FPES) und Mitautor des Papiers.

Sanne Rutten, Forscherin am UNIGE FPES und Mitautorin des Papiers, sagte, dass die Aufgabe, die Stimmen des Sprechers zu unterscheiden, für das Subjekt so schwierig wie möglich sein müsse, um die Art und Weise, wie das Gehirn dieses Gehör ausführt, genau zu untersuchen wird bearbeitet. "Um die Unterscheidung der Stimmen so schwierig wie die Unterscheidung der Sprachlaute zu machen, haben wir die Wahrnehmung von drei verschiedenen Stimmen aus den aufgezeichneten Reizen erstellt, anstatt drei tatsächlich unterschiedliche Personen aufzuzeichnen."

Vor dem Test analysierten die Forscher die Unterschiede in den akustischen Parametern zwischen den Sprach- und Phonemklängen, wie z. B. die Frequenz - entweder hoch oder niedrig - zeitliche Modulation - die wahrgenommene Geschwindigkeit des gesprochenen Tons - und die spektrale Modulation - die Art und Weise wird die Schallenergie auf die verschiedenen Frequenzen verteilt. Hohe spektrale Modulationen erwiesen sich als am nützlichsten bei der Unterscheidung der verschiedenen Stimmproben, und niedrige spektrale Modulationen zusammen mit schneller zeitlicher Modulation waren am nützlichsten bei der Identifizierung von Unterschieden in Phonemen.

Während des Tests selbst wurden die Probanden gebeten, drei spezifische Sprachlaute zu identifizieren - / p /, / t / oder / k /, wie in den Pseudowörtern Preperibion, Gabratade und Ecalimacre - oder zu identifizieren, ob die Probe gesprochen worden war mit Stimme eins, zwei oder drei. Während des Tests wurden ihre Gehirne mit einem funktionellen Magnetresonanztomographen (fMRT) gescannt, um die Blutoxygenierung des Gehirns zu überwachen. Dies ist eine hochwirksame Methode, um festzustellen, welche Teile des Gehirns am aktivsten waren, da mehr Aktivität mehr Sauerstoff erfordert als weniger aktiv Regionen des Gehirns.

Mithilfe eines Computermodells zur Analyse der fMRT-Ergebnisse stellten die Forscher fest, dass der auditive Kortex die höheren spektralen Modulationen verstärkte, wenn er mit der Unterscheidung von Stimmen beauftragt wurde und wenn er aufgefordert wurde, die spezifischen Phoneme in den Proben zu identifizieren, konzentrierte er sich auf die schnellere Zeit Modulationen und niedrigere spektrale Modulationen gegenüber anderen Stimuli.

"Die Ergebnisse zeigen große Ähnlichkeiten zwischen den Aufgabeninformationen in den Sounds selbst und den neuronalen fMRI-Daten", sagte Golestani.

Dies zeigt, dass der auditive Kortex den gleichen Klang je nach der spezifischen Aufgabe, die er ausführen möchte, unterschiedlich verarbeitet. Dies zeigt die wesentlichen Mechanismen, die erforderlich sind, um Menschen zuzuhören, die mit uns sprechen, und wie unser Gehirn zwischen verschiedenen Stimmen unterscheidet. "Dies ist das erste Mal, dass beim Menschen und mit nicht-invasiven Methoden gezeigt wurde, dass sich das Gehirn auf eine Weise an die jeweilige Aufgabe anpasst, die mit den akustischen Informationen übereinstimmt, die in Sprachlauten berücksichtigt werden", sagte Rutten.

Lösung des Cocktailparty-Problems mit Algorithmen, die dem auditorischen Kortex nachempfunden sind

Wenn unser Verständnis der Vorgänge im auditorischen Kortex wächst und wir mehr über die Mechanismen des Cocktailparty-Effekts erfahren, können wir diese neuen Erkenntnisse nutzen, um die Art und Weise zu verbessern, wie Computersysteme den Klang der menschlichen Stimme verarbeiten. Während Systeme zur Verarbeitung natürlicher Sprache wie die Sprach-Text-API von Google sicherlich leistungsstark sind, sind ihre besten Algorithmen für das Cocktailparty-Problem immer noch unzureichend. Es wird mindestens einige Jahre dauern, bis die neurologische Forschung am auditorischen Kortex die Art von Durchbrüchen hervorbringt, die es uns ermöglichen, die richtigen Algorithmen zu entwickeln, um den Cocktailparty-Effekt in Computern zu reproduzieren.

Bis dahin bleiben sprachgesteuerte Computerschnittstellen wie die von Star Trek unerreichbar. Die Erforschung des auditorischen Kortex ist jedoch vielversprechend, und die Daten, die wir bisher aus neurologischen Studien gewonnen haben, zeigen, dass weitere Forschungen in dieser Region des Gehirns wahrscheinlich neue neurologische Mechanismen aufdecken werden, die für die Entwicklung effizienter Algorithmen für den Cocktail unerlässlich sind Party Problem.


Schau das Video: 09 Theorie und Praxis von Social-Media-Kommunikation A (Januar 2022).