Слуховая кора избирательно слышит то, к чему мы прислушиваемся

Рис. 1.

Области верхней височной извилины, отвечающие за восприятие устной речи. Первичная слуховая кора (
Primary auditory cortex
) получает информацию из таламуса, куда она поступает (через несколько промежуточных этапов) от органа слуха — улитки. Эта информация с самого начала структурирована — разложена по частотам. Вторичная слуховая кора (
Secondary auditory cortex
) делает первые шаги к осмыслению услышанного, фильтруя слуховую информацию и комбинируя ее с данными других органов чувств. Зона Вернике (
Wernicke’s area
), занимающая самую заднюю часть верхней височной извилины, распознаёт слова и играет ключевую роль в понимании речи. Изображение из книги D. Purves, G. J. Augustine, D. Fitzpatrick, et al. editors. Neuroscience. 2nd edition. Sunderland (MA): Sinauer Associates; 2001

Люди способны слушать и понимать друг друга даже в компании, где все говорят одновременно. Как мозг выделяет из сложного акустического фона нужные звуки, неизвестно. Американские нейробиологи, работая с пациентами, которым в ходе лечения эпилепсии были вживлены электроды в верхнюю височную извилину, обнаружили, что активность нейронов вторичной слуховой коры отражает речь того человека, к которому испытуемый прислушивается. По активности этих нейронов специально обученная компьютерная программа может определить, кого из двух говорящих слушает испытуемый, и восстановить услышанные слова.

Выделить из многоголосого хора речь одного конкретного человека — технически крайне сложная задача, о чем хорошо известно разработчикам автоматических систем распознавания речи. Наш мозг, правда, легко справляется с ней, но как ему это удается — толком неизвестно. Можно предположить, что на каком-то этапе обработки слуховой информации речь человека, к которому мы прислушиваемся, очищается от «посторонних примесей», но когда и где это происходит, опять-таки неясно.

Нима Месгарани (Nima Mesgarani) и Эдвард Чанг (Edward Chang) из Калифорнийского университета в Сан-Франциско исследовали работу нейронов вторичной слуховой коры (рис. 1) у трех пациентов, страдающих эпилепсией, которым в ходе подготовки к операции были вживлены микроэлектроды в верхнюю височную извилину (рис. 2).

Рис. 2.

Расположение электродов на мозге испытуемых.
Оттенки красного
показывают, насколько различается сигнал от электрода при восприятии речи и в тишине. Изображение из обсуждаемой статьи в
Nature
Ранее было показано, что нейроны вторичной слуховой коры «кодируют» (отражают) воспринимаемую человеком устную речь. Разработаны компьютерные программы, которые после специального обучения способны по данным об активности этих нейронов реконструировать тембр голоса говорящего и даже распознать произносимые слова (Formisano et al., 2008. “Who” is saying “what”? Brain-based decoding of human voice and speech; Pasley et al., 2012. Reconstructing Speech from Human Auditory Cortex). Но эти эксперименты проводились на испытуемых, которым давали слушать речь только одного говорящего. Месгарани и Чанг решили выяснить, какую информацию отразят нейроны слуховой коры, если говорящих будет двое, но испытуемого попросят слушать только одного из них.

В экспериментах использовались записи двух голосов — мужского и женского. Они произносили бессмысленные фразы из семи слов, например такие: «ready tiger go to red two now» или «ready ringo go to green five now». Первое, третье, четвертое и седьмое слова всегда были одни и те же. Второе слово — tiger или ringo — служило для испытуемого условным сигналом. На экране перед ним высвечивалось одно из этих слов, и нужно было прислушиваться к тому из двух говорящих, кто произнесет это слово. На пятом месте стояло слово, обозначающее один из трех цветов (red, blue или green), на шестом — одно из трех числительных (two, five или seven). Испытуемый должен был ответить, какое число и какой цвет назвал тот из двух говорящих, кто произнес ключевое слово. Фразы комбинировались таким образом, чтобы два голоса одновременно называли разные числа и цвета.

Авторы использовали разработанную ранее программу для реконструкции звукового сигнала по данным об активности нейронов слуховой коры. Программу предварительно «обучали», причем в ходе обучения испытуемым давали слушать голоса по одному, а не оба одновременно. Когда программа научилась хорошо реконструировать спектрограммы одиночных фраз, началась основная фаза эксперимента. Теперь испытуемые слушали одновременно два голоса, а спектрограммы, реконструированные программой по данным об активности нейронов, сравнивались с реальными спектрограммами фраз, произносимых двумя ораторами.

Оказалось, что в тех случаях, когда испытуемый успешно справился с заданием (то есть правильно назвал цвет и число, произнесенные тем голосом, который сказал ключевое слово), восстановленная по его нейронам спектрограмма отражала речь только одного из двух ораторов — того, кого надо было слушать (рис. 3). Если же испытуемый ошибался, восстановленная спектрограмма не была похожа на речь «правильного» оратора, а отражала либо неразборчивую смесь, либо коррелировала со спектрограммой второго, «отвлекающего» оратора. Как правило, в первом случае испытуемый не мог правильно воспроизвести слова ни одного из двух ораторов, а во втором он указывал число и цвет, названные «отвлекающим» голосом.

Рис. 3.

Примеры осциллограмм и спектрограмм произнесенных фраз (
a
–
d
) и реконструкции спектрограмм, сделанные компьютерной программой по данным о работе нейронов слуховой коры (
e
–
h
).
a
,
b
— фразы, произнесенные двумя голосами —
SP1
(мужской) и
SP2
(женский) — по отдельности.
c
,
d
— фразы, произнесенные двумя голосами одновременно (на рисунке
dсиним
и
краснымцветом
показаны области, в которых громче звучит голос, соответственно, первого или второго оратора).
e
,
f —
спектрограммы, реконструированные компьютерной программой на основе работы нейронов слуховой коры при прослушивании двух фраз поодиночке.
g
,
h
— то же, при одновременном прослушивании обеих фраз (
g
— испытуемый прислушивается к первому голосу,
h
— ко второму). Изображение из обсуждаемой статьи в
Nature
На заключительном этапе авторы использовали компьютерную программу — регуляризованный линейный классификатор (см. Linear classifier), обученную различать два голоса и произносимые слова по активности нейронов слуховой коры при прослушивании одиночных фраз. Когда этой программе предложили обработать данные по работе тех же нейронов при прослушивании двух голосов одновременно, она успешно определила и голос (мужской или женский), и слова (цвет и число), произнесенные тем из говорящих, к которому испытуемый прислушивался. В тех опытах, в которых испытуемый справился с заданием, по работе его нейронов программа успешно опознала голос в 93%, цвет — в 77,2%, число — в 80,2% случаев. В опытах, где испытуемый ошибся, программа либо выдавала случайный результат, либо опознавала «отвлекающий» голос и слова, им произнесенные.

Таким образом, исследование показало, что во вторичной слуховой коре речевая информация отражается уже в «профильтрованном» виде: работа нейронов кодирует речь того человека, к которому испытуемый прислушивается. Хотя мы по-прежнему не знаем механизмов этой фильтрации, уже можно по активности нейронов слуховой коры определить, кого из двух говорящих слушает человек и опознать услышанные слова.

Источник:

Nima Mesgarani, Edward F. Chang. Selective cortical representation of attended speaker in multi-talker speech perception //
Nature
. 2012. V. 485. P. 233–236.

См. также:

За интеграцию слуха и осязания отвечает слух, «Элементы», 24.10.2005.

Александр Марков

Физиология путей и центров слуховой системы

Нейроны 1-го порядка (биполярные нейроны) находятся в спиральном ганглии, который расположен параллельно кортиеву органу и повторяет завитки улитки.

Один отросток биполярного нейрона образует синапс на слуховом рецепторе, а другой направляется к головному мозгу, образуя слуховой нерв.

Волокна слухового нерва выходят из внутреннего слухового прохода и достигают головного мозга в области так называемого мостомозжечкового угла (это анатомическая граница между продолговатым мозгом и мостом).

Нейроны 2-го порядка образуют в продолговатом мозге комплекс слуховых ядер. При описании будем исходить из упрощенной анатомической схемы, согласно которой этот комплекс делят на дорсальный и вентральный, который, в свою очередь, состоит из переднелатеральной и заднелатеральной частей.

В каждом из этих трех подразделений слуховых ядер имеется самостоятельное представительство кортиева органа.

Как видно на рисунке, продвижение регистрирующего микроэлектрода от дорсального ядра к вентральному обнаруживает нейроны с постепенно убывающими значениями характеристической частоты.

Это означает, что соблюдается принцип тонотопической организации. Таким образом, частотная проекция кортиева органа в целом упорядоченно повторяется в пространстве каждого из подразделений слухового комплекса ядер.

Аксоны нейронов слуховых ядер поднимаются в лежащие выше структуры слухового анализатора как ипси -, так и контралатерально.

Следующий уровень слуховой системы находится на уровне моста и представлен ядрами верхней оливы (медиальным и латеральным) и ядром трапециевидного тела.

На этом уровне уже осуществляется бинауральный (от обоих ушей) анализ звуковых сигналов. Проекции слуховых путей на указанные ядра моста организованы также тонотопически.

Большинство нейронов ядер верхней оливы возбуждаются бинаурально. Обнаружены две категории бинауральных нейронов. Одни возбуждаются звуковыми сигналами от обоих ушей (ВВ-тип), другие возбуждаются от одного уха, но тормозятся от другого (ВТ-тип).

Ядро трапециевидного тела получает преимущественно контралатеральную проекцию от комплекса слуховых ядер, и в соответствии с этим нейроны реагируют преимущественно на звуковую стимуляцию контралатерального уха. В этом ядре также обнаруживается тонотопия.

Аксоны клеток слуховых ядер моста идут в составе латеральной петли. Основная часть его волокон (в основном от медиальной оливы) переключается в нижнем двухолмии, другая часть идет в таламус и заканчивается на нейронах внутреннего (медиального) коленчатого тела, а также в переднем двухолмии.

Кроме того, часть волокон латеральной петли иннервирует контралатеральный холмик нижнего двухолмия, образуя комиссуру Пробста.

Нижнее двухолмие, расположенное на дорсальной поверхности среднего мозга, является важнейшим центром анализа звуковых сигналов.

На этом уровне, по-видимому, заканчивается анализ звуковых сигналов, необходимых для ориентировочных реакций на звук. Основная часть клеточных элементов заднего холма локализована в центральном ядре.

Аксоны клеток заднего холма направляются в составе его ручки к медиальному коленчатому телу. Однако часть аксонов идет к противоположному холму, образуя интеркаликулярную комиссуру.

Медиальное коленчатое тело является таламическим центром слуховой системы. В нем различают крупноклеточную и мелкоклеточную (основную) части.

Аксоны нейронов мелкоклеточной части коленчатого тела образуют акустическую радиацию и направляются в слуховую область коры.

Крупноклеточная часть внутреннего коленчатого тела получает проекции от нижнего двухолмия. В этом таламическом ядре также прослеживается тонотопия: низкая частота представлена в латеральной, а высокая- в медиальной части ядра.

Слуховая кора представляет высший центр слуховой системы ц располагается в височной доле. У человека в ее состав входят поля 41, 42 и частично 43.

В каждой из зон имеет место тонотопия, т. е полное представительство нейроэпителия кортиева органа. Пространственное представительство частот, в слуховых зонах сочетается с колончатой организацией слуховой коры, особенно выраженной в первичной слуховой коре.