Общество глухих

Подслушать невысказанное

Существуют технологии, позволяющие считывать мысли

Когда мы читаем про себя, то не произносим никаких звуков. Тем не менее наши голосовые мышцы все равно двигаются, хоть и не так заметно, как в случае чтения вслух. Недавно специалисты из Калифорнийского университета (Беркли) разработали алгоритм, который может считывать эти мышечные сокращения.

В самой идее считывания речи при отсутствии звука, собственно, нет ничего нового. Ведь способны же глухонемые читать по губам! Да, здесь задействованы несколько иные механизмы, но понять суть прочитанного все-таки можно.

Даже читая про себя, мы проговариваем текст в своей голове

Процесс сокращения мышц при чтении про себя носит название «субвокализация». И в принципе можно расшифровывать эти движения при помощи электромиографии – метода, позволяющего регистрировать электрическую активность мышц, прикрепив к лицу и шее чтеца электроды.

Но увы, пока такие системы довольно несовершенны. Так, интерфейсы для распознавания субвокализации, существующие на сегодняшний день, способны превращать беззвучную речь только в текстовые файлы.

Американские ученые решили пойти дальше и добиться аудиозвучания. Они обучали искусственный интеллект на трех типах данных: это аудиозаписи слышимой речи и активность мышц в двух случаях – когда человек говорит или же читает про себя.

На первом этапе алгоритм находит оптимальное соответствие между двумя исходными сигналами, один из которых связан со слышимой, а другой – с неслышимой речью. На втором этапе он преобразует слышимую речь в неслышимую. Это необходимо для обучения нейросети, которая в свою очередь получает на вход не три сигнала, а всего один – электромиограмму неслышимой речи.

Для этого используется рекуррентная нейросеть с долгой краткосрочной памятью. Данные, полученные на выходе из нее, передаются в другую нейросеть – WaveNet, которая наконец декодирует их в обычную аудиозапись человеческого голоса.

В процессе обучения инженеры собрали датасет из 20 часов записи как слышимой, так и беззвучной речи, представленной в виде трех упомянутых типов данных. После того как алгоритм прошел обучение, разработчики проверили, насколько понятен смысл сгенерированных записей.

Они учитывали вероятность погрешности – совокупность слов, которые могли быть искажены, отсутствовали или являлись лишними. Их количество было поделено на общий объем текста.

В итоге если нужно было распознать простые фразы, даты или числа, то для полноценной нейросети вероятность ошибки составила 3,6%, а для той, которой предлагалась лишь слышимая речь, – 88,8%. Для сложных фраз, например отрывков из книг, это соотношение равнялось 74,8 к 95,1 при проверке человеком и 68 к 91,2 при проверке системой распознавания речи Mozilla DeepSpeech.

Где бы такая методика могла найти применение? Ну, прежде всего в криминалистике. Например, вам нужно проследить за человеком, читающим записку или сообщение, которые вы не можете увидеть. С помощью специального приложения вы легко сможете узнать содержание текста.

Кстати, уже существуют технологии, позволяющие считывать даже не слова, а мысли! Так, в 2008 году корпорация NeuroSky выпустила устройство, работавшее с помощью функциональной магнитно-резонансной томографии.

Компьютер «обучили» с высокой точностью распознавать 60 мозговых шаблонов, связанных с существительными. Также он продемонстрировал способность распознавать слова, изображенные визуально на картинках.

В 2010 году «считыватель мозговых волн» был впервые внедрен в мобильный телефон. Он определял, кому именно хочет позвонить пользователь, и выводил на экран номер нужного абонента. Правда, при этом приходилось совершать небольшое физическое движение, скажем, подмигивать аппарату…

Еще одна разработка, появившаяся в 2013 году, позволяла считывать из мозга музыкальные композиции Бетховена и проигрывать их.

Несколько лет назад специалисты Медицинского центра Олбани (США) и лаборатории Cognitive Systems Lab Технологического института Карлсруэ (Германия) разработали технологию, позволяющую расшифровывать сигналы головного мозга и трансформировать их в текст.

Система Brain-to-Text была опробована на семи добровольцах, проходивших в клинике курс лечения от различных неврологических недугов, в том числе и эпилепсии. В ходе эксперимента участников просили читать вслух громким голосом текст, который представлял собой ограниченный набор определенных слов. В процессе чтения сигналы, поступающие от мозга, считывались компьютером с помощью ECoG-электродов, расположенных напротив лобных и боковых областей мозговой коры.

Затем компьютер анализировал их, используя специальные аналитические алгоритмы, и таким образом была получена наиболее вероятная последовательность сигналов, соответствующих тем или иным словам. Еще один алгоритм преобразовывал их в текстовой формат.

Правда, точность распознавания оставляла желать лучшего. Если пациент произносил слова достаточно четко, средняя погрешность составляла около 25%. Если же речь была нечеткой или неправильной, число ошибок увеличивалось до совершенно неприемлемого результата – 50%.

Между тем авторы разработки объясняют столь высокий процент ошибочного распознавания тем, что в исследовании использовалось обычное программное обеспечение, а не специализированные системы, «заточенные» именно под интерпретацию мозговых импульсов. Так что первоочередной целью сейчас является создание таких систем.

Если удастся разработать технологию, которая сможет распознавать «мысленную» или «беззвучную» речь с высокой точностью, это позволит наладить полноценное общение с людьми, которые не могут говорить или говорят плохо в силу различных причин, например с глухими, заиками, косноязычными или теми, кто перенес инсульт…

Подобные системы могут найти применение и в других областях – той же криминалистике, например. Хотя не исключено, что придется решать проблему, насколько этично читать чужие мысли…

Лада КОВАЛЕНКО
https://ug.ru

09 января 2021 г.

Новости На главную Для печати