Технологии недалекого будущего: как смартфоны помогут общаться людям с БАС
Новое исследование показывает, что улучшенные технологии систем автоматического распознавания речи могут помочь людям с БАС общаться даже при прогрессировании симптомов заболевания.
Смартфоны, социальные сети, постоянные переписки подвергаются вполне заслуженной критике, потому что в значительной степени влияют на то, как люди социализируются и общаются друг с другом. Но для людей с БАС и другими тяжелыми заболеваниями эти технологии – единственный способ взаимодействовать с миром, участвовать в жизни которого становится всё сложнее.
Один из способов, которым люди с БАС могут пользоваться, чтобы облегчить общение и справляться с повседневными задачами, – использование систем автоматического распознавания речи. Именно на базе таких систем работают цифровые помощники (Echo, Alexa, Siri, Алиса и другие), которые «слышат» голосовую команду, правильно ее распознают и отвечают на заданный вопрос.
Технология позволяет людям с БАС общаться с окружающими, другими людьми, живущими с БАС, максимально полно взаимодействовать с миром и даже поддерживать ощущение нормальности в постоянно меняющихся обстоятельствах жизни. Однако по мере прогрессирования болезни человеку с БАС становится всё труднее использовать системы распознавания речи в том виде, в котором они существуют сейчас. Многие болеющие вынуждены отказываться от этого метода общения.
Дизартрия, или нарушение речи, как первый симптом БАС наблюдается приблизительно у 25 % болеющих, и со временем проявляется у 95 % людей с БАС. На сегодняшний день уровень систем распознавания речи таков, что частота ошибок в распознавании отдельных звуков, слов и предложений будет только увеличиваться по мере ухудшения речи пациента. Это связано с тем, что все существующие системы запрограммированы на распознавание «типичной» речи.
В 2018 году Институт терапии БАС (ALS Therapy Development Institute, США) начал сотрудничество с корпорацией Google для анализа большой базы данных, собранных с помощью болеющих БАС. К тому моменту в распоряжении ученых было некоторое количество аудиозаписей речи людей с БАС, чтобы отслеживать прогрессирование заболевания, особенно у пациентов с бульбарным дебютом.
Используя записи, в Google разработали систему, которая лучше распознает особенности речи людей с БАС. В опубликованной работе «Персонализация системы распознавания дизартричной и акцентированной речи с использованием ограниченной базы данных» (“Personalizing ASR for Dysarthric and Accented Speech with Limited Data”) специалисты Google и ALS TDI объясняют, как смогли усовершенствовать стандартные модели систем распознавания речи. Обычно технология базируется на анализе тысяч часов голосовых записей «типичных» пользователей. Такая стратегия в отношении людей с нарушениями речи – непрактична. У каждого болеющего свои особенности речи, и чтобы создать совершенно новую модель потребовалось бы собрать внушительную базу аудиозаписей речи людей с БАС. Не говоря уже о том, сколько бы времени это заняло.
Поэтому вместо того, чтобы изобретать совершенно новую модель, специалисты взяли уже готовые технологии и усовершенствовали их, наложив записи голосов людей БАС: их речь теперь трактовалась как акцент. Для адаптации системы распознавания речи ученые использовали записи 17 человек общей продолжительностью 22,1 часа.
Исследователи обнаружили, что использованный метод на 70 % позволил снизить число ошибок при распознавании речи с нарушениями. И это стало возможно уже на первых 5–10 минутах аудиозаписей, доказав, что даже малое количество записей позволяет добиться значительных результатов. Большая база данных, конечно, поможет сделать алгоритм более точным. Эти открытия дают надежду, что вскоре будут разработаны такие системы распознавания речи, которые помогут тем, кто особенно в них нуждается.
Результаты исследования были представлены в Граце (Австрия), где с 15 по 19 сентября проходила 20-ая ежегодная конференция Международной ассоциации речевой коммуникации Interspeech 2019. Это крупнейшая конференция по анализу и технологиям обработки устной речи. В нынешнем году организаторы уделили много внимания темам разнообразия речи, техническим разработкам в этой области и различным способам ее представления.
Проекты по сбору данных призваны развивать новые технологии в помощь болеющим с диагнозом БАС и определять направления для исследований по поиску лекарства от этой болезни. Люди с БАС, например, могут принять участие в Google Project Euphonia, записав свой голос и пополнив его в базу данных проекта. Для этого надо заполнить специальную форму. Или могут помочь в сборе другой базы данных, присоединившись к Программе прецизионной медицины (PMP) Института терапии БАС. Это наиболее всеобъемлющее и продолжительное трансляционное исследование бокового амиотрофического склероза. Через PMP ученые сотрудничают с болеющими БАС по всему миру, чтобы делиться и собирать данные о голосе, движении, образе жизни, генетике, биомаркерах пациента, истории болезни и семьи, чтобы лучше понять болезнь.