бурятский язык
2289

Когда технологии служат языку

Как разработчицы из Бурятии используют нейросети для сохранения бурятского языка?

Дари Батурова и Сарана Абидуева создали уникальный русско-бурятский переводчик на основе нейросетей. Девушки поделились с нами историей создания, реализации и принципа работы переводчика burtranslate.ru.

«Теперь являюсь одним из создателей»

Дари, Сарана, расскажите, пожалуйста, о себе.

Дари: В прошлом году я окончила бакалавриат Института интеллектуальной робототехники Новосибирского государственного университета. На данный момент являюсь разработчиком-исследователем в компании «Сибирские нейросети».

Сарана:  Я окончила Санкт-Петербургский государственный университет, работала в Т-Банке продуктовым аналитиком. Сейчас работаю инженером машинного обучения в Азиатско-Тихоокеанском банке.

Как пришла идея создания переводчика?

Дари: Думаю, сначала стоит упомянуть, что мы с Сараной не сразу начали работать совместно. К этой идее мы шли разными путями. Для меня все началось в начале третьего курса, в 2022 году. Именно тогда я решила создать русско-бурятский переводчик в рамках дипломной работы. Я рассказала об этом своей семье, и все меня поддержали. Забавно, что еще в школе я постоянно пыталась найти бурятский язык в онлайн-переводчиках и никак не находила, а теперь являюсь одним из его создателей.

Сарана: Идея создать русско-бурятский переводчик появилась у меня в университете, когда я изучала нейронные сети, в том числе технологии машинного перевода. В детстве меня удивляло, почему не существует автоматического переводчика для бурятского языка. В университете я поняла, что основная проблема – нехватка обучающих данных. Меня вдохновили примеры, когда разработчики самостоятельно собирали данные и обучали переводчики для других языков народов России. Тогда я подумала, что создать переводчик для бурятского вполне посильная задача.  

Дари: Мы вышли друг на друга весной 2023 года случайно, в процессе поиска необходимых данных для создания переводчика, и решили объединить усилия. Наши дипломные работы переросли в масштабный проект.

На самом деле бурятский язык почти не представлен в цифровой среде. А в наше время, когда технологии стремительно развиваются, внедрение языка в это пространство – важный шаг к его сохранению. Именно цифровые технологии будут являться мостом между людьми и исчезающим языком. И как раз одним из способов цифровизации языка является создание онлайн-переводчика.

Переводчик разработан на основе нейросетей. Каков принцип его работы?

Дари: Давайте я объясню термин «машинный перевод» на простом примере. У нас есть предложение на русском языке. Алгоритм сначала разбивает его на отдельные слова, затем превращает эти слова в числовую форму – это называется кодировкой. После этого полученные данные декодируются уже на бурятский язык. На выходе мы получаем переведенное предложение.  

Сарана: Чтобы нейросеть понимала, как правильно кодировать и декодировать, она обучается на параллельном корпусе – наборе предложений одного языка и их переводов на другой. В процессе обучения модель сравнивает собственный перевод с эталонным и постепенно корректирует ошибки, улучшая качество перевода.

«Переводчик – инструмент»

Расскажите об истории создания проекта.

Дари: Была проделана огромная работа. У нас было два основных направления: сбор данных для обучения нейросети и обучение нейросети русско-бурятскому переводу. В рамках сбора данных я отвечала за сотрудничество с различными организациями Бурятии, например с Бурятским научным центром, Государственной службой языкового перевода Бурятии и другими. Благодаря выигранному гранту от администрации главы и правительства Республики Бурятия я организовала переводческую деятельность для составления собственного параллельного корпуса, так как качественных данных не хватало. Сарана занималась сбором данных с Интернета. Мы использовали такие источники, как «Википедия», «Библия», стихи, русско-бурятский словарь и др. В итоговый параллельный корпус вошли свыше 100 тысяч пар переводов.

На этапе обучения нейросетевой модели было несколько итераций. Первую модель для русско-бурятского перевода обучила Сарана в рамках своей дипломной работы. Через год уже для своей выпускной квалификационной работы я создала модель, которая превзошла прошлую по точности перевода. После этого мы начали работать над улучшением модели совместно. На данный момент лучшая версия находится на сайте burtranslate.ru, где каждый желающий может ее опробовать. Только не судите строго: она все еще учится. Чтобы стать точнее, ей нужно больше данных.

С какими сложностями вы столкнулись при разработке переводчика?

Сарана: Основная сложность при разработке переводчика была в создании параллельного корпуса, так как его ещё не существовало, а бурятские тексты мало представлены в цифровом виде. Более того, тексты, которые мы смогли найти, были в разных форматах: статьи на сайтах, оцифрованные книги, PDF-файлы – все с разной структурой. Поэтому для каждого источника данных приходилось писать уникальный код получения и обработки предложений. Кроме того, для многих источников данных было сложно сопоставить предложения на бурятском и русском. Чтобы решить эту проблему, мы обучили дополнительную нейросеть, которая подбирала соответствия.

Как вы считаете, поможет ли переводчик в сохранении и развитии бурятской культуры? 

Дари: Проблема нашего родного языка в том, что он остаётся за пределами современных технологий. Особенно это влияет на молодёжь, которая получает почти всю информацию из Интернета и цифровых устройств. Переводчик — это только первый шаг. Он не заменяет учителей или живую речь, но он дает возможность языку быть частью цифрового мира. А значит, частью будущего. 

Сарана: Переводчик – это инструмент, который помогает тем, кто хочет изучать бурятский язык. Однако для полноценного сохранения языка необходима языковая среда. Машинный перевод может использоваться для перевода фильмов, сериалов, книг – и тем самым расширять эту среду.

Автор:

Подписывайтесь

Получайте свежие новости в мессенджерах и соцсетях