Перейти к содержимому
Портал Ассамблеи и Дома Дружбы народов Татарстана

Портал Ассамблеи и Дома Дружбы народов Татарстана

Основное меню
  • О нас
    • Ассамблея народов Татарстана
    • Дом Дружбы народов Татарстана
    • Филиалы и Представительства Ассамблеи народов Татарстана
    • Сайт Молодежной Ассамблеи народов Татарстана
    • Многонациональная воскресная школа Казани
    • Национальные творческие коллективы
  • Новости
  • Афиша
  • Медиа
    • Фото
    • Видео
    • Аналитика
    • Мы в соцсетях
    • Журнал «Наш дом-Татарстан»
    • Архив
  • «Национальный вопрос и ответ»
  • Проекты
    • Год защитника Отечества
    • Этнографическая карта Татарстана
    • Межрегиональный Конкурс «МИРИАДА ТАЛАНТОВ»
    • Казанское Поволжье: Образы народной культуры
    • Праздничный круг
    • Уроки дружбы
  • Комментарии
  • 3D-тур
  • Контакты
рус / тат / eng
  • Главная
  • Новости
  • Искусственный интеллект и языки народов России: благо или вред?

Искусственный интеллект и языки народов России: благо или вред?

admin 06.04.2025

Останутся ли лингвисты и переводчики без работы? Вредят или помогают нейросети изучению языков? Когда умная колонка заговорит на всех языках народов России и заговорит ли? На заседании Дискуссионно-аналитического клуба по языковой политике в Институте языкознания РАН обсудили искусственный интеллект, цифровизацию и их возможный вклад в защиту языкового многообразия. Спойлер: все пока неоднозначно, но очень интересно!

Нейросеть в помощь

Айгиз Кунафин – программист, языковой активист, один из разработчиков умной колонки на башкирском языке Һомай – помог неспециалистам в IT разобраться, как Һомай или Алиса «понимают» пользователя. Помогает им NLP (natural language processing) – область искусственного интеллекта, которая с помощью разных инструментов позволяет компьютерам распознавать и обрабатывать естественный язык. До эпохи нейросетей процесс «обучения» шел довольно медленно.

 К примеру, для машинного переводчика, чтобы перевод был качественным, раньше нужно было собрать порядка миллиона пар предложений. А это значит, что вам в первую очередь надо было найти специалиста, который одновременно и хорошо знает язык, и понимает технологию. Даже для русского языка таких специалистов можно пересчитать по пальцам, а найти подобного человека для языка, на котором говорит несколько сотен человек, вообще нереально. А это значит, что сделать переводчик для бОльшей части языков России было невозможно. Появление LLM изменило ситуацию, — поясняет Айгиз.

LLM (Large Language Model) – большие языковые модели, алгоритмы по работе с текстами, обученные на огромных массивах данных, взятых из интернета. Тот самый «искусственный интеллект» или «нейросеть», которых старшее поколение все еще слегка опасается, а младшее — активно использует для рефератов и курсовых. На английском, русском, китайском и других широкоиспользуемых языках нейросети могут уже очень многое как в письменной речи (те самые пресловутые дипломы, написанные с помощью ChatGPT), так и в устном общении (Алиса и Һомай рассказывают сказки по запросам, прогнозируют погоду и даже могут поговорить о смысле жизни). А как обстоят дела с другими языками?

— Чем больше текстов и аудозаписей на вашем языке есть в интернете, тем проще и лучше можно обучить языковую модель. На башкирском языке текстов много, на татарском, на марийском. На языках малочисленных народов – существенно меньше. Важно еще и качество этих корпусов. Например, формат PDF в виде картинки, потеря структуры при копировании, – затрудняют работу.

Соответственно, первоочередная задача языкового активиста и/или неравнодушного лингвиста, мечтающего об умной колонке на родном языке, – тщательно собирать, качественно оцфровывать и активно распространять в интернете корпус текстов.

Ну и, конечно, – найти программистов, готовых взяться за проект, и инвесторов, понимающих гуманитарную ценность этой задачи.

Но есть нюанс

Заместитель руководителя проекта «Языки народов России» ООО «Яндекс» Андрей Михеев чуть умерил энтузиазм собравшихся:

— Мои первые слова немного противоречат тому, что вам рассказывал Айгиз. Он
говорил, что современные технологии делают задачи перевода простыми, а я хочу сказать, что это на самом деле долго, дорого и сложно. Да, появление больших языковых моделей прям радикально меняет ситуацию, но нам все еще нужно очень много данных и все еще нужны люди, которые понимают одновременно и в лингвистике, и в программировании, чтобы эти данные собирать. Да, уже не миллион фраз необходим, а 100 тысяч, но это тоже очень много. Еще один очень важный момент: появление языковых моделей и систем машинного перевода для языков народов России – задача, которая очень редко обоснована экономически.

Речь идет о том, что модель может помочь создателю зарабатывать на переводах с китайского или английского, но для менее распространенных языков, в том числе российских, финансовый интерес сомнителен, делать бизнес на переводчике — сложно. Поэтому, считает Андрей, машинный перевод для языков народов России почти никто и не делает.

— Да, есть приятные исключения, когда энтузиасты создают переводчики, но их очень мало. В этом плане в таком разнообразии и количестве как Яндекс с языками народов России не работает никто. К началу лета прошлого года в сервисах Яндекса было представлено 7 языков России: татарский, башкирский, чувашский, якутский, удмуртский и два марийских (и горных, и луговых мари). То есть несколько тюркских, но совсем не было кавказских. И вот летом Яндекс объявил, что в ближайшие три года в переводчике и других сервисах компании появится не менее 20 новых языков народов России, причем не менее, чем для 10 из них будут поддерживаться возможности синтеза и распознавания речи.

Сервисы – это не только переводчик, это и виртуальная клавиатура, и распознавание устной речи, и синтез. Все эти возможности, по словам спикера, постепенно будут появляться все для новых и новых языков, но ожидать, что этот процесс будет быстрым, – не стоит: энтузиастов и филантропов, увы, не так много, как хотелось бы.

Что дальше?

Одним из самых популярных вопросов членов клуба к Андрею Михееву был «А когда Алиса заговорит на моем языке?».

— Скажу осторожно: добавление нового языка в Алису — история непростая. Научить Алису говорить на каком-то языке, так, как она говорит на русском, — это довольно большой, сложный, дорогой проект. Может быть, и я в это верю, с развитием больших языковых моделей появится возможность быстрого обучения существующих сценариев под новые языки, но вот пока обещать что-то преждевременно.

Не приведет ли подобная, пусть и гипотетическая пока, возможность, к тому что лингвисты станут не нужны? Может уже пора получать новую профессию?

— Когда-то весь профильный отдел Яндекса состоял из лингвистов. Сейчас в нем работают IT-специалисты. Задача эксперта в эпоху больших языковых моделей — это умение правильно задать вопрос и выбрать самый удачный ответ. И вот это лингвисты умеют, как никто. Кроме того, собирать тексты, корпусы языков предстоит еще очень долго, – дипломатично ответил Андрей Михеев.

Еще один вопрос, прозвучавший в разных вариантах сразу от нескольких участников дискуссии, а не приведет ли цифровизация языков народов России к тому, что учить их люди перестанут совсем? Ведь если можно будет получить качественный машинный перевод, в том числе устной речи, за несколько минут, зачем годами корпеть над учебниками?

Оба эксперта оказались единодушны: сервисы – это всего лишь инструменты, а вот как их использовать – во благо или во вред – зависит от людей и их мотивации. И здесь программисты бессильны, а вот языковым активистам, педагогам и лингвистам – флаг в руки.

НацАкцент















Дни рождения

10 мая
Вячеслав Никифоров
16 мая
Гульнара Галиакберова
21 мая
Любовь Тукаева
22 мая
Фарид Мухаметшин
22 мая
Игорь Баринов
26 мая
Олег Третьяков
26 мая
Евгений Морозов
27 мая
Мударис Гайфуллин
29 мая
Наталья Мустафина
1 июня
Виталий Агапов
national-graph banner-ex mi-help.ru

bn-of-rtbn-of-rt

1

k-banner

 ДЛЯ СЛАБОВИДЯЩИХ
© РОО «Ассамблея народов Татарстана» Тел.: 8 (843) 237-97-99 E-mail: an-tatarstan@yandex.ru
ГБУ «Дом Дружбы народов Татарстана» Тел.: 8 (843) 237-97-90 E-mail: mk.ddn@tatar.ru
420107, г. Казань, ул. Павлюхина, д. 57