Перейти к содержимому
Портал Ассамблеи и Дома Дружбы народов Татарстана

Портал Ассамблеи и Дома Дружбы народов Татарстана

Основное меню
  • О нас
    • Ассамблея народов Татарстана
    • Дом Дружбы народов Татарстана
    • Филиалы и Представительства Ассамблеи народов Татарстана
    • Сайт Молодежной Ассамблеи народов Татарстана
    • Многонациональная воскресная школа Казани
    • Национальные творческие коллективы
  • Новости
  • Афиша
  • Медиа
    • Фото
    • Видео
    • Аналитика
    • Мы в соцсетях
    • Журнал «Наш дом-Татарстан»
    • Архив
  • «Национальный вопрос и ответ»
  • Проекты
    • Год защитника Отечества
    • Этнографическая карта Татарстана
    • Межрегиональный Конкурс «МИРИАДА ТАЛАНТОВ»
    • Казанское Поволжье: Образы народной культуры
    • Праздничный круг
    • Уроки дружбы
  • Комментарии
  • 3D-тур
  • Контакты
рус / тат / eng
  • Главная
  • Новости
  • Искусственный интеллект и языки народов России: благо или вред?

Искусственный интеллект и языки народов России: благо или вред?

admin 06.04.2025

Останутся ли лингвисты и переводчики без работы? Вредят или помогают нейросети изучению языков? Когда умная колонка заговорит на всех языках народов России и заговорит ли? На заседании Дискуссионно-аналитического клуба по языковой политике в Институте языкознания РАН обсудили искусственный интеллект, цифровизацию и их возможный вклад в защиту языкового многообразия. Спойлер: все пока неоднозначно, но очень интересно!

Нейросеть в помощь

Айгиз Кунафин – программист, языковой активист, один из разработчиков умной колонки на башкирском языке Һомай – помог неспециалистам в IT разобраться, как Һомай или Алиса «понимают» пользователя. Помогает им NLP (natural language processing) – область искусственного интеллекта, которая с помощью разных инструментов позволяет компьютерам распознавать и обрабатывать естественный язык. До эпохи нейросетей процесс «обучения» шел довольно медленно.

 К примеру, для машинного переводчика, чтобы перевод был качественным, раньше нужно было собрать порядка миллиона пар предложений. А это значит, что вам в первую очередь надо было найти специалиста, который одновременно и хорошо знает язык, и понимает технологию. Даже для русского языка таких специалистов можно пересчитать по пальцам, а найти подобного человека для языка, на котором говорит несколько сотен человек, вообще нереально. А это значит, что сделать переводчик для бОльшей части языков России было невозможно. Появление LLM изменило ситуацию, — поясняет Айгиз.

LLM (Large Language Model) – большие языковые модели, алгоритмы по работе с текстами, обученные на огромных массивах данных, взятых из интернета. Тот самый «искусственный интеллект» или «нейросеть», которых старшее поколение все еще слегка опасается, а младшее — активно использует для рефератов и курсовых. На английском, русском, китайском и других широкоиспользуемых языках нейросети могут уже очень многое как в письменной речи (те самые пресловутые дипломы, написанные с помощью ChatGPT), так и в устном общении (Алиса и Һомай рассказывают сказки по запросам, прогнозируют погоду и даже могут поговорить о смысле жизни). А как обстоят дела с другими языками?

— Чем больше текстов и аудозаписей на вашем языке есть в интернете, тем проще и лучше можно обучить языковую модель. На башкирском языке текстов много, на татарском, на марийском. На языках малочисленных народов – существенно меньше. Важно еще и качество этих корпусов. Например, формат PDF в виде картинки, потеря структуры при копировании, – затрудняют работу.

Соответственно, первоочередная задача языкового активиста и/или неравнодушного лингвиста, мечтающего об умной колонке на родном языке, – тщательно собирать, качественно оцфровывать и активно распространять в интернете корпус текстов.

Ну и, конечно, – найти программистов, готовых взяться за проект, и инвесторов, понимающих гуманитарную ценность этой задачи.

Но есть нюанс

Заместитель руководителя проекта «Языки народов России» ООО «Яндекс» Андрей Михеев чуть умерил энтузиазм собравшихся:

— Мои первые слова немного противоречат тому, что вам рассказывал Айгиз. Он
говорил, что современные технологии делают задачи перевода простыми, а я хочу сказать, что это на самом деле долго, дорого и сложно. Да, появление больших языковых моделей прям радикально меняет ситуацию, но нам все еще нужно очень много данных и все еще нужны люди, которые понимают одновременно и в лингвистике, и в программировании, чтобы эти данные собирать. Да, уже не миллион фраз необходим, а 100 тысяч, но это тоже очень много. Еще один очень важный момент: появление языковых моделей и систем машинного перевода для языков народов России – задача, которая очень редко обоснована экономически.

Речь идет о том, что модель может помочь создателю зарабатывать на переводах с китайского или английского, но для менее распространенных языков, в том числе российских, финансовый интерес сомнителен, делать бизнес на переводчике — сложно. Поэтому, считает Андрей, машинный перевод для языков народов России почти никто и не делает.

— Да, есть приятные исключения, когда энтузиасты создают переводчики, но их очень мало. В этом плане в таком разнообразии и количестве как Яндекс с языками народов России не работает никто. К началу лета прошлого года в сервисах Яндекса было представлено 7 языков России: татарский, башкирский, чувашский, якутский, удмуртский и два марийских (и горных, и луговых мари). То есть несколько тюркских, но совсем не было кавказских. И вот летом Яндекс объявил, что в ближайшие три года в переводчике и других сервисах компании появится не менее 20 новых языков народов России, причем не менее, чем для 10 из них будут поддерживаться возможности синтеза и распознавания речи.

Сервисы – это не только переводчик, это и виртуальная клавиатура, и распознавание устной речи, и синтез. Все эти возможности, по словам спикера, постепенно будут появляться все для новых и новых языков, но ожидать, что этот процесс будет быстрым, – не стоит: энтузиастов и филантропов, увы, не так много, как хотелось бы.

Что дальше?

Одним из самых популярных вопросов членов клуба к Андрею Михееву был «А когда Алиса заговорит на моем языке?».

— Скажу осторожно: добавление нового языка в Алису — история непростая. Научить Алису говорить на каком-то языке, так, как она говорит на русском, — это довольно большой, сложный, дорогой проект. Может быть, и я в это верю, с развитием больших языковых моделей появится возможность быстрого обучения существующих сценариев под новые языки, но вот пока обещать что-то преждевременно.

Не приведет ли подобная, пусть и гипотетическая пока, возможность, к тому что лингвисты станут не нужны? Может уже пора получать новую профессию?

— Когда-то весь профильный отдел Яндекса состоял из лингвистов. Сейчас в нем работают IT-специалисты. Задача эксперта в эпоху больших языковых моделей — это умение правильно задать вопрос и выбрать самый удачный ответ. И вот это лингвисты умеют, как никто. Кроме того, собирать тексты, корпусы языков предстоит еще очень долго, – дипломатично ответил Андрей Михеев.

Еще один вопрос, прозвучавший в разных вариантах сразу от нескольких участников дискуссии, а не приведет ли цифровизация языков народов России к тому, что учить их люди перестанут совсем? Ведь если можно будет получить качественный машинный перевод, в том числе устной речи, за несколько минут, зачем годами корпеть над учебниками?

Оба эксперта оказались единодушны: сервисы – это всего лишь инструменты, а вот как их использовать – во благо или во вред – зависит от людей и их мотивации. И здесь программисты бессильны, а вот языковым активистам, педагогам и лингвистам – флаг в руки.

НацАкцент

Продолжить чтение

Назад: «Всю жизнь служит сохранению и развитию самобытной и богатой культуры кряшен» — в Казани чествовали Людмилу Белоусову
Далее: Тотальный диктант написали в гимназии №93 имени А.С. Пушкина














Дни рождения

12 июня
Саид Сулиев
13 июня
Александр Терентьев
13 июня
Валерий Самойлов
18 июня
Рафида Гатина
21 июня
Дам Зань Лам
26 июня
Наиля Чубатова
1 июля
Альбина Шадрина
11 июля
Данил Мустафин
13 июля
Ирада Аюпова
15 июля
Фируза Габдрахманова
national-graph banner-ex mi-help.ru

bn-of-rtbn-of-rt

1

k-banner

 ДЛЯ СЛАБОВИДЯЩИХ
© РОО «Ассамблея народов Татарстана» Тел.: 8 (843) 237-97-99 E-mail: an-tatarstan@yandex.ru
ГБУ «Дом Дружбы народов Татарстана» Тел.: 8 (843) 237-97-90 E-mail: mk.ddn@tatar.ru
420107, г. Казань, ул. Павлюхина, д. 57