Разработка программы «Калькулятор лингвиста»
- Боровский Андрей Викторович, Байкальский государственный университет (Иркутск, Россия)
- Мосоркин Федот Эдуардович, Байкальский государственный университет (Иркутск, Россия)
В статье описывается разработка программного обеспечения для исследований в области историко-математической лингвистики, в которых используются мультиметрический подход и метод анализа иерархий. Программа реализована в виде десктопного приложения на языке программирования Python. Для разработки графического интерфейса применена библиотека PyQt5. Рассмотрены и реализованы актуальные математические методы для исследований в историко-математической лингвистике, такие, как: преобразования слов Долгопольского А.Д. в консонантные классы, различные метрики сходства слов (учитывающие количество одинаковых букв в двух словах (Рэтклиффа-Обершелпа или RO), количество букв в наибольшей общей подстроке (LCS), количество элементарных операций по совмещению слов (расстояние Левенштейна или L)). Новизна работы заключается в применении к анализу списка соответствий мультиметрического подхода и выстраивание рейтингов на основе метода анализа иерархий. Используя «Калькулятор лингвиста», можно выявлять скрытые лексические связи между топонимами и списками слов соответствий, а также проводить исследования происхождения топонимов. Программа апробирована на топонимах Иркутской области с утраченным смыслом и позволяет выявлять наиболее вероятные соответствия среди слов-кандидатов из различных языков: эвенкийский, бурятский, старорусский. Реализованы ввод топонима и слов-кандидатов, выбор модели преобразования слов, вывод и экспорт в Excel-файл отсортированных результатов по убыванию суммы метрик. Проведены процедуры верификации метода анализа иерархии в мультиметрии слов, для чего применены наборы слов, которые были специально изменены для проверки устойчивости метода к искажениям слов. В итоге исследование показало, что алгоритм устойчив к искажениям. При шуме 50% падение качества установления соответствий происходит постепенно. Устойчивость алгоритма к искажениям делает его пригодным для работы с реальными (в том числе с искаженными) топонимами. В будущем планируется добавить функции для количественной оценки заимствований в языках, чтобы расширить ее применение в историко-математической лингвистике для анализа языковых взаимодействий и реконструкции этимологиитопонимики Иркутской области.
Историко-математическая лингвистика, разработка ПО, консонантные классы, парные метрики Рэтклиффа-Обершелпа, LCS, расстояние Левенштейна
2026-03-05