Научный семинар на тему «Методы статистического анализа текстов»

16.03.2020
16 марта 2020 года, 17.00-18.00
ул. Орджоникидзе, 3, ауд. 559
Орлов Юрий Николаевич, Российский университет дружбы народов,
заведующий кафедрой информационных технологий, д.ф.-м.н.
В докладе будут представлены результаты исследования инвариантных свойств европейских языков методом анализа близости распределений буквосочетаний в литературных текстах. Для нахождения языковых инвариантов используются следующие статистики: расстояние между распределениями упорядоченных эмпирических частот буквосочетаний; уровень детерминации специальной аппроксимации однобуквенных распределений для текстов без огласовки; показатель Херста для ряда из количества букв, заключенных между двумя наиболее часто встречающимися одинаковыми буквами; спектральный портрет матрицы двухбуквенных сочетаний. Перечисленные индикаторы позволили провести формальную кластеризацию языков индоевропейской семьи по языковым группам, большей частью совпавшим с группами, которые были сформированы на основе историко-лингвистических исследований
Метки: #seminars