В настоящей книге излагается новый подход к решению некоторых задач математической лингвистики, основанный на использовании кинетических уравнений, описывающих эволюцию выборочных функций распределения текста по буквам. Этот подход сочетает в себе методы традиционной математической статистики и статистической механики, модифицированные для применения их к нестационарным временным рядам, каковыми являются последовательности букв в тексте. Центральной задачей, решаемой в данной работе, является идентификация автора и жанра "условно неизвестного" литературного текста в библиотеке известных текстов. Построен высокоточный метод идентификации, использующий функционал близости текстов как распределений пар букв в определенной норме. Анализируются также статистические свойства распространенных европейских языков. Для них установлено полуэмпирическое распределение алфавитных символов по частоте встречаемости, которое оказалось зависящим от двух параметров - количества букв в...
V nastojaschej knige izlagaetsja novyj podkhod k resheniju nekotorykh zadach matematicheskoj lingvistiki, osnovannyj na ispolzovanii kineticheskikh uravnenij, opisyvajuschikh evoljutsiju vyborochnykh funktsij raspredelenija teksta po bukvam. Etot podkhod sochetaet v sebe metody traditsionnoj matematicheskoj statistiki i statisticheskoj mekhaniki, modifitsirovannye dlja primenenija ikh k nestatsionarnym vremennym rjadam, kakovymi javljajutsja posledovatelnosti bukv v tekste. Tsentralnoj zadachej, reshaemoj v dannoj rabote, javljaetsja identifikatsija avtora i zhanra "uslovno neizvestnogo" literaturnogo teksta v biblioteke izvestnykh tekstov. Postroen vysokotochnyj metod identifikatsii, ispolzujuschij funktsional blizosti tekstov kak raspredelenij par bukv v opredelennoj norme. Analizirujutsja takzhe statisticheskie svojstva rasprostranennykh evropejskikh jazykov. Dlja nikh ustanovleno poluempiricheskoe raspredelenie alfavitnykh simvolov po chastote vstrechaemosti, kotoroe okazalos zavisjaschim ot dvukh parametrov - kolichestva bukv v...