"Методология анализа русскоязычных текстов по 96 лингвистическим категория

Анализ русскоязычных текстов

В рамках проекта реализован сервис, позволяющий анализировать тексты по предварительно сформированным категориям.

Всего представлено 96 категорий для анализа русскоязычных текстов.

Функционал сервиса доступен всем пользователям после регистрации.

Общие статистические характеристики

На данном этапе рассчитываются общие статистические данные о тексте.

К ним относятся такие характеристики, как количество и длина слов в тексте, количество повторений и др.

В рамках данного блока также анализируются частотности слов в заданном тексте.

Категории на основе структуры зависимостей

Характеристики данного блока связаны с синтаксическими особенностями текста, выделение которых происходит из структуры зависимостей.

Анализируются такие особенности, как глубина синтаксических деревьев, количество относительных клауз и др.

Морфологические категории

Категории отражают морфологические особенности словоформ, полученных из структуры зависимостей.

К ним относится определение частей речи словоформ, расчет их встречаемости в тексте, а также выделение специфичной морфологической информации.

Лексические категории

Лексико-семантические особенности текста определяются на основании предварительно отобранных категорий, для которых сформированы специальные тезаурусы.

Категории отражают некоторые аффективные, социальные, физические процессы и др. на основании анализа словоформ.

Категории, определяемые предобученными языковыми моделями

В настоящий момент в рамках проекта используется 1 категория на основании предобученных языковых моделей.

Такой категорией является общая эмоция рассматриваемого текста

Подробное описание категорий с расшифровкой доступно по ссылке.

Работа выполнена в рамках государственного задания Института психологии РАН (№ 0138–2024–0020)