Главная » Описание

Описание

Целью проекта «Создание корпуса исторических локальных текстов» является создание цифрового ресурса, поддерживающего проведение историко-культурных исследований методами корпусной лингвистики и контент-анализа. Создаваемый ресурс воплощается в форме облачного сервиса, обеспечивающего доступ к базе размеченных исторических текстов.

Задачи проекта включают в себя:

  • спроектировать структуру базы данных, обеспечивающую хранение размеченных текстов;
  • создать цифровой редактор для формирования базы исторических текстов;
  • спроектировать и реализовать интерфейс поиска по размеченному корпусу текстов;
  • определить модель метаразметки исторических текстов и схемы концептуальной разметки единиц кодирования в текстах;
  • создать цифровой редактор для выполнения процедур аннотирования текстов в соответствии с определенной метаразметкой и концептуальной разметкой;
  • разработать методологию и программную поддержку отбора единиц кодирования;
  • разработать методику разметки текстов, с применением функционала созданного цифрового редактора;
  • выполнить разметку корпуса исторических локальных текстов.

Работы по блоку включают создание цифрового ресурса, поддерживающего проведение историко-культурных исследований методами корпусной лингвистики и контент-анализа. Создаваемый ресурс воплощается в форме облачного сервиса, обеспечивающего доступ к базе размеченных исторических текстов.

Перечень работ, направленных на создание сервиса, включает:

А) Подблок цифровой поддержки корпуса (Е.А. Кабиольский, А.В. Зайцев, А.Б. Кукшинова, О.И. Бабина):

  • проектирование структуры базы данных, обеспечивающей хранение размеченных текстов
  • создание цифрового редактора для формирования базы исторических текстов, проведения разметки текстов группой аннотирования
  • проектирование и реализация интерфейса поиска по размеченному корпусу текстов, поддерживающего вывод конкордансов (контекстов) для концептуально маркированых единиц, тематических глоссариев, статистических данных по контентно-релевантным единицам

Б) Подблок лингвистической поддержки корпуса (Е.В. Орехова, О.И. Бабина):

  • Участие в определении модели метаразметки исторических текстов и схемы концептуальной разметки единиц кодирования в текстах
  • Базовая настройка созданного цифрового редактора для выполнения процедур аннотирования текстов в соответствии с определенной метаразметкой и концептуальной разметкой
  • Разработка методологии и программной поддержки отбора единиц кодирования
  • Разработка методики разметки текстов, с применением функционала созданного цифрового редактора
  • Организация работы группы аннотирования в лице студентов-лингвистов (в рамках практик и проектного обучения), выполняющих работы в соответствии с разработанной методикой разметки, направленные на наполнение базы данных корпуса локальных исторических текстов, в том числе:
    1. Сегментацию текстов-источников
    2. Метаразметку текстовых сегментов в соответствии с разработанной моделью
    3. Концептуальную разметку единиц кодирования (слов, словосочетаний) в текстах

Итоговый результат проекта:

  • платформа для создания размеченных корпусов текстов.
  • размеченный корпус исторических локальных текстов.
  • корпус-менеджер в виде цифрового ресурса, поддерживающего проведение историко-культурных исследований методами корпусной лингвистики и контент-анализа.