ГЛАВНАЯ
> Вернуться к содержанию
Статьи автора Ларионова Марина Ченгаровна
Северина Е.М., Ларионова М.Ч. - Проект Chekhov Digital: задачи и проблемы реализации семантической разметки текстов (на примере рассказа А. П. Чехова «Смерть чиновника») |
|
c. 211-222
|
DOI: 10.25136/2409-8698.2023.10.68862
Аннотация: В статье рассматривается модель подготовки машиночитаемой (семантической) разметки текстов для проекта Chekhov Digital на примере филологической интерпретации отдельных значимых элементов рассказа А. П. Чехова «Смерть чиновника» и представления этих сведений в явном виде с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI/XML). Выявлены значимые сущности для разметки корпуса текстов писателя, однако вопрос их репрезентации в тексте остается достаточно сложным. Проведена филологическая экспертиза таких аспектов, как «свойства, состояния и события; особенности характера» в отрывке из рассказа А.П. Чехова с точки зрения возможностей разметки TEI по сохранению филологических знаний в машиночитаемом формате. Одна из задач проекта Chekhov Digital – выйти за рамки простого оцифрованного текста и предусмотреть полезные для исследователя цифровые инструменты. Представлены элементы машиночитаемой разметки, позволяющие разметить значимые сущности в чеховских текстах для организации семантического поиска по корпусу текстов писателя, рассмотрены проблемы и исследовательские задачи, возникающие в процессе реализации такого рода междисциплинарных проектов в связи с необходимостью объединения усилий специалистов из разных областей знания. В рамках проекта реализуется принцип открытых исследовательских данных (Open Data), важнейшей задачей которого является создание научных сообществ вокруг данных. Работа над проектом привела к развитию научного сотрудничества между исследователями НИУ ВШЭ, ЮНЦ РАН и ЮФУ.
|