Историческая информатика - рубрика Новые методы и технологии обработки исторических источников
по
Историческая информатика
12+
Меню журнала
> Архив номеров > Рубрики > О журнале > Авторы > О журнале > Требования к статьям > Порядок рецензирования статей > Ретракция статей > Этические принципы > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат > Редакция > Редакционный совет
Журналы индексируются
Реквизиты журнала

ГЛАВНАЯ > Журнал "Историческая информатика" > Рубрика "Новые методы и технологии обработки исторических источников"
Новые методы и технологии обработки исторических источников
Пригодич Н.Д., Коробко С.С. - Применение программных методов для автоматизированной обработки источников личного происхождения c. 1-9

DOI:
10.7256/2585-7797.2023.1.40376

EDN: OJJZUU

Аннотация: Предметом настоящего исследования являются программные методы автоматизированной предобработки исторических источников и разработка эффективного решения задач при работе с источниками личного происхождения. В рамках статьи проанализировано актуальное положение в области использования современных программных методов. Авторы демонстрируют основной круг аргументов, по которым такие исторические источники с технической точки зрения необходимо рассматривать отдельно. Проведен методологический разбор особенностей применения оптического распознания символов на основе предобработанных данных. Особое внимание уделено преимуществам и ключевым параметрам эффективности конечного результата работы при использовании автоматизированной преодобработки текстов, в том числе при дальнейшем использовании OCR-методов.   Научная новизна исследования заключается в предложении и подробном описании программного решения сложившейся проблемы на основе методов машинного обучения. Разработанная программа имеет три фазы работы с цифровыми копиями источников личного происхождения. В ее основе заложены использование библиотеки OpenCV и решения ряда задач с помощью преобразования Хафа. Опираясь на общий анализ исследования мы можем выделить основные преимущества автоматизированной предобработки сканированных документов: сокращение времени, повышение точности, борьба с искажениями и оптимизация процесса. Представленные результаты успешной апробации разработанного решения позволяют судить о возможных сферах ее эффективного применения.
Соколов Ю.В. - Дискуссии о российской революции 1917 г. в Сети: методические подходы к исследованию веб-форумов как исторического источника c. 19-33

DOI:
10.7256/2585-7797.2023.2.40601

EDN: AFQXIL

Аннотация: Предметом исследования является методика анализа электронного контента социальных сетей (форумов) как исторического источника. В качестве материала для анализа использовано обсуждение революции 1917 г. в период столетнего юбилея этого исторического события. Целью исследования являлась апробация подходов к методике работы с большими массивами сетевых текстов, и возможном совмещении двух подходов к работе с онлайн-текстами — средств количественного анализа ("дальнее чтение") и традиционных приёмов работы с историческим текстом ("медленное чтение"). В рамках «дальнего чтения» используется тематическое моделирование при помощи алгоритма LDA (латентное размещение Дирихле) и LSA (латентно-семантический анализ) в среде программирования R в программе R studio (версия 4.2.1). В ходе «медленного чтения» мы анализируем весь объём текста непосредственно. Новизна исследования заключается в применении к источникам тематического моделирования в среде программирования R в совокупности с классическими методами анализа исторических текстов. В рамках исследования апробирована методика анализа контента социальных сетей (форумов), ориентированная на существенные массивы текста, которые физически невозможно прочитать полностью или хотя бы в значительной части, пользуясь исключительно традиционными средствами взаимодействия исследователя с корпусом источников. Предложен пошаговый алгоритм исследования, в рамках которого исследователю нужно проанализировать текст методами «дальнего чтения», выявив темы тексты, состоящие из термов (слов). Затем используя эти ключевые слова следует найти соответствующие фрагменты текста, в которых выявленная тема обсуждалась наиболее активно, и проанализировать фрагменты подробнее с использованием традиционных приемов работы с текстовым источником. Предложен возможный способ улучшения качества выявления необходимых исследователю тем в социальных сетях и на форумах алгоритмом LDA, а именно предварительное дробление большого текста и последующий анализ фрагментов методом LDA как отдельных документов.
Ринчинов О.С. - Диахронический корпус бурятского языка как цифровой инструмент исторических исследований: подходы, решения, экспериментальные исследования c. 26-34

DOI:
10.7256/2585-7797.2020.2.33446

Аннотация: В статье рассмотрены вопросы использования диахронического корпуса бурятского языка, составленного на основе написанных на старомонгольской письменности летописей, для реконструкции истории и исторической географии бурятского народа. В этой связи обсуждены основные проблемы семантической разметки корпусных данных, размер которого в настоящее время достигает 82 тыс. словоупотреблений. Новизна исследования заключается в том, что впервые объектом применения методов компьютерной лингвистики являются тексты на классическом монгольском языке, представленные в латинизированной транслитерации. Описаны подходы к разработке онтологической схемы историко-культурной предметной области, выявлению элементов родо-племенного и географического контекстов. На основе вычислительного эксперимента, проведенного с использованием СУБД MS Access и языка SQL, показаны преимущества использования методологии авторитетного контроля, в частности, объектов категорий «род/семья» и «место», для первичного анализа корпусных данных и формирования основных семантических кластеров. Применение авторитетных записей позволило в существенной степени ускорить накопление эмпирических данных для автоматизации содержательного анализа текстов, включенных в корпус. Проведенные эксперименты позволили определить направления дальнейшей работы по созданию и совершенствованию инструментов семантической разметки диахронического корпуса бурятского языка и превращению его в удобный инструмент исторических исследований.
Семенов А.С., Кабаев Д.А., Черняева Л.Л., Чернов С.З., Гончарова Н.Н. - Данные о древней ДНК с территории клязьминских поселений XII века. Часть 2 c. 30-36

DOI:
10.7256/2585-7797.2023.4.68943

EDN: TYEJKY

Аннотация: В работе описаны результаты определения гаплогрупп двух древних захоронений XII века со среднего течения Клязьмы. Полученные данные позволяют определить Y-гаплогруппу и митогаплогруппу по маркерам, выделенным в исследовании. В статье описывается применение методов биоинформатики и полученный результат, который с высокой вероятностью определяет Y-гаплогруппу I1-Z58 захоронения №26 и митогаплогруппу H1-146C и вероятный субклад H1m1 захоронения №25. Данная работа подводит итог начальному этапу исследований, предпринятому в 2019-2020 годах, и продолженному в других работах авторского коллектива. Часть результатов была опубликована, митоДНК из захоронения №25 публикуется впервые. Результат пополняет серию ДНК-данных из описанной группы захоронений с древних клязьминских поселений, опубликованных авторами ранее. Современные технологии позволяют качественно извлекать ДНК и тестировать ее различными методами, включая определение гаплогруппы Y-хромосомы и митохондриальной ДНК. В статье приведены основные параметры используемых технологических инструментов. В статье приведены результаты исследования, проведенного в 2019-2020 годах. Первые свидетельства присутствия митохондриальной гаплогруппы H1-146C (вероятно, H1m1) из захоронения №25 и Y-гаплогруппы I1-Z58 из захоронения №26 среди клязьминского населения Северо-Восточной Руси в XII веке не только подтверждают наличие митохондриальной гаплогруппы H1 на средневековых русских земель (населенных потомками восточных славян), но и указывают, что определенное генетическое единство с западными частями славянского ареала могло в то время существовать (поскольку наиболее серьезные концентрации I1-Z58 и присутствие H1m1 наблюдаются в западной части славянского ареала). Вывод об отнесении митогаплогруппы к H1 был сделан на базе сочетания CRS в HVR1 и наличия мутации 263G в HVR2. Согласно таблице определяющих мутаций FTDNA, мутация 146С указывает на ветвь H1m1.
Разинков С.Л. - Опыт создания базы данных «Образ учащихся учебных заведений Государственных трудовых резервов Свердловской области в фотодокументах (1940-50-е гг.)» c. 37-51

DOI:
10.7256/2585-7797.2023.4.69120

EDN: WDUWFX

Аннотация: Целью базы данных является реконструкция «парадного» и «непарадного» портрета учащихся государственных трудовых резервов (на примере визуальных образов учащихся учебных заведений Свердловской области 1940-50-х гг.). Анализ сведений, содержащихся в базе данных, в перспективе позволит ответить на ряд исследовательских вопросов и выявить важные характеристики визуального образа и социального портрета учащихся: виды деятельности, в том числе различные стороны трудовой и учебной деятельности, «телесная активность» учащихся; акты человеческой интеракции и невербальной коммуникации (жесты, мимика, позы тела и т.п.); используемые объекты материальной культуры; повседневные стереотипы поведения, реконструируемые посредством серии фотографий; «нетипичный опыт», описание девиантных групп учащихся, нерегламентированной одежды, нетипичной манеры поведения.  При создании БД учитывались концепции визуальных образов в исторических исследованиях Л.Н. Мазур, цифровизации визуальной антропологии Д. Цейтлина, невербальной семиотики Г. Крейдлина, "плотного описания" К. Гирца. Результатами исследования являются: 1) разработка и описание структуры базы данных, позволяющей учесть особенности визуальных источников, направленной на реконструкцию «парадного» и «непарадного» портрета учащихся учебных заведений Свердловской области в 1940-50-х гг. посредством детального описания позы, жестов, визуального поведения, пространственного взаимодействия, одежды и обуви персон, изображенных на фотографии; 2) первичный анализ 145 фотографий из официальных альбомов 4 учебных заведений, посвященных описанию итогов их участия во Всесоюзном социалистическом соревновании в 1943-1945 гг.; 3) более точная идентификация и систематизация внешних поведенческих практик учащихся на основе БД; 4) демонстрация возможностей детального описания изображений средствами БД для выявления отдельных сторон «непарадного портрета» учащихся. Результаты исследования могут использоваться при исследовании повседневности и социокультурного портрета учащейся молодежи в советский период.
Торвальдсен Г. - Автоматизация транскрибирования исторических источников: опыт работы с материалами переписи населения Норвегии 1950 года c. 94-103

DOI:
10.7256/2585-7797.2018.1.25686

Аннотация: Данная статья посвящена проблемам транскрибирования рукописных материалов переписи населения Норвегии 1950 г. Они представляют собой 801 000 двусторонних опросных листов, каждый из которых был отсканирован. Программы оптического распознавания печатного текста совершенствуются на протяжении более чем четырех десятилетий. В настоящее время исследователи стремятся применить аналогичные методы для транскрибирования рукописного материала. В статье проанаизирован опыт работы Центра исторической документации Норвегии Университета Тромсо по распознаванию рукописного текста, рассматриваются проблемы использования различных методов распознавания текста и возможности их применения к номинативным источникам. Из-за трудностей с распознаванием и выделением самостоятельных рукописных символов, изображения целых слов математически группируются по соответствию подобным изображениям или же идет поиск этих слов-изображений в ранее транскрибированных источниках. После контроля качества распознавания программное обеспечение использует номера строк для размещения информации из транскрибируемых ячеек, после чего они становятся частью базы данных переписи. Кроме того, разрабатывается специальное программное обеспечение для обработки рукописных числовых кодов, данных о профессиях, образовании и т. д. Предложенные в статье методы дают возможность подняться на новый уровень и качество транскрибирования рукописного текста и могут быть применены для распознавания записей номинативных источников РОссии, в частности метрических книг и записей ЗАГС. Основными задачами по-прежнему остаются поиск методов и алгоритмов, которые оптимально подбирают связи между различными переменными и рационализация методов интерактивной корректуры.
Галушко И.Н. - Корректировка результатов OCR-распознавания текста исторического источника с помощью нечетких множеств (на примере газеты начала XX века) c. 102-113

DOI:
10.7256/2585-7797.2023.1.40387

EDN: OCFBSP

Аннотация: Наша статья посвящена попытке применения современных методов NLP для оптимизации процесса распознавания текста исторических источников. Любой исследователь, решивший воспользоваться инструментами распознавания отсканированных текстов, столкнется с рядом ограничений точности конвейера (последовательности операций распознавания). Даже наиболее качественно обученные модели могут давать существенную ошибку по причине неудовлетворительного состояния дошедшего до нас источника: порезы, изгибы, кляксы, стертые буквы – всё это мешает качественному распознаванию. Наше предположение состоит в том, что, используя заранее заданный набор слов, маркирующих присутствие интересующей нас темы, с помощью модуля нечетких множеств (Fuzzy sets) из NLP-библиотеки SpaCy, мы сможем восстановить по шаблонам те слова, которые по итогам процедуры распознавания оказались распознаны с ошибками. Для проверки качества процедуры восстановления текста на выборке из 50 номеров газеты «Биржевые ведомости» мы посчитали оценки количества слов, которые бы не вошли в семантический анализ из-за неправильного распознавания. Все метрики были посчитаны также с использованием паттернов нечетких множеств. Оказалось, что в среднем на номер «Биржевых ведомостей» приходится 938.9 слов, маркирующих тему нашего исследования – торговые и финансовые операции с ценными бумагами. Из них изначально правильно распознаются в среднем 87.2% слов. Примерно 119.6 слов (в среднем на 50 номеров) содержат опечатки, связанные с некорректным распознаванием. Благодаря использованию алгоритмов нечетких множеств нам удалось эти слова восстановить и включить в семантический анализ. Мы считаем, что восполнение 12.8% слов, потенциально относящихся к изучаемой теме – это хороший результат, существенно повышающий качество дальнейшего семантического анализа текста методами компьютерного моделирования.
Акашева А.А., Чечин А.В. - Методика реконструкции межевого плана и границ Нижнего Новгорода 1784 года на базе специализированных геодезических программ c. 111-142

DOI:
10.7256/2585-7797.2020.1.32103

Аннотация: Одной из задач исторических ГИС является геопривязка к современной системе координат старинных карт, которые по определению содержат погрешности разного рода. В связи с этим есть потребность в разработке алгоритмов, позволяющих избежать их и позиционировать источники с наименьшими деформациями, искажениям. Описанная задача актуальна и для русских планов Генерального межевания. Их особенность заключается в том, что они содержат точные геодезические характеристики земельных дач. Предметом исследования является комплекс архивных планов Нижнего Новгорода конца XVIII в., на основе которых была разработана методика реконструкции границ города и межевых планов. Методология исследования базируется на принципах историзма, системности и объективности, выделяется роль математико-статистических методов, использованы специально-исторические (историко-типологический, историко-генетический) методы и геодезический метод обработки и уравнивания теодолитного хода, моделирования, картометрический. Научная новизна определяется алгоритмом реконструкции границ города и межевых исторических планов, технологическими решениями для изучения объекта с помощью геодезических программ, новыми данными о землеустроительных работах и созданных по их результатам картографическим материалам в конкретном регионе России. Основными выводами исследования являются позиционированные границы Нижнего Новгорода в условной системе координат. Установлено, что теодолитные ходы изученных дач имели существенные угловые и относительные линейные погрешности: для селитебной дачи они составили 3°29' и 1/31, для выгонной – 2°49' и 1/80 соответственно, для Благовещенского монастыря оказались допустимыми: 0°37’и 1/139. Получен растровый межевой план Нижнего Новгорода. В дальнейшем он может быть использован для геопривязки и создания исторической ГИС.
Парфенов В.А. - Лазерное 3D-сканирование в оцифровке, реконструкции и копировании скульптурных памятников c. 114-124

DOI:
10.7256/2585-7797.2023.1.40440

EDN: ODGXGC

Аннотация: Данная статья посвящена применению технологии лазерного 3D-сканирования для решения актуальных задач современной музейной работы. Показана возможность использования данной технологии для оцифровки объектов культурно-исторического наследия с целью их документирования, мониторинга состояния сохранности, реставрации, виртуальной реконструкции и репродуцирования. Приведены результаты практических работ по созданию высокоточных физических копий мраморных скульптур из музеев Санкт-Петербурга в результате комбинированного использования 3D-сканирования и фрезерных камнеобрабатывающих станков с числовым программным управлением. Кроме того, показана перспективность применения лазерных аддитивных технологий для реставрации и копирования исторических памятников. Приведенные в статье результаты работ по созданию копии мраморной итальянской скульптуры XVIII века «Примавера» из коллекции музея-заповедника «Царское село» являются первым опытом применения лазерного бесконтактного метода копирования скульптурных памятников в России. Данный подход был предложен и реализован автором данной статьи в кооперации с петербургской реставрационной компанией ООО «Ресстрой» и итальянскими партнерами. Кроме того, также впервые в нашей стране, автор продемонстрировал возможность применения технологии лазерного 3D-сканирования для мониторинга экстерьерных памятников и применения лазерных аддитивных технологий для реставрации и реконструкции поврежденных и полностью утраченных объектов культурно-исторического наследия.
Лягушкина Л.А. - Опыт классификации социального положения репрессированных в СССР с помощью метода опорных векторов c. 128-139

DOI:
10.7256/2585-7797.2022.1.37719

Аннотация: В статье рассматриваются различные подходы к классификации занятий в исторических исследованиях на примере базы данных «Жертвы политического террора в СССР», разработанной историко-просветительским обществом «Мемориал» (признано иностранным агентом и ликвидировано по решению суда). Необходимо обобщить разрозненные данные о профессии и занятиях репрессированных. В статье дается краткий обзор методов, которыми ранее уже решалась эта задача: от ручного отнесения тех или иных занятий и профессий репрессированных к разным общественным группам, которые существовали в 1930-х годах в СССР, до полностью автоматической кластеризации. Далее предлагается новый способ: применить для классификации машинное обучение «с учителем»: использовать уже разделенные в рамках предыдущих исследований на группы записи для обучения алгоритма и последующей автоматической разметки. Наилучшим из опробованных способов оказался метод опорных векторов, который на тестовой выборке показал точность 95%. Рассматриваются преимущества и ограничения подобной классификации, главным из которых является то, что некоторые общественные группы определяются систематически более плохо. Тем не менее, применение этой методики позволило крайне быстро разметить 350 тыс. новых записей из базы данных. Разметка на основе обработанных историком «тренировочных» данных представляется перспективным методологическим направлением для исторической информатики.
Галушко И.Н. - Применение тематического моделирования для оптимизации процесса поиска релевантных исторических документов (на примере биржевой прессы начала XX в.) c. 129-144

DOI:
10.7256/2585-7797.2023.2.43466

EDN: SKBPNS

Аннотация: Ключевой задачей представленной статьи является апробация методики анализа информационного потенциала коллекции исторических источников с помощью тематического моделирования. Некоторые современные коллекции оцифрованных исторических материалов насчитывают десятки тысяч документов, и на уровне отдельного исследователя охват всего доступного наследия представляется затруднительным. Вслед за рядом исследователей мы предполагаем, что тематическое моделирование может стать удобным инструментом предварительной оценки содержания коллекции исторических документов; инструментом отбора только тех документов, в которых присутствует информация, релевантная поставленным исследовательским задачам. В нашем случае в качестве основной коллекции исторических документов была выбрана подборка газеты «Биржевые ведомости». На данном этапе мы можем подтвердить, что в рамках нашего исследования применение тематического моделирования оказалось продуктивным решением для оптимизации процесса поиска исторических документов в объемной коллекции оцифрованных исторических материалов. В то же время необходимо подчеркнуть, что в нашей работе тематическое моделирование применялось исключительно как прикладной инструмент ускорения поиска и первичной оценки информационного потенциала коллекции документов через анализ выделенных топиков. Наш опыт показал, что по крайней мере для «Биржевых ведомостей» тематическое моделирование с использованием LDA не позволяет делать выводы с позиции применяемой нами методологии содержательного анализа. Данные наших моделей слишком фрагментарны, их можно использовать только для первичной оценки тематик информации, содержащейся в источнике.
Ляховицкий Е.А., Цыпкин Д.О. - Инфракрасная визуализация текста в изучении памятников древнерусской письменности c. 148-156

DOI:
10.7256/2585-7797.2019.4.31588

Аннотация: Предметом исследования является текст рукописного памятника, рассматриваемый, как материальный объект - система следов пишущего инструмента на писчем материале (бумаге, пергамене). Трассы орудия письма представляют собой сочетание рельефа и красителя (например, чернил). Текст, понимаемый, как совокупность таких трасс характеризуется наличием перепадов в толщине слоя красителя и его химическом составе на различных уровнях структуры текста. Такие перепады обусловлены различными аспектами письменного навыка и могут использоваться для его характеристики. Задача настоящей публикации — представить возможности современного оптико-электронного спектрозонального исследования исторических чернил в изучении текста рукописно-книжных памятников. Речь пойдет о технологии цифровой визуализации документов в ближней инфракрасной области спектра с последующей программной обработкой изображений Основным результатом настоящего исследования является формулирование основных направлений в раскрытии информационного потенциала текста, как физического объекта - системы следов посредством спектрозональной визуализации. Такими направлениями являются: 1) изучение следов пишущего инструмента с целью реконструкции системы движений и техники письма; 2) определение областей разновременной работы писца в рукописи ; 3) обнаружение правки в документе.
Латонов В.В., Латонова А.В. - Применение теории самоорганизованной критичности к анализу либеральной повестки в прессе 1815-1825 гг. c. 156-165

DOI:
10.7256/2585-7797.2022.3.38752

EDN: DSJVGG

Аннотация: Предметом исследования в настоящей работе является либеральная повестка в российской прессе преддекабристского периода. Объектом исследования являются газеты, издававшиеся в этот период. Новизна работы заключается в том, что в предложенном исследовании проведен поиск розового шума в данных, которые были получены из прессы первой четверти XIX века. В работе показано, что общественное сознание этого периода находилось в состоянии самоорганизованной критичности. Ранее состояние самоорганизованной критичности удавалось найти лишь в системах, возникавших в конце XIX века или позже. Трудность рассмотренной в работе проблемы заключается в том, что для столь раннего исторического периода почти не имеется массовых источников, а среди имеющихся очень немногие поддаются формализации.   Новизна проведенного исследования заключается в применении научного инструмента теории самоорганизованной критичности к данным, имеющим истоки в первой четверти XIX века. Основной вывод, сделанный авторами статьи, заключается в том, что общественное сознание в преддекабристский период находилось в состоянии самоорганизованной критичности. Для проведения анализа была собрана статистика публикаций в газетах и журналах, которые служили отражением либеральной повестки, актуальной для периода генезиса декабристов. В работе показано, что последовательность публикаций по либеральным информационным поводам в российской прессе в период 1815-1825 гг. содержит розовый шум. Для его определения в динамическом ряду использовался анализ Фурье.
Базарова Т.А., Проскурякова М.Е. - Автографы Петра I: чтение технологиями искусственного интеллекта и создание электронного архива c. 179-190

DOI:
10.7256/2585-7797.2022.4.39224

EDN: QMWYXE

Аннотация: Статья посвящена современным цифровым методам работы с рукописным наследием Петра I. Они были применены в рамках реализации научного проекта «Автографы Петра Великого: Чтение технологиями искусственного интеллекта». Проект был инициирован Российским историческим обществом и реализован специалистами Санкт-Петербургского института истории РАН, ПАО «Сбербанк». В статье описана методика подготовки набора данных для создания программы машинного чтения рукописей Петра I («Digital Петр»). Особый акцент авторами сделан на выработанных в ходе проекта принципах передачи исторического текста. Кроме того, проанализированы случаи использования Петром I небуквенных символов и вызванные этим сложности при формировании набора данных. В статье также отражены результаты работы созданного алгоритма и определены варианты организации петровского текста, которые снижают качество распознавания. Авторами также уделено внимание электронному архиву «Автографы Петра I», который стал продолжением проекта о машинном чтении рукописей первого русского императора. В архиве, над которым продолжается работа, представлены цифровые копии автографов Петра I, результаты их распознавания программой Digital Петр, а также научные публикации этих уникальных исторических источников. Интернет-портал "Автографы Петра I" связан с ресурсом: "Биохроника Петра Великого день за днем" (создан на сайте НИУ ВШЭ). Связь двух сайтов открывает перед исследователями дополнительные возможности: каждый оцифрованный автограф вводится в исторический контекст.
Кузнецов А.В. - Компьютерный анализ текстов на латинском языке: Латентно-семантический анализ «Истории готов, вандалов и свевов» Исидора Севильского c. 202-217

DOI:
10.7256/2585-7797.2020.2.32961

Аннотация: В статье предпринимается попытка с использованием современных методов интеллектуального анализа текстов исследовать латиноязычный текст хроники «История готов, вандалов и свевов» выдающегося богослова и ученого VII века Исидора Севильского. Ставится цель проверить выдвинутую в историографии гипотезу о наличии у автора представлений об определенной иерархии варварских народов. Основное внимание направлено на раскрытие неявных семантических взаимоотношений между различными частями произведения с целью уточнения отношения автора к трем варварским народам. Анализ текста проводился на языке программирования R. В качестве конкретного метода бы выбран метод латентно-семантического анализа, позволяющий проводить сравнение и кластеризацию текстов на основе семантического пространства, построенного путем сингулярного разложения терм-документной матрицы. Новизна исследования заключается в том, что впервые реализован полный цикл латентно-семантического анализа средневекового латиноязычного текста. Проведена предварительная подготовка, построено семантическое пространство текста памятника, осуществлено сравнение семантической схожести текстов на основе меры косинусного сходства. Результаты анализа позволяют утверждать, что Исидор Севильский действительно выстраивает иерархию из трех варварских народов, придавая большее сходство описанию вестготов и свевов и особняком ставя вандалов.
Торвальдсен Г. - Связывание записей в историческом регистре населения Норвегии c. 212-231

DOI:
10.7256/2585-7797.2019.2.30126

Аннотация: Исторический регистр населения Норвегии содержит данные о населении страны с 1800 до 1964 г. Сведения о населении страны с 1964 г. до современности собраны в Центральном регистре населения. Исторический регистр состоит из данных метрических книг и записей актов гражданского состояния, заполняющих пробелы между переписями населения, проводившимися каждые десть лет. В 1801 г. и, начиная с 1865 г., эти переписи являлись номинативными, то есть содержали имена людей. Настоящая статья посвящена проблемам связывания записей переписей и метрических книг (record linkage) в период с 1800 по 1920 г. Особое внимание уделяется идентификации индивидов и трудностям связывания записей. Главная проблема заключается в том, чтобы идентифицировать человека по записям, относящимся к разным годам, в условиях значительного количества однофамильцев и вариации фиксации их имен, а также возраста. Создание стабильных идентификаторов индивидов и процедура связывания записей из различных источников потребовали разработки нового программного обеспечения, объединяющего автоматические и ручные методы. С помощью рассмотренных методов удалось связать сведения о более чем миллионе человек из нескольких источников.Анализ локальных баз данных позволяет надеяться на успешное связывание от 2/3 до 90% записей по различным периодам и регионам страны. Исторический регистр Норвегии является уникальным по охвату территории и многообразию связанных в нем исторических источников.
Фролов А.А. - Опыт применения инструментов геоинформатики в кодикологическом исследовании писцовых книг c. 218-233

DOI:
10.7256/2585-7797.2020.2.33330

Аннотация: Предметом изучения в статье являются способы обобщения и визуализации кодикологических наблюдений над архивной рукописью средствами геоинформатики. Данное решение позволяет систематизовать сведения исторического источника и делает их максимально доступными для широкого круга пользователей сети Интернет. Созданный в результате веб-проект может использоваться не только в исследовательских, но и в образовательных целях. Материалом для данной работы послужили результаты кодикологического изучения новгородской писцовой книги Водской пятины письма С. Клушина, работа над которой была завершена в 1542 г. (хранится в РГАДА). В рамках предлагаемого подхода материальный носитель исторического текста, рукопись, рассматривается как особое пространство в собственной системе координат. Это делает применимыми для установления топологии (то есть взаимного соотношения) ее объектов методы геоинформатики. Предлагаемый подход реализуется на практике впервые, поэтому основное внимание уделено описанию важнейших этапов обработки исходных кодикологических материалов для превращения их в ГИС-проект, основанный на реляционной базе данных. Результатом проделанной работы стал веб-ресурс, позволяющий визуализировать значительный объем данных о рукописи. Его, однако, не следует считать картой или картоидом. Более корректным представляется обозначить его как кодикологическую схему рукописи, созданную в среде ГИС и опубликованную как веб-ресурс, но без карты как таковой. Полученная схема корректируется и управляется средствами, которые используются при работе с базами данных и не ограничены картографическим интерфейсом.
Козыкин А.В. - Методика оценки изменений агрокультурного ландшафта на основе ГИС-обработки планов межевания 1861 г. и современного описания лесного фонда Национального парка «Кенозерский» c. 221-232

DOI:
10.7256/2585-7797.2021.2.35089

Аннотация: Для многих особо охраняемых природных территорий России традиционные агроландшафты являются объектами высокого историко-культурного и природного наследия. Их сохранение и восстановление требует глубокого понимания процессов их возникновения, формирования и деградации. В условиях Севера Европейской части России агроландшафты при сокращении ведения сельского хозяйства зарастают лесами, утрачивая свои внешние черты. Однако, структурные характеристики этих лесов, как правило, свидетельствуют об их происхождении и особенностях сукцессий. Исследование проведено с целью выработки методики оценки масштабов сельскохозяйственного освоения в прошлом, моделирования процессов исторической трансформации агроландшафтов, идентификации участков подсечно-огневого, переложного, двух- и трёхпольного земледелия по структурным характеристикам постагрогенных лесов. В основе исследования лежит сравнительное сопоставление в ГИС растровых аналогов планов межевания второй половины XIX века и векторных слоёв современного лесоустройства с атрибутивными данными о структуре лесов.       Использование картографических материалов лесоустройства и таксационных характеристик лесов для сопоставления с землеустроительными документами прошлого на модельном участке ранее в научной литературе не встречалось. Высокая точность современных лесоустроительных работ обеспечивает вполне допустимую сходимость со старыми межевыми планами, выполненными инструментальным способом, и дает возможность использования данных по таксации лесов для внутриландшафтной дифференциации агроландшафтов XIX в. Исследование проведено на территории модельного участка в границах Национального парка «Кенозерский» (Архангельская область) на основе комплекта межевых планов 1861 г. и ГИС лесоустройства 2014 г., разработанной Архангельским филиалом ФГУП Рослесинфорг. Обработка в ГИС межевых планов XIX в. и планов современного лесоустройства позволяет моделировать изменения агроландшафтов по отдельным угодьям, проследить влияние почвенных условий и элементов аграрного использования на процессы изменений типологической и таксационной структуры формирующихся на них современных лесов, исторических реконструкций биологического разнообразия экосистем прошлого.
Брюханова Е.А., Еремин А.А. - Оценка репрезентативности первичных материалов переписи 1897 г.: картографический подход c. 232-241

DOI:
10.7256/2585-7797.2019.2.29770

Аннотация: Основное внимание авторы уделяют оценке репрезентативности и степени сохранности переписных листов Первой всеобщей переписи населения 1897 г., отложившихся в российских и зарубежных архивах. Изучение сохранившихся коллекций первичных документов переписи позволяет сделать вывод о неоднородности термина «переписные листы», который включает несколько разных форм, применявшихся в зависимости от вида домохозяйства и региона, а также первые, вторые и третьи экземпляры переписных листов. Особенностью статьи является то, что полученные выводы были представлены в виде картограмм на основе современных и исторических карт. Исследование проводилось с помощью источниковедческого и пространственного анализа, а также комплексного подхода, в рамках которого переписные листы рассматривались как единый исторический источник вне зависимости от места их хранения. Новизна исследования заключатся в выявлении и введении в научный оборот комплекса первичных материалов Первой всеобщей переписи населения 1897 г. Кроме того, был предложен оригинальный подход, учитывающего как количество населенных мест, так и число сохранившихся переписных листов по ним, позволивший провести оценку степени сохранности переписного материала по уездам Российской империи. Делается вывод о том, что переписные листы с разной степенью сохранности были выявлены для 47% губерний и 25,5% уездов Российской империи. Коллекции переписных листов охватывают регионы Европейской России и Сибири, частично Кавказа и Средней Азии. Объем данных сохранившихся переписных листов и их «территориальный разброс» позволяет рассматривать их как комплексный источник по истории населения Российской империи рубежа XIX-XX вв.
Другие сайты издательства:
Официальный сайт издательства NotaBene / Aurora Group s.r.o.