по
Историческая информатика
12+
Меню журнала
> Архив номеров > Рубрики > О журнале > Авторы > О журнале > Требования к статьям > Порядок рецензирования статей > Ретракция статей > Этические принципы > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат > Редакция > Редакционный совет
Журналы индексируются
Реквизиты журнала

ГЛАВНАЯ > Вернуться к содержанию
Статьи автора Торвальдсен Гуннар
Историческая информатика, 2018-1
Торвальдсен Г. - Автоматизация транскрибирования исторических источников: опыт работы с материалами переписи населения Норвегии 1950 года c. 94-103

DOI:
10.7256/2585-7797.2018.1.25686

Аннотация: Данная статья посвящена проблемам транскрибирования рукописных материалов переписи населения Норвегии 1950 г. Они представляют собой 801 000 двусторонних опросных листов, каждый из которых был отсканирован. Программы оптического распознавания печатного текста совершенствуются на протяжении более чем четырех десятилетий. В настоящее время исследователи стремятся применить аналогичные методы для транскрибирования рукописного материала. В статье проанаизирован опыт работы Центра исторической документации Норвегии Университета Тромсо по распознаванию рукописного текста, рассматриваются проблемы использования различных методов распознавания текста и возможности их применения к номинативным источникам. Из-за трудностей с распознаванием и выделением самостоятельных рукописных символов, изображения целых слов математически группируются по соответствию подобным изображениям или же идет поиск этих слов-изображений в ранее транскрибированных источниках. После контроля качества распознавания программное обеспечение использует номера строк для размещения информации из транскрибируемых ячеек, после чего они становятся частью базы данных переписи. Кроме того, разрабатывается специальное программное обеспечение для обработки рукописных числовых кодов, данных о профессиях, образовании и т. д. Предложенные в статье методы дают возможность подняться на новый уровень и качество транскрибирования рукописного текста и могут быть применены для распознавания записей номинативных источников РОссии, в частности метрических книг и записей ЗАГС. Основными задачами по-прежнему остаются поиск методов и алгоритмов, которые оптимально подбирают связи между различными переменными и рационализация методов интерактивной корректуры.
Другие сайты издательства:
Официальный сайт издательства NotaBene / Aurora Group s.r.o.