по
Кибернетика и программирование
12+
Меню журнала
> Архив номеров > Рубрики > О журнале > Авторы > О журнале > Требования к статьям > Редакция и редакционный совет > Порядок рецензирования статей > Политика издания > Ретракция статей > Этические принципы > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат
Журналы индексируются
Реквизиты журнала

ГЛАВНАЯ > Вернуться к содержанию
Статьи автора Алпатов Алексей Николаевич
Программные системы и вычислительные методы, 2024-2
Алпатов А.Н., Богатырева А.А. - Формат хранения данных для аналитических систем на основе метаданных и графов зависимостей между CSV и JSON c. 1-14

DOI:
10.7256/2454-0714.2024.2.70229

Аннотация: В современном информационном обществе объемы данных постоянно растут, и эффективная их обработка становится ключевой для предприятий. Передача и хранение этих данных также играет критическую роль. Большие данные, которые используются в системах аналитики, чаще всего передаются в одном из двух популярных форматов: CSV для структурированных данных и JSON для неструктурированных данных. Однако существующие форматы файлов могут оказаться неэффективными или недостаточно гибкими для определенных задач анализа данных. Например, они могут не поддерживать сложные структуры данных или не предоставлять достаточного контроля над метаданными. Или же аналитические задачи могут требовать дополнительной информации о данных, такой как метаданные, схема данных и т.д. Исходя из вышеназванного, предметом данного исследования является формат данных, основанный на совместном использовании CSV и JSON для обработки и анализа больших объемов информации. Предлагается вариант совместного использования обозначенных типов данных для реализации нового формата данных. Для этого введены обозначения для структуры данных, включающей CSV-файлы, JSON-файлы, метаданные и граф зависимостей. Описаны различные типы функций, такие как агрегирующие, преобразующие, фильтрующие и т.д. Приведены примеры применения этих функций к данным. Предложенный подход представляет собой методику, которая может значительно облегчить процессы анализа и обработки информации. В её основе лежит формализованный подход, который позволяет установить четкие правила и процедуры для работы с данными, что способствует их более эффективной обработке. Другим аспектом предложенного подхода является определение критерия выбора наиболее подходящего формата хранения данных. Этот критерий основан на математических принципах теории информации и энтропии. Введение критерия выбора формата данных на основе энтропии позволяет оценить информационную содержательность и компактность данных. Этот подход основывается на расчете энтропии для выбранных форматов и весовых коэффициентов, отражающих важность каждого значения данных. Путем сравнения энтропий можно определить требуемый формат передачи данных. Такой подход учитывает не только компактность данных, но и контекст их использования, а также возможность включения дополнительной метаинформации в сами файлы и поддержку данных, готовых к анализу.
Другие сайты издательства:
Официальный сайт издательства NotaBene / Aurora Group s.r.o.