Статья 'Многомерная организация данных в информационных системах анкетирования' - журнал 'Кибернетика и программирование' - NotaBene.ru
по
Меню журнала
> Архив номеров > Рубрики > О журнале > Авторы > О журнале > Требования к статьям > Редакция и редакционный совет > Порядок рецензирования статей > Политика издания > Ретракция статей > Этические принципы > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат
Журналы индексируются
Реквизиты журнала

ГЛАВНАЯ > Вернуться к содержанию
Кибернетика и программирование
Правильная ссылка на статью:

Многомерная организация данных в информационных системах анкетирования

Меликов Алексей Владимирович

аспирант Пензенского государственного университета

108811, Россия, Московская область, г. Москва, ул. Саларьевская, 14к3, кв. 908

Melikov Aleksej Vladimirovich

Postgraduate student, Penza State University

108811, Russia, Moskovskaya oblast', g. Moscow, ul. Salar'evskaya, 14k3, kv. 908

AleksejV.Melikov@gmail.com
Другие публикации этого автора
 

 

DOI:

10.7256/2306-4196.2014.1.10331

Дата направления статьи в редакцию:

18-01-2014


Дата публикации:

1-2-2014


Аннотация: Автором анализируются преимущества многомерной логической схемы данных в информационных системах анкетирования. Предлагается концептуальная модель процесса анкетирования информационной системы, отличающаяся от существующих наличием процессов дополнительной обработки результатов экспертного оценивания при проведении их многомерного анализа с целью принятия управленческих решений. Разрабатывается математическая модель преобразования данных из исходной реляционной базы данных в хранилище. Такое представление многомерной модели данных обеспечивает надёжное и компактное их хранение в сложных информационных структурах и возможность выделения значимой информации в процессе обработки данных, что в совокупности повышает эффективность обработки экспертной информации, и способствует проектированию на её основе адаптивной, интегрируемой и динамичной информационной системы анкетирования. Для решения поставленных задач применялись: теория информационных процессов и систем, теория баз данных, теория множеств, теория графов. Разработана новая структура хранилища данных, основанная на алгебре кортежей, повышающая надёжность и информативность выводов, получаемых в результате обработки данных экспертных опросов, исключая обработку семантически эквивалентной информации и снижая количество пустых значений показателей в таблицах гиперкубов. Предложенная структура хранилища данных даёт возможность осуществить анализ данных, не предусмотренный планом анкетирования, что способствует повышению насыщенности полученных в результате обработки экспертной информации выводов.


Ключевые слова:

информационная система анкетирования, теория баз данных, многомерная модель данных, хранилище данных, теория множеств, алгебра кортежей, теория графов, гиперкуб, измерение, атрибут

УДК:

004.04

Abstract: The author analyzes the advantages of multi-dimensional logic data organization in survey information systems. Author proposes a conceptual model of the process of questioning in the information system, characterized by the presence of processing the results of expert evaluation during their multivariate analysis to decision-making. The author developed a mathematical model of data transformation from the source to relational database storage. Such a representation of multidimensional data model provides a reliable and compact storage in the complex information structures and the ability to highlight important information in the data processing, all of which increases the efficiency of processing expert information, and facilitates the design based on it adaptive, integrable and dynamic information system survey. To achieve the objectives the author uses the theory of information processes and systems, database theory, set theory, graph theory. The author developed a new structure of the data warehouse, based on the algebra of tuples, which increases the reliability and informativeness of the conclusions derived from the data of expert interviews, excluding processing semantically equivalent information and reducing the number of empty values presented in tables hypercubes. The proposed structure of the data warehouse enables to analyze unexpected data not covered by the survey plan, thereby increasing saturation resulting from the processing of expert information terminals.


Keywords:

information system survey, database theory, multidimensional data model, data storage, set theory, algebra of tuples, graph theory, hypercube, measurement, attribute

Введение

В настоящее время при управлении социально-экономическими системами (СЭС) широко используются информационные системы анкетирования (ИСА) для получения прогнозной оценки реакций системы на возможные управляющие воздействия с использованием Web-технологий в режиме удалённого доступа. Сложность управления СЭС обусловлена:

- сильным влиянием случайных факторов на объект управления (ОУ);

- малой изученностью реакций ОУ на конкретные управляющие воздействия;

- наличием значительного синергетического эффекта;

- трудностями организации мониторинга поведения таких систем;

- присутствием антропогенного фактора, носящего по своей природе нестатистический характер.

Всё это не позволяет в должной мере изучать процессы, происходящие в СЭС, методами математической статистики, затрудняет оценку репрезентативности выборки и исследование поведения системы при изменении параметров прогнозируемого объекта, что в совокупности приводит к значительным погрешностям получаемых прогнозных оценок в задачах управления СЭС. Поэтому при управлении СЭС используют методы экспертного оценивания (ЭО), следовательно, от того какими способами были проведены сбор и обработка экспертной информации (ЭИ), будет зависеть достоверность полученной прогнозной оценки реакций СЭС на возможное управляющее воздействие.

На основании проведённого анализа существующих программных продуктов сбора и обработки данных («Analysis Services» и «Excel» компании Microsoft, «Data Mining» компании Oracle, «Deductor» компании BaseGroup и web-сервисов, таких как «ProstOpros» и «WebAnketa») были выявлены недостатки в обработке и анализе ЭИ, следствием которых является низкая информативность данных, так как:

- зачастую обрабатывается семантически эквивалентная информация;

- присутствует большое количество пустых значений показателей в таблицах гиперкубов;

- отсутствует возможность проведения анализа данных, не предусмотренного планом анкетирования;

- не учитывается степень уверенности эксперта в каждом из вариантов ответа;

- недостаточно полно и точно взвешиваются мнения экспертов, имеющие несколько различающихся по степени уверенности прогнозных оценок реакции СЭС на возможные управляющие воздействия [1, с. 21].

Концептуальная модель процесса анкетирования информационной системы

Общепринятый процессный подход к процедуре анкетирования, используемый во многих информационных системах (ИС), обнаруживает свои недостатки, проявляемые, с одной стороны, в виде ограниченности методов анализа данных, а с другой – отсутствии прогнозной оценки в задаче управления. Это можно объяснить следующими причинами:

- во-первых, одни проекты составляются только для проведения опроса и вывода статистики, что является неприемлемым для решения ёмких задач управления;

- во-вторых, другие – исключительно для работы в конкретной предметной области (включая базы данных (БД)), что позволяет проводить более углубленный анализ данных, не допуская дальнейшего использования подобных ИСА в широком спектре деловых услуг [2].

По этим причинам был разработан процессный подход к процедуре анкетирования (рисунок 1), отличающийся от существующих наличием процессов дополнительной обработки результатов ЭО при проведении их многомерного анализа с целью принятия управленческих решений. ЭИ, собранная системой анкетирования, преобразуется в агрегированные данные многомерного хранилища, при анализе которых проверяется уровень значимости атрибутов экспертов, влияющих на компетентность в предметной области, и учитывается степень уверенности эксперта в каждом из вариантов ответа, что позволяет повысить информативность выводов, получаемых в результате обработки данных экспертных опросов.

_1

Рисунок 1 – Процесс анкетирования (расширенный) в стандарте IDEF

Администратор БД посредством системы анализа данных импортирует информацию, собранную ИСА, преобразуя её в агрегированные данные, которые загружаются в хранилище данных (ХД). Преимуществом процесса 5 является автоматизированный способ определение и построение иерархий с использованием зависимости оперативной БД как исходной с иерархиями атрибутов в измерениях гиперкуба, что приводит к сокращению времени, необходимого для формирования схемы многомерной модели данных (ММД) [3].

В соответствии с предложенным процессным подходом к процедуре анкетирования появилась необходимость в разработке математической модели преобразования данных экспертных опросов из исходной БД в агрегированные данные хранилища, позволяющей обработать данные в иерархиях, изначально не предусмотренных при сборе ЭИ [4]; что, в свою очередь, повысит достоверность прогнозной оценки реакций системы и, как следствие, улучшит управление СЭС в целом.

Математическая модель преобразования экспертной информации из исходной реляционной базы в хранилище данных

`[[a,b],[c,d]]` В работе для реляционных БД, которые используются как исходные данные для гиперкубов, определены функциональные и многозначные зависимости. Данные зависимости используются при создании иерархий многомерной модели (ММ). Поскольку «схема иерархий» – это ориентированный ациклический и слабо связанный граф

H = (A, E) , где

A – множество атрибутов, состоящее из подмножеств C,D ; E – множество дуг,

- то для функциональной зависимости CD – где атрибуты из множества D располагаются в иерархии выше, чем атрибуты из множества C ,

так как различные значения C определяют одинаковое значение D , и для атрибутов справедливо: Ck C, Dl D k, l Ck Dl – добавляется дуга Ck'Dl' ;

- а для многозначной зависимости C - D(E) – где атрибуты из C располагаются в иерархии выше, чем атрибуты из D ∪ E , так как при существовании двух кортежей, совпадающих по C , существует ещё два кортежа с тем же значением C , и для атрибутов справедливо Ck C,Il D E k, l Il Ck , где I подобно C – добавляется дуга Dl'Ck' .

Таким образом, в граф H добавляются вершины для атрибутов из множества L , отсутствующих в схеме иерархий в качестве вершин (рисунок 2) [5].

_2

Рисунок 2 – Алгоритм построения H

Однако существуют некоторые последовательности уровней, которые могут многократно использоваться в иерархиях измерений гиперкубов. Связь между такими атрибутами установить не всегда получается посредством зависимостей, которые задаются для исходной БД [6, с. 219]. Отсюда следует, что для этих атрибутов задание отношения на множестве атрибутов предоставляется пользователю. Иерархии, которые были заданы пользователем, будут использоваться при формировании схемы иерархии. Кроме того, иерархии в измерениях необходимы как для реализации операций анализа данных, так и для структурирования заголовков пользовательского представления.

Преобразование информации, собранной ИСА, в данные для их дальнейшего многомерного анализа осуществляется в 2 этапа. На 1 этапе происходит сбор информации в БД системы анкетирования и её первичное преобразование. На 2 этапе уже помещённая в ХД информация агрегируется и преобразуется в конечную структуру, позволяющую осуществить многомерный анализ этих данных. Например, информацию о группах в исходной БД представляется в виде множества: R1={a1,a2,a3,a4,a5,,am} , где a1 – название, a2 – идентификационный номер, a3 – пароль, a4 – разрешения, a5 – описание и т.д. В свою очередь название группы записывается в виде подмножества a1={k1,k2,k3,k4,,kq} , в котором после разложения составного названия на простые смысловые части выбирается k1 – идентификатор даты, k2 – идентификатор группы и т.д. При k3 K=k* , где K – множество всех идентификаторов соответствующего измерения, получается искомое множество k*{k1*,k2*, ,kl*} для многомерного ХД, в котором k1* – идентификационный номер измерения низшего уровня, k2* – его описание и т.д. Таким образом, исходный атрибут из R1 обрабатывается как подмножество, в котором каждый атрибут (k1 ) пересекается с множеством всех однотипных атрибутов (S). В результате получается искомое множество s*{s1*,,so*} для многомерного ХД из Yi (i=1,2,…,n) – множество атрибутов из исходного реляционного отношения R (рисунок 3) [7].

_3

Рисунок 3 – Пример получения s*

Из данных результатов анкетирования, списка тестов, вопросов и ответов формируется массив, в котором каждая строка является одним фактом, т.е. одним ответом на один вопрос. Сформировав конечный массив данных фактов, производится их циклическая построчная запись в ХД, в таблицу фактов. После этого начинается 2 этап преобразования – агрегирование данных, которое осуществляется следующим образом: сначала происходит обработка данных и получение общей статистики результатов анкетирования, затем – детальная статистика, в том числе и по вопросам, подразумевающим ручной ввод ответов [8, с. 112]. Импортирование осуществляется выполнением скриптов, написанных на языке php, на сервере, где размещаются БД систем. Для функционирования скриптов необходимо наличие Web-сервера Apache с установленным дополнением, позволяющим обрабатывать php файлы.

Одним из условий эффективной организации данных является снижение занимаемого объёма памяти на дисковом пространстве ЭВМ. Сначала следует скорректировать некоторые известные понятия применительно к данной области исследования. Гиперкуб является набором связанных реляционных таблиц, есть самостоятельный объект. Срез гиперкуба G называется вырожденным по показателю, если значение этого показателя во всех элементарных ячейках среза равно 0 . Вес гиперкуба – его размерность, помноженная на количество конкретных для него показателей:

VG=k1×k2×…×kn×m , где

m – количество определённых для гиперкуба показателей g , ki – количество значений по измерению fi (i = 1,2,…,n). При снижении количества пустых (нулевых) значений показателей, т.е. при увеличении плотности гиперкуба, модель организации данных становится улучшенной. Пусть один из показателей в срезе гиперкуба равен 0 . Тогда имеет место следующее разложение исходного гиперкуба, которое записывается в виде суммы нескольких гиперкубов меньших размерностей:

.jpg

В результате получается, что суммарный вес разложения меньше веса исходного гиперкуба. Для достижения максимального улучшения модели данная процедура проводится итерационно по другим измерениям гиперкубов до исчезновения срезов, вырожденных по показателю [9].

Таким образом адаптируется процедура описания структуры информации для хранилищ и других БД, которые основаны на методе многомерного хранения, а представленная процедура оптимизации допускает экономию дискового пространства. Однако процесс разбиения одного из гиперкубов на множество меньших может усложнить алгоритмы доступа к данным и, что разумеется, увеличить время впуска к ним. Вследствие чего, необходимо проводить дополнительные исследования для поиска критерия эффективности процесса оптимизации данных.

В соответствии с требованиями ММ описания аналитического пространства в терминах «мера» и «измерение» были выделены следующие группы измерений:

- структура трёхуровневого измерения представляется как r(R)={<x,y,z>|P(x,y,z)} , где r – отношение со схемой R ; <x,y,z> – упорядоченная последовательность кортежей; P(x,y,z) – тернарный предикат первого порядка, который определяется на примере высказываний относительно данного измерения x=x1,x2,…,xm ; y=y1,y2,…,yn ; z=z1,z2,…,zq – кортежи переменных, которые показывают имена атрибутов уровней этого измерения;

- отношение на множестве атрибутов двухуровневого измерения описывается как r(R4)={<b,c>|P4(b,c)} , где b – кортеж атрибутов одного уровня измерения; c – кортеж атрибутов другого уровня измерения; P4(b,c) – бинарный предикат, который определяется на примере высказываний относительно имён атрибутов данного измерения;

- отношение для одноуровневого измерения задаётся посредством предиката P7(h) , который определяется как r(R7)={h|P7(h)} , где h – кортеж атрибутов рассматриваемого измерения.

Формализованное описание структур данных сводится к ансамблям системных графов или к формальным структурам специального вида. Вместе с этим построение ММД позволит выявить логику образования таких структур из независимо формализованных компонентов. Многомерное представление данных осуществляется на основе прямой композиции частей структуры данных и допускает выполнение операций детализации, проекции, среза и консолидации при обработке данных.

При построении моделей запросов формируются схемы отношений, описывающие одну таблицу ХД. Посредством объединения атрибутов однотипных схем отношений, задаётся произвольная совокупность многоместных отношений, выраженных в специфической структуре, называемой C-системой (S[XYZ] ), которая описывает структуру ХД. Например, S[FKPRT]=`[[{R},{PT}],[{P},{K}],[{K},{F}]]`, где F,K,P,R,T – измерения. В результате транзитивного замыкания получается: S'[FKPRT]=`[[{R},{PKFT}],[{P},{KF}],[{K},{F}]]`` ` (рисунок 4).

_4

Рисунок 4 – Пример построения транзитивного замыкания для графа

Для формируемых C-систем выполняются аксиомы матроидов, что позволяет представить схему ХД в виде классификации подмножеств исходного множества, представляющей собой обобщение идеи независимости элементов. Такое представление структуры ХД позволяет решить задачу уменьшения диаметра графа с использованием «жадного» алгоритма. Максимальная длина дуги графа – вычисленная из выражения r(vi)=maxjd(vi,vj) , где d – элементы графа D(G) с расстояниями vi,vj (i,j=1,2,,n , где n – количество вершин графа) – не превышает его диаметра (рисунок 5) [10, с. 66, 11].

_5

Рисунок 5 – Матрица расстояний между вершинами системного графа БД

Такое представление многомерной модели данных, во-первых, обеспечивает надёжное и компактное их хранение в сложных информационных структурах и возможность выделения значимой информации в процессе обработки данных, что в совокупности повышает эффективность обработки ЭИ и, как результат, достоверность прогнозной оценки реакций СЭС, во-вторых, способствует проектированию на её основе адаптивной, интегрируемой и динамичной ИСА [12].

Выводы

Во-первых, разработана новая структура ХД, основанная на алгебре кортежей, повышающая надёжность и информативность выводов, получаемых в результате обработки данных экспертных опросов, исключая обработку семантически эквивалентной информации и снижая количество пустых значений показателей в таблицах гиперкубов, что в совокупности позволяет сэкономить занимаемый объём дискового пространства ЭВМ, в среднем, на 30 % .

Во-вторых, разработанная структура ХД даёт возможность осуществить анализ данных, не предусмотренный планом анкетирования, что способствует повышению насыщенности полученных в результате обработки ЭИ выводов.

В-третьих, предложенная многомерная логическая схема данных реализована в программном обеспечении в виде ИСА «Апофаси», которое успешно внедрено:

- в ФГБОУ ВПО «Пензенский государственный университет» в управлении системой менеджмента качества;

- в администрации Железнодорожного района г. Пензы при управлении деятельностью органов местного самоуправления;

- в ЗАО ПФК «Аттика» (г. Волгоград) при получении прогнозных оценок мнений группы экспертов о развитии параметров, характеризующих остаточный ресурс оборудования.

На систему было получено свидетельство о регистрации электронного ресурса № 17686 от 14.12.2011 г.

Библиография
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
Ссылка на эту статью

Просто выделите и скопируйте ссылку на эту статью в буфер обмена. Вы можете также попробовать найти похожие статьи


Другие сайты издательства:
Официальный сайт издательства NotaBene / Aurora Group s.r.o.