В Правительстве Москвы более 200 органов исполнительной власти и более 3000 подведомственных учреждений, каждое из которых ежедневно оперирует большим массивом различных данных, раскрывает часть из них для внешних пользователей, а также использует данные для межведомственного взаимодействия. Как эффективно управлять таким массивом данных?
В ходе доклада расскажем об опыте управления и использования большого массива государственных данных в Правительстве Москвы.
Основные тезисы:
1. Изначально государственные данные разрознены и ведутся по различным стандартам;
2. Данные должны быть едины как для межведомственного взаимодействия, так и для широкого круга пользователей (в формате открытых данных, в общегородских порталах — Наш город, Портал государственных услуг и др.);
3. В единое хранилище данные попадают через типовые веб-сервисы из систем поставщиков, через интерфейс хранилища путём ручного ввода данных по строго заданным параметрам (маскам);
4. Структурируя данные, мы делаем жизнь города проще и понятней для её жителей.
Дополнительно ответим на вопросы:
+ Как мы забираем данные из внешних источников, как конвертируем во внутренние форматы?
+ Как поддерживаем целостность данных?
+ Как устанавливаем и поддерживаем семантические связи между данными, ссылки из одних массивов одного источника на другие?
6. Алгоритм работы с входными данными
Аудит всех информационных систем
Правительства Москвы
Подготовка единых требований к ведению данных
Интеграция с информационными системами
7. Аудит систем
Функционирует более 400 информационных систем:
Базы данных:
• Oracle;
• IBM DB2;
• MS SQL
и др.
Языки
программирования:
• С#;
• JAVA;
• PHP;
и др.
Было выбрано 42 системы поставщиков данных
11. Технические характеристики
• Хранилище –
• WEB приложение – + JavaScript
• Сервисы загрузки информации (SOAP) – +
• Сервисы раскрытия информации (REST) – +
• Внутренние сервисы системы (экспорты, импорты,
операции с файлами и т.д.) -
Единое хранилище данных
12. Общее описание системы
• Система полностью строится на описании метаданных,
которые вносит оператор системы, при этом структура
хранения данных может быть абсолютно любой
Единое хранилище данных
• Интерфейс для настройки сложных Workflow для
проверки данных
• Интерфейс для настройки автозаполнения и
автоизменения полей на основе данных системы
• Интерфейс для настройки фоновых процессов
изменений и проверки данных
• Интерфейс для анализа данных поступающих из
разных источников, с отображением расхождений и
интерфейсом data steward
13. Сценарий работы с данными
• Публикация набора данных в сервис
Единое хранилище данных
• Создание структуры данных для работы органов
власти
• Наполнение набора данных объектами
• Подписание наполнения с использованием ЭЦП
(КриптоПРО)
• Копирование структуры в сегмент публикации или
создание собственной структуры для публикации
данных
14. Способы наполнения данными
• Через WEB интерфейс системы
• Через импорт csv файлов. Позволяет загружать
многоуровневые наборы данных. Каждый импорт
настраивается отдельно на основе метаданных
• Через SOAP сервис:
– Универсальные методы обмена информацией. Структура запросов
не меняется в зависимости от набора данных.
– Возможность подписания данных ЭЦП в момент передачи пакета
обновления.
– Детализированные ошибки при обработке данных.
Единое хранилище данных
15. Описание сервиса публикации
• Данные после публикации попадают в очередь
обновление кэш БД в MongoDB
• После синхронизации становятся доступны в REST
сервисе
• Сервис позволяет:
– Получать текущее наполнение каталога раскрытия
– Возможность осуществлять фильтрацию по атрибутам каталога
– Возможность просматривать историю изменений как объекта, так
и каталога
– Возможность поиска объектов по геоданным (рядом с точкой,
внутри полигона, вне полигона)
• Среднее время отклика сервиса – 500 ms
Единое хранилище данных
16. Текущие объемы данных
• Объектов в системе – 22 375 806
• Объем БД – 1,2 Тб
• Количество набор данных:
– во внутреннем контуре - 676
– в контуре публикации - 480
• За октябрь добавлено новых записей – 1 581 296
Единое хранилище данных
17. Данные по органам власти
Единое хранилище данных
106594
383639
1139193
Топливно-энергетического хозяйства
Городского имущества
По конкурентной политике
Департаменты-лидеры...
16
21
21
Инспекция по качеству сельхозпродукции
Главное архивное управление
Комитет ветеринарии
... и аутсайдеры
18. Данные по органам власти
Лидеры:
– Департамент города Москвы по конкурентной политике – 1 139 193
– Департамент городского имущества города Москвы – 383 639
– Департамент топливно-энергетического хозяйства города Москвы –
106 594
Аутсайдеры
– Государственная инспекция города Москвы по качеству
сельскохозяйственной продукции, сырья и продовольствия – 16
– Главное архивное управление города Москвы– 21
– Комитет ветеринарии города Москвы – 21
Единое хранилище данных
19. Внешнее взаимодействие с другими
системами
Экспорт данных в форматах:
• json;
• csv;
• xlsx;
• docx.
По средствам API портала открытых данных:
• json;
• geojson.
Ссылка на API- api.data.mos.ru
20. Основные итоги
Устранили хаос, но проблемы с данными остались:
– потребность ведения on-line данных – не готовность
системы к таким нагрузкам;
– быстрое увеличение количества информации –
существующая инфраструктура требует расширения
технических возможностей;
– Функционал единого хранилища данных большой и пока
не все функции доступны для внешних пользователей (API
открытых данных);
– Требуется всё больше связности между данными и
потребностей в выдаче данных внешним потребителям.
21. Ключевой результат
Системный проект Правительства Москвы:
– при подготовке инфраструктуры для
открытых данных наладилось
межведомственное взаимодействие;
– опыт сбора и хранения такого количества
данных применим для разнообразных
целей, не только для публикации открытых
данных.