Mr&ueh数据库方面

MR && UEH Tools
Architectural Design && Data Process && Database

Outline

• Architectural Design
• Data Collection
• Data Process
• Database reverent

12/20/12 2

Architectural Design

12/20/12 3

Architectural Design
• BS 构架：采用 ASP.NET MVC 3.0 架构
• 页面前端
• ExtJS 前端开发框架 && AJAX 进行后台交互
• Controller 层
• 提供权限验证、分页、排序、异常处理、页面跳转（服务器对外接口）
• Manager 层
• 具体功能逻辑，提供一个或多个 Service 层
• Service 层
• 对数据库增删改查进行封装，同时提供基础数据关联和原始数据逻辑运算
• 原始数据采集层
• FTP 、 SCP 或 SMB 协议进行手动或自动获取
• 原始数据预处理模块
• 通过多线程加多进程组合的方式，对原始数据进行预处理
• 数据库录入模块
• 优化数据库，批量录入

12/20/12 4

Data Collection

12/20/12 5

Data Collection – support protocol
• 多种采集协议支持
• FTP ：各个采集节点需要配置 FTP Server

• SCP 方式：各个采集节点和服务器安装 OpenSSH ，利用 scp 命
令进行传输文件

• SMB 协议：跨平台文件共享协议，采用 SMB 方式在 Linux 和
Windows 之间共享文件。

12/20/12 6

Data Collection - procedure
• 程序通过 Python 脚本配置目标目录信息和传输协议，在指定时间（自动）
获取该目录文件变化情况，诸如新文件（新产生的文件）或原来文件变化（
原来文件新增内容），采用 MD5 值判断的方法，将此次获取的 MD5 值与服
务器历史 MD5 值进行对比，标记新的 MD5 和文件标识（全新文件、部分更
新文件、已获取文件），并触发文件传输与下载模块，获取新的文件，放入
服务器指定文件夹下。
• 对于全新的文件，可以进行直接处理；
• 对于部分更新的文件，与上次获取文件对比后提取新的内容，对新的内容
进行处理；
• 对于已经获取的文件，不处理。
• 当完成单一文件后，通知原始数据预处理模块，启动新的线程或进程进行预
处理。

12/20/12 7

Data Collection - characteristic
• 支持数据采集端多种协议，不必对采集端的操作系统和文
件系统类型进行限制；
• 避免手动获取与自动获取文件冲突问题。（自动获取是以
每个小时为单位进行获取，当用户有需求进行手动获取，
可能会造成部分数据重复）
• 采用 MD5 算法，尽最大可能保证数据完整性，同时减少
网络传输；
• 整个过程并发执行，尽最大可能提供处理速度；

12/20/12 8

Data Collection - Questions

• 1. 若各个采集节点能够支持文件名唯一化和手动获取后
重命名新的文件机制，可以省略 MD5 过程，能提供处理
速度

• 2. 若网络环境允许（高带宽、多网络接口）可以采用并
发传输机制，提供整体传输速度，来代替普通环境下轮询
、串行传输方式。

12/20/12 9

Data Process
• 任务：进行字符串解析、校验、压缩数据、二进制处理等操作
• 编程语言： Python 2.7
• 处理流程 : 多进程 + 多线程的方式
• 性能优化：线程池的方式，有效减少线程创建开销和合理控制线程资源占用

• 实现细节：
• 原始数据字符串处理采用 Python 的 list 机制
• 二进制部分采用 python 的 struct 模块，批量处理，完全内存中操作

12/20/12 10

Data Process

12/20/12 11

Data Process
• 初始调度程序（主进程）
• 与数据采集模块相互配合，获取最新要处理的文件列表，根据目前任务的优先级，
产生相应数量的进程，同时确定线程池的容量，并对处理文件列表平均分配给各个
进程，避免了文件处理冲突问题。

• 预处理线程调度进程（子进程）
• 由初始调度程序（主进程）启动，并接受处理文件列表，初始化线程池，并向线程
池中预处理线程分配任务

• 预处理线程
• 进行实际的预处理过程，整个分配机制保证了线程处理的独立性和唯一性。当线程
预处理完成时候，触发 SQL 脚本执行，批量将数据导入数据库中。同时通知父进
程，产生新的线程，填充到线程池中。

12/20/12 12

Database reverent
• 数据录入方式：
• 采用批量录入的方式，能有效避免数据库事务开销，极大的提供录入效率
• 在 SQL Server 2008 和 PostgreSQL 9 上进行的实验。

12/20/12 13

Database reverent
SQL Server 2008 PostgreSQL 9
开源闭源完全开源
软件版权微软商业授权经典 BSD 协议
批量插入（ 200 万条 5 分钟左右至少 10 分钟
数据）
开发效率完整开发流程，与 BS 开源工具，需要做大
构架完美结合量调整工作
稳定性技术支持，稳定不对软件可靠性进行
保证
OS Windows 系列 Windows 、 Linux

12/20/12 14

Database reverent
• SQL Server 2008 优化

• 在数据库文件结构上做了改变，在原有的两个数据库文件 mdf 和 ldf 上
，添加了一个 ndf 次数据文件用来存储索引，增加了插入和查询速度。

• 对数据库的表进行了分表存储，采用横切的方法，将原有的一张大表，以
天为单位划分成若干小表，实现数据的分表存储，这样不仅提高了删除数
据和查询数据的速度，还可以采用分布式原理，在各个终端中存储不同日
期的数据表，降低数据库的负载，进而提高效率并实现了系统对分布式数
据库的拓展。

12/20/12 15

Mr&ueh数据库方面

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Mr&ueh数据库方面

Semelhante a Mr&ueh数据库方面 (20)

Mais de Tianwei Liu

Mais de Tianwei Liu (11)

Mr&ueh数据库方面

Notas do Editor