SlideShare uma empresa Scribd logo
1 de 25
Baixar para ler offline
Phần mềm mã mở
và dự tính khí hậu 100 năm
Nguyen	
  Trung	
  Kien	
  
Hanoi	
  University	
  of	
  Science	
  
DTT	
  Technology	
  Group	
  
Hà	
  Nội,	
  ngày	
  21	
  tháng	
  09	
  năm	
  2013	
  
So.ware	
  Freedom	
  Day	
  2013,	
  HUST,	
  Hanoi	
  	
  
Nội	
  dung	
  
Nhu	
  cầu	
  @nh	
  toán	
  &	
  lưu	
  trữ	
  1	
  
PMMM	
  cho	
  HPC	
  và	
  lưu	
  trữ	
  2	
  
Hỏi	
  đáp	
  3	
  
Nhu	
  cầu	
  @nh	
  toán	
  và	
  lưu	
  trữ	
  
•  Đề	
  tài	
  cấp	
  nhà	
  nước:	
  	
  
– Nghiên	
  cứu	
  xây	
  dựng	
  hệ	
  thống	
  mô	
  hình	
  dự	
  báo	
  
hạn	
  mùa	
  một	
  số	
  hiện	
  tượng	
  khí	
  hậu	
  cực	
  đoan	
  
phục	
  vụ	
  phòng	
  tránh	
  thiên	
  tai	
  ở	
  VN	
  	
  
– Nghiên	
  cứu	
  xây	
  dựng	
  hệ	
  thống	
  đồng	
  hoá	
  tổ	
  hợp	
  
cho	
  mô	
  hình	
  thời	
  lết	
  và	
  hệ	
  thống	
  tổ	
  hợp	
  cho	
  một	
  
số	
  mô	
  hình	
  khí	
  hậu	
  khu	
  vực	
  nhằm	
  dự	
  báo	
  và	
  dự	
  
@nh	
  các	
  hiện	
  tượng	
  thời	
  lết,	
  khí	
  hậu	
  cực	
  đoan	
  	
  
Nhu	
  cầu	
  @nh	
  toán	
  và	
  lưu	
  trữ	
  
•  Dự	
  án	
  Danida	
  –	
  Đan	
  Mạch:	
  
– Nghiên	
  cứu	
  thuỷ	
  tai	
  do	
  biến	
  đổi	
  khí	
  hậu	
  và	
  xây	
  
dựng	
  hệ	
  thống	
  thông	
  ln	
  nhiều	
  bên	
  tham	
  gia	
  nhằm	
  
giảm	
  thiểu	
  @nh	
  dễ	
  bị	
  tổn	
  thương	
  ở	
  Bắc	
  Trung	
  Bộ	
  
Việt	
  Nam	
  
•  Dự	
  án	
  CSIRO	
  –	
  Úc:	
  
– Hạ	
  quy	
  mô	
  phân	
  giải	
  cao	
  cho	
  Việt	
  Nam	
  	
  
Nhu	
  cầu	
  @nh	
  toán	
  và	
  lưu	
  trữ	
  
•  Dự	
  báo	
  thời	
  lết:	
  MM5,	
  WRF,	
  HRM	
  
–  Dự	
  báo	
  3	
  ngày	
  –	
  chạy	
  4	
  lần/ngày	
  	
  
–  2	
  giờ/1	
  lần	
  chạy	
  (node	
  @nh:	
  2xQuad	
  2.5GHz,	
  8GB	
  Ram)	
  	
  
•  Dò	
  ˆm	
  xoáy	
  bão:	
  RegCM	
  
–  Dò	
  ˆm	
  12	
  tháng	
  –	
  chạy	
  1	
  lần/tháng	
  	
  
–  140	
  giờ/1	
  lần	
  chạy	
  
–  Lưu	
  trữ	
  70	
  GB	
  dữ	
  liệu	
  	
  
•  Dự	
  báo	
  mùa:	
  MM5,	
  WRF,	
  RegCM	
  
–  Dự	
  báo	
  7	
  tháng	
  –	
  chạy	
  1	
  lần/tuần	
  	
  
–  35-­‐50	
  giờ/1	
  lần	
  chạy	
  	
  
–  Lưu	
  trữ	
  6-­‐16	
  GB	
  dữ	
  liệu	
  
Nhu	
  cầu	
  @nh	
  toán	
  và	
  lưu	
  trữ	
  
•  Mô	
  phỏng	
  khí	
  hậu	
  1979	
  –	
  2010:	
  
– Nhiều	
  loại	
  đầu	
  vào:	
  ERA40,	
  NCEP,	
  INTERIM	
  
– Models:	
  RegCM,	
  MM5CL,	
  clWRF,	
  REMO	
  
– Mất	
  2-­‐5	
  giờ/1	
  tháng	
  mô	
  phỏng,	
  ~	
  5GB	
  dữ	
  liệu	
  
•  Dự	
  @nh	
  khí	
  hậu	
  2011-­‐2100:	
  	
  
– Kịch	
  bản	
  phát	
  thải	
  A1B,	
  A2	
  
– Models:	
  MM5CL,	
  CCAM,	
  RegCM,	
  clWRF,	
  REMO	
  
– Mất	
  2-­‐5	
  giờ/1	
  tháng	
  mô	
  phỏng,	
  ~	
  5GB	
  dữ	
  liệu	
  
Nhu	
  cầu	
  @nh	
  toán	
  và	
  lưu	
  trữ	
  
•  Số	
  lượng	
  tương	
  đối	
  lớn	
  người	
  dùng:	
  	
  
– 10	
  cán	
  bộ	
  	
  
– 2-­‐3	
  NCS	
  
– 5-­‐6	
  Học	
  viên	
  CH	
  	
  
– >	
  15	
  sinh	
  viên	
  ĐH	
  	
  
– Người	
  dùng	
  từ	
  các	
  tổ	
  chức	
  khác	
  	
  	
  
•  Cần	
  lưu	
  trữ	
  dữ	
  liệu	
  từ	
  các	
  dự	
  án/đề	
  tài	
  trước	
  	
  
•  Nhu	
  cầu	
  lưu	
  trữ:	
  >	
  100	
  TB	
  
•  Ngân	
  sách	
  hạn	
  chế	
  
Phần	
  cứng	
  thông	
  dụng	
  và	
  PMMM	
  cho	
  HPC	
  
•  Phần	
  cứng	
  thông	
  dụng:	
  	
  
–  Đã	
  được	
  chuẩn	
  hoá	
  
–  Sản	
  xuất	
  với	
  số	
  lượng	
  lớn	
  
•  Sử	
  dụng	
  server	
  Intel,	
  Supermicro	
  	
  
•  Mellanox	
  Infiniband	
  SDR	
  10	
  Gbps	
  
•  Rocks	
  toolkit	
  	
  
•  Centos	
  	
  
•  Torque	
  +	
  Maui	
  	
  
•  GNU,	
  Intel	
  compiler	
  (academic),	
  mvapich,	
  netcdf,	
  
opengrads,	
  module	
  environment,	
  …	
  	
  
PMMM	
  cho	
  hệ	
  thống	
  lưu	
  trữ	
  
•  Tốc	
  độ	
  đọc/ghi	
  cao	
  
•  Dung	
  lượng	
  lưu	
  trữ	
  >	
  100	
  TB	
  	
  
•  Tin	
  cậy,	
  ổn	
  định	
  	
  
•  Tận	
  dụng	
  được	
  các	
  ổ	
  cứng	
  có	
  sẵn	
  	
  
– Hàng	
  chục	
  ổ	
  cứng	
  300GB	
  –	
  2TB	
  dành	
  cho	
  máy	
  để	
  
bàn	
  (WD,	
  Seagate,	
  Samsung,	
  …)	
  	
  
LustreFS	
  và	
  HDFS	
  	
  
Hệ	
  thống	
  lưu	
  trữ	
  LustreFS	
  
•  Linux	
  +	
  Cluster	
  =	
  Lustre	
  
•  Khởi	
  đầu	
  tại	
  Cluster	
  File	
  System	
  –	
  2003	
  
•  Mua	
  lại	
  bởi	
  Sun	
  –	
  2007	
  
•  Oracle	
  lếp	
  quản	
  –	
  2010	
  	
  
•  Cuối	
  2010,	
  Oracle	
  dừng	
  phát	
  triển	
  Lustre	
  =>	
  
cộng	
  đồng:	
  Whamcloud,	
  Xyratex,	
  OpenSFS,	
  …	
  
•  	
  Intel	
  mua	
  lại	
  Whamcloud	
  –	
  2012	
  	
  
Hệ	
  thống	
  lưu	
  trữ	
  LustreFS	
  
•  Hệ	
  thống	
  file	
  phân	
  tán	
  	
  
•  Thường	
  được	
  sử	
  dụng	
  trong	
  các	
  hệ	
  thống	
  @nh	
  
toán	
  lớn	
  	
  
•  6/10	
  và	
  60/100	
  hệ	
  thống	
  mạnh	
  nhất	
  thế	
  giới	
  
(Titan	
  #2,	
  K	
  Computer	
  #4,	
  …)	
  	
  
•  Hỗ	
  trợ	
  hàng	
  chục	
  nghìn	
  node	
  @nh	
  
•  Dung	
  lượng	
  mở	
  rộng	
  tới	
  hàng	
  chục	
  PB	
  	
  
•  Thông	
  lượng	
  I/O	
  >	
  1	
  TB/s	
  	
  
Hệ	
  thống	
  lưu	
  trữ	
  LustreFS	
  
Hệ	
  thống	
  lưu	
  trữ	
  LustreFS	
  
Hot	
  spare	
  
Raid5	
  
	
  
Raid5	
  
	
  
Hệ	
  thống	
  lưu	
  trữ	
  LustreFS	
  
Hot	
  spare	
  
Raid5	
  
	
  
Raid5	
  
	
  
Hot	
  spare	
  
Raid5	
  
	
  
Raid5	
  
	
  
Hệ	
  thống	
  lưu	
  trữ	
  LustreFS	
  
Hot	
  spare	
  
Raid5	
  
	
  
Raid5	
  
	
  
Hot	
  spare	
  
Raid5	
  
	
  
Raid5	
  
	
  
Infiniband	
  (10Gbps)	
  
Hệ	
  thống	
  lưu	
  trữ	
  LustreFS	
  
Hot	
  spare	
  
Raid5	
  
	
  
Raid5	
  
	
  
Hot	
  spare	
  
Raid5	
  
	
  
Raid5	
  
	
  
Infiniband	
  (10Gbps)	
  
Use	
  only	
  Enterprise	
  SAS/SATA	
  HDD	
  
LustreFS	
  
Hệ	
  thống	
  lưu	
  trữ	
  HDFS	
  
•  HDFS	
  =	
  Hadoop	
  Distributed	
  File	
  System	
  	
  
•  Thiết	
  kế	
  để	
  chạy	
  trên	
  phần	
  cứng	
  thông	
  dụng	
  
(commodity	
  hardware)	
  	
  
•  Bắt	
  đầu	
  phát	
  triển	
  bởi	
  Doug	
  Cu¡ng	
  –	
  2002	
  	
  
•  Được	
  “truyền	
  cảm	
  hứng”	
  từ	
  GFS	
  của	
  Google	
  –	
  
2003	
  	
  
•  Trở	
  thành	
  dự	
  án	
  mã	
  mở	
  Apache	
  –	
  2006	
  
•  Sử	
  dụng	
  bởi:	
  Facebook,	
  Yahoo,	
  Ne¦lix,	
  …	
  	
  
•  Không	
  tương	
  thích	
  chuẩn	
  POSIX	
  
•  Thông	
  lượng	
  I/O	
  tổng	
  gộp	
  cao	
  nhưng	
  độ	
  trễ	
  lớn	
  
Hệ	
  thống	
  lưu	
  trữ	
  HDFS	
  
Hệ	
  thống	
  lưu	
  trữ	
  HDFS	
  
Name
node	
  
Data	
  
node3	
  
Client	
  
Hệ	
  số	
  nhân	
  =	
  2:	
  
Mỗi	
  file	
  được	
  cắt	
  thành	
  các	
  block	
  
64MB	
  và	
  được	
  lưu	
  trên	
  2	
  node	
  
khác	
  nhau	
  
Data	
  
node1	
  
Data	
  
node2	
  
Hệ	
  thống	
  lưu	
  trữ	
  HDFS	
  
Name
node	
  
Client	
  
Client	
  đọc	
  dữ	
  liệu	
  trực	
  lếp	
  từ	
  
các	
  Datanode	
  -­‐>	
  thông	
  lượng	
  
tổng	
  gộp	
  cao	
  
Data	
  
node3	
  
Data	
  
node1	
  
Data	
  
node2	
  
Hệ	
  thống	
  lưu	
  trữ	
  HDFS	
  
Name
node	
  
Chịu	
  lỗi:	
  	
  
Block	
  có	
  số	
  bản	
  nhân	
  <	
  2	
  
được	
  tự	
  động	
  copy	
  sang	
  1	
  
node	
  khác	
  
Data	
  
node2	
  
Data	
  
node3	
  
Data	
  
node1	
  
Metocean	
  Cluster	
  
•  14	
  node,	
  106	
  core,	
  141	
  GB	
  RAM,	
  Rpeak	
  ~	
  TFlops	
  	
  
•  Infiniband	
  SDR	
  10Gbps	
  &	
  1Gbps	
  interconnect	
  network	
  
•  76	
  TB	
  LustreFS	
  sử	
  dụng	
  Enterprise	
  HDD	
  (2TB/ổ)	
  
•  ~	
  70	
  TB	
  “Cloud	
  Storage”	
  HDFS	
  sử	
  dụng	
  ổ	
  cứng	
  cho	
  máy	
  để	
  bàn	
  
–  Lưu	
  trữ	
  những	
  file	
  dung	
  lượng	
  lớn	
  (bội	
  số	
  của	
  64MB)	
  	
  
–  Hệ	
  số	
  nhân	
  =	
  2	
  (dung	
  lượng	
  thực	
  dùng	
  ~	
  35	
  TB)	
  	
  
–  Mount	
  vào	
  hệ	
  thống	
  file	
  bằng	
  FUSE	
  	
  
•  Dữ	
  liệu	
  quan	
  trọng	
  nhất	
  của	
  hệ	
  thống	
  HDFS	
  và	
  LustreFS	
  -­‐	
  metadata	
  (vài	
  GB)	
  -­‐	
  được	
  upload	
  tự	
  động	
  lên	
  
Dropbox	
  
Infiniband	
  10Gbps	
  
1Gbps	
  Ethernet	
  
192.168.0.0/24	
  
192.168.1.0/24	
  
Dropbox	
  Cloud	
  Storage	
  
Kết	
  quả	
  benchmark	
  
Đánh giá khi LustreFS đã sử dụng tới 98% (Tốc độ đọc/
ghi giảm đáng kể)
mpirun -np 16 IOR -a MPIIO -r -w -b 1g -t 1m -o  !
/work/users/kiennt/IORFILE -v -i 3 !
	
  
1	
  mb	
   10	
  mb	
   100	
  mb	
   1	
  gb	
   2	
  gb	
   3	
  gb	
  
8	
  clients	
   460.05	
   648.65	
   301.74	
   343.47	
   340.3	
   337.21	
  
16	
  clients	
   45.72	
   661.26	
   438.17	
   477.21	
   477.76	
   363.43	
  
24	
  clients	
   42.15	
   548.84	
   444.19	
   479.93	
   499.2	
   387.3	
  
32	
  clients	
   111.86	
   373.07	
   544.19	
   514.12	
   488.83	
   410.73	
  
40	
  clients	
   142.81	
   333.58	
   551.62	
   556.51	
   524.36	
   453.79	
  
0	
  
100	
  
200	
  
300	
  
400	
  
500	
  
600	
  
700	
  
MB/s
Block	
  size	
  
Write speed
Max	
  speed	
  
1	
  mb	
   10	
  mb	
   100	
  mb	
   1	
  gb	
   2	
  gb	
   3	
  gb	
  
8	
  clients	
   72.68	
   5725.97	
   4116.08	
   614.1	
   493.62	
   500.98	
  
16	
  clients	
   155.99	
   953.16	
   3856.11	
   1613.18	
   1269.88	
   1029.32	
  
24	
  clients	
   223.75	
   514.94	
   2983.58	
   1573.84	
   1286.87	
   953.75	
  
32	
  clients	
   1315.45	
   1993.96	
   4310.74	
   1804.51	
   1175.01	
   979.01	
  
40	
  clients	
   1546.91	
   2181.85	
   5007.63	
   1957.33	
   1128.21	
   1065.43	
  
50	
  
250	
  
1250	
  
6250	
  
MB/s
Block	
  size	
  
Read speed
caching	
  
effect	
  
Kết	
  quả	
  thực	
  
•  LustreFS:	
  	
  
–  Chạy	
  RegCM,	
  MM5,	
  CCAM	
  trên	
  1	
  node	
  
–  Dữ	
  liệu	
  xuất	
  ra	
  được	
  ghi	
  lên	
  LustreFS	
  và	
  NFS	
  
–  Thời	
  gian	
  chạy	
  trên	
  LustreFS	
  giảm	
  từ	
  30%-­‐50%	
  so	
  với	
  NFS	
  	
  
•  Hadoop	
  Streaming:	
  
–  	
  Chỉ	
  dùng	
  Map	
  để	
  phân	
  @ch	
  dữ	
  liệu	
  trên	
  12	
  nodes	
  (2	
  
mapper/node)	
  	
  
–  Các	
  nodes	
  vẫn	
  đang	
  chạy	
  các	
  chương	
  trình	
  MPI	
  	
  
–  Thời	
  gian	
  chạy	
  giảm	
  tới	
  10	
  lần	
  	
  
•  An	
  toàn	
  dữ	
  liệu:	
  
–  Mất	
  3	
  block	
  HDFS	
  /	
  2.5	
  năm	
  
Hỏi	
  đáp	
  
	
  
	
  
Xin	
  chân	
  thành	
  cảm	
  ơn	
  

Mais conteúdo relacionado

Semelhante a SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm

Nhom 16 big data
Nhom 16 big dataNhom 16 big data
Nhom 16 big dataDuy Phan
 
Giải Pháp Lưu trữ quang UDO-Ultra Density Optical (thích hợp cho lưu trữ số t...
Giải Pháp Lưu trữ quang UDO-Ultra Density Optical (thích hợp cho lưu trữ số t...Giải Pháp Lưu trữ quang UDO-Ultra Density Optical (thích hợp cho lưu trữ số t...
Giải Pháp Lưu trữ quang UDO-Ultra Density Optical (thích hợp cho lưu trữ số t...UDO _ Uutra Density Optical - Lưu trữ quang UDO
 
Tìm hiểu về RAID và Erasure Coding .pptx
Tìm hiểu về RAID và Erasure Coding .pptxTìm hiểu về RAID và Erasure Coding .pptx
Tìm hiểu về RAID và Erasure Coding .pptxLngThKimOanh1
 
Server chuc nang.pptx
Server chuc nang.pptxServer chuc nang.pptx
Server chuc nang.pptxson2483
 
Server chuc nang.pptx
Server chuc nang.pptxServer chuc nang.pptx
Server chuc nang.pptxson2483
 
Quan ly bo nho ngoai trong linux
Quan ly bo nho ngoai trong linuxQuan ly bo nho ngoai trong linux
Quan ly bo nho ngoai trong linuxThu Lam
 
Ice dw-v contest2010
Ice dw-v contest2010Ice dw-v contest2010
Ice dw-v contest2010Nguyen Thanh
 
cấu hình cloudstack
cấu hình cloudstackcấu hình cloudstack
cấu hình cloudstackvietbm9
 
Virtual cluster thesis
Virtual   cluster thesisVirtual   cluster thesis
Virtual cluster thesisSentifi
 
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớn
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớnHadoop - Hệ thống tính toán và xử lý dữ liệu lớn
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớnThành Thư Thái
 
Zing Me & PHP
Zing Me & PHPZing Me & PHP
Zing Me & PHPLong Dao
 
Cau hoi de tai
Cau hoi de taiCau hoi de tai
Cau hoi de taindtpro776
 

Semelhante a SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm (20)

Nhom 16 big data
Nhom 16 big dataNhom 16 big data
Nhom 16 big data
 
Giải Pháp Lưu trữ quang UDO-Ultra Density Optical (thích hợp cho lưu trữ số t...
Giải Pháp Lưu trữ quang UDO-Ultra Density Optical (thích hợp cho lưu trữ số t...Giải Pháp Lưu trữ quang UDO-Ultra Density Optical (thích hợp cho lưu trữ số t...
Giải Pháp Lưu trữ quang UDO-Ultra Density Optical (thích hợp cho lưu trữ số t...
 
Dsd04 sta
Dsd04 staDsd04 sta
Dsd04 sta
 
Tìm hiểu về RAID và Erasure Coding .pptx
Tìm hiểu về RAID và Erasure Coding .pptxTìm hiểu về RAID và Erasure Coding .pptx
Tìm hiểu về RAID và Erasure Coding .pptx
 
Server chuc nang.pptx
Server chuc nang.pptxServer chuc nang.pptx
Server chuc nang.pptx
 
Server chuc nang.pptx
Server chuc nang.pptxServer chuc nang.pptx
Server chuc nang.pptx
 
Quan ly bo nho ngoai trong linux
Quan ly bo nho ngoai trong linuxQuan ly bo nho ngoai trong linux
Quan ly bo nho ngoai trong linux
 
Ice dw-v contest2010
Ice dw-v contest2010Ice dw-v contest2010
Ice dw-v contest2010
 
cấu hình cloudstack
cấu hình cloudstackcấu hình cloudstack
cấu hình cloudstack
 
NoSql Database
NoSql DatabaseNoSql Database
NoSql Database
 
Zing
ZingZing
Zing
 
Virtual cluster thesis
Virtual   cluster thesisVirtual   cluster thesis
Virtual cluster thesis
 
--De cuong on tap hdh
 --De cuong on tap hdh --De cuong on tap hdh
--De cuong on tap hdh
 
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớn
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớnHadoop - Hệ thống tính toán và xử lý dữ liệu lớn
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớn
 
Zing Me & PHP
Zing Me & PHPZing Me & PHP
Zing Me & PHP
 
Quản lý ổ đĩa
Quản lý ổ đĩaQuản lý ổ đĩa
Quản lý ổ đĩa
 
Solaris 11.4 zfs_iscsi_zz
Solaris 11.4 zfs_iscsi_zzSolaris 11.4 zfs_iscsi_zz
Solaris 11.4 zfs_iscsi_zz
 
Cau hoi de tai
Cau hoi de taiCau hoi de tai
Cau hoi de tai
 
5-nos.ppt
5-nos.ppt5-nos.ppt
5-nos.ppt
 
Bao cao thuc tap vps
Bao cao thuc tap vpsBao cao thuc tap vps
Bao cao thuc tap vps
 

Mais de Vu Hung Nguyen

Co ban horenso - Tai lieu training noi bo
Co ban horenso - Tai lieu training noi boCo ban horenso - Tai lieu training noi bo
Co ban horenso - Tai lieu training noi boVu Hung Nguyen
 
Funix techtalk: Tự học hiệu quả thời 4.0
Funix techtalk: Tự học hiệu quả thời 4.0Funix techtalk: Tự học hiệu quả thời 4.0
Funix techtalk: Tự học hiệu quả thời 4.0Vu Hung Nguyen
 
Học cờ cùng con - Nguyễn Vỹ Kỳ Anh [U8]
Học cờ cùng con - Nguyễn Vỹ Kỳ Anh [U8]Học cờ cùng con - Nguyễn Vỹ Kỳ Anh [U8]
Học cờ cùng con - Nguyễn Vỹ Kỳ Anh [U8]Vu Hung Nguyen
 
Japanese for it bridge engineers
Japanese for it bridge engineersJapanese for it bridge engineers
Japanese for it bridge engineersVu Hung Nguyen
 
Basic IT Project Management Terminologies
Basic IT Project Management TerminologiesBasic IT Project Management Terminologies
Basic IT Project Management TerminologiesVu Hung Nguyen
 
2018 Học cờ cùng con - Nguyễn Vũ Kỳ Anh [U7]
2018 Học cờ cùng con - Nguyễn Vũ Kỳ Anh [U7]2018 Học cờ cùng con - Nguyễn Vũ Kỳ Anh [U7]
2018 Học cờ cùng con - Nguyễn Vũ Kỳ Anh [U7]Vu Hung Nguyen
 
Làm việc hiệu quả với sếp Nhật (2017)
Làm việc hiệu quả với sếp Nhật (2017)Làm việc hiệu quả với sếp Nhật (2017)
Làm việc hiệu quả với sếp Nhật (2017)Vu Hung Nguyen
 
Problem Solving Skills (for IT Engineers)
Problem Solving Skills (for IT Engineers)Problem Solving Skills (for IT Engineers)
Problem Solving Skills (for IT Engineers)Vu Hung Nguyen
 
Using Shader in cocos2d-x
Using Shader in cocos2d-xUsing Shader in cocos2d-x
Using Shader in cocos2d-xVu Hung Nguyen
 
Pham Anh Tu - TK Framework
Pham Anh Tu - TK FrameworkPham Anh Tu - TK Framework
Pham Anh Tu - TK FrameworkVu Hung Nguyen
 
Basic advanced scrum framework
Basic advanced scrum frameworkBasic advanced scrum framework
Basic advanced scrum frameworkVu Hung Nguyen
 
FPT Univ. Talkshow IT khong chi la lap trinh
FPT Univ. Talkshow IT khong chi la lap trinhFPT Univ. Talkshow IT khong chi la lap trinh
FPT Univ. Talkshow IT khong chi la lap trinhVu Hung Nguyen
 
Basic & Advanced Scrum Framework
Basic & Advanced Scrum FrameworkBasic & Advanced Scrum Framework
Basic & Advanced Scrum FrameworkVu Hung Nguyen
 
Agile Vietnam Conference 2016: Recap
Agile Vietnam Conference 2016: RecapAgile Vietnam Conference 2016: Recap
Agile Vietnam Conference 2016: RecapVu Hung Nguyen
 
IT Public Speaking Guidelines
IT Public Speaking GuidelinesIT Public Speaking Guidelines
IT Public Speaking GuidelinesVu Hung Nguyen
 
Kanban: Cơ bản và Nâng cao
Kanban: Cơ bản và Nâng caoKanban: Cơ bản và Nâng cao
Kanban: Cơ bản và Nâng caoVu Hung Nguyen
 
Học cờ vua cùng con Nguyễn Vũ Kỳ Anh (U6)
Học cờ vua cùng con Nguyễn Vũ Kỳ Anh (U6)Học cờ vua cùng con Nguyễn Vũ Kỳ Anh (U6)
Học cờ vua cùng con Nguyễn Vũ Kỳ Anh (U6)Vu Hung Nguyen
 
Fuji Technology Workshop: Learning Skills
Fuji Technology Workshop: Learning SkillsFuji Technology Workshop: Learning Skills
Fuji Technology Workshop: Learning SkillsVu Hung Nguyen
 
Anti patterns in it project management
Anti patterns in it project managementAnti patterns in it project management
Anti patterns in it project managementVu Hung Nguyen
 
Mindmap and Plan Planning
Mindmap and Plan PlanningMindmap and Plan Planning
Mindmap and Plan PlanningVu Hung Nguyen
 

Mais de Vu Hung Nguyen (20)

Co ban horenso - Tai lieu training noi bo
Co ban horenso - Tai lieu training noi boCo ban horenso - Tai lieu training noi bo
Co ban horenso - Tai lieu training noi bo
 
Funix techtalk: Tự học hiệu quả thời 4.0
Funix techtalk: Tự học hiệu quả thời 4.0Funix techtalk: Tự học hiệu quả thời 4.0
Funix techtalk: Tự học hiệu quả thời 4.0
 
Học cờ cùng con - Nguyễn Vỹ Kỳ Anh [U8]
Học cờ cùng con - Nguyễn Vỹ Kỳ Anh [U8]Học cờ cùng con - Nguyễn Vỹ Kỳ Anh [U8]
Học cờ cùng con - Nguyễn Vỹ Kỳ Anh [U8]
 
Japanese for it bridge engineers
Japanese for it bridge engineersJapanese for it bridge engineers
Japanese for it bridge engineers
 
Basic IT Project Management Terminologies
Basic IT Project Management TerminologiesBasic IT Project Management Terminologies
Basic IT Project Management Terminologies
 
2018 Học cờ cùng con - Nguyễn Vũ Kỳ Anh [U7]
2018 Học cờ cùng con - Nguyễn Vũ Kỳ Anh [U7]2018 Học cờ cùng con - Nguyễn Vũ Kỳ Anh [U7]
2018 Học cờ cùng con - Nguyễn Vũ Kỳ Anh [U7]
 
Làm việc hiệu quả với sếp Nhật (2017)
Làm việc hiệu quả với sếp Nhật (2017)Làm việc hiệu quả với sếp Nhật (2017)
Làm việc hiệu quả với sếp Nhật (2017)
 
Problem Solving Skills (for IT Engineers)
Problem Solving Skills (for IT Engineers)Problem Solving Skills (for IT Engineers)
Problem Solving Skills (for IT Engineers)
 
Using Shader in cocos2d-x
Using Shader in cocos2d-xUsing Shader in cocos2d-x
Using Shader in cocos2d-x
 
Pham Anh Tu - TK Framework
Pham Anh Tu - TK FrameworkPham Anh Tu - TK Framework
Pham Anh Tu - TK Framework
 
Basic advanced scrum framework
Basic advanced scrum frameworkBasic advanced scrum framework
Basic advanced scrum framework
 
FPT Univ. Talkshow IT khong chi la lap trinh
FPT Univ. Talkshow IT khong chi la lap trinhFPT Univ. Talkshow IT khong chi la lap trinh
FPT Univ. Talkshow IT khong chi la lap trinh
 
Basic & Advanced Scrum Framework
Basic & Advanced Scrum FrameworkBasic & Advanced Scrum Framework
Basic & Advanced Scrum Framework
 
Agile Vietnam Conference 2016: Recap
Agile Vietnam Conference 2016: RecapAgile Vietnam Conference 2016: Recap
Agile Vietnam Conference 2016: Recap
 
IT Public Speaking Guidelines
IT Public Speaking GuidelinesIT Public Speaking Guidelines
IT Public Speaking Guidelines
 
Kanban: Cơ bản và Nâng cao
Kanban: Cơ bản và Nâng caoKanban: Cơ bản và Nâng cao
Kanban: Cơ bản và Nâng cao
 
Học cờ vua cùng con Nguyễn Vũ Kỳ Anh (U6)
Học cờ vua cùng con Nguyễn Vũ Kỳ Anh (U6)Học cờ vua cùng con Nguyễn Vũ Kỳ Anh (U6)
Học cờ vua cùng con Nguyễn Vũ Kỳ Anh (U6)
 
Fuji Technology Workshop: Learning Skills
Fuji Technology Workshop: Learning SkillsFuji Technology Workshop: Learning Skills
Fuji Technology Workshop: Learning Skills
 
Anti patterns in it project management
Anti patterns in it project managementAnti patterns in it project management
Anti patterns in it project management
 
Mindmap and Plan Planning
Mindmap and Plan PlanningMindmap and Plan Planning
Mindmap and Plan Planning
 

SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm

  • 1. Phần mềm mã mở và dự tính khí hậu 100 năm Nguyen  Trung  Kien   Hanoi  University  of  Science   DTT  Technology  Group   Hà  Nội,  ngày  21  tháng  09  năm  2013   So.ware  Freedom  Day  2013,  HUST,  Hanoi    
  • 2. Nội  dung   Nhu  cầu  @nh  toán  &  lưu  trữ  1   PMMM  cho  HPC  và  lưu  trữ  2   Hỏi  đáp  3  
  • 3. Nhu  cầu  @nh  toán  và  lưu  trữ   •  Đề  tài  cấp  nhà  nước:     – Nghiên  cứu  xây  dựng  hệ  thống  mô  hình  dự  báo   hạn  mùa  một  số  hiện  tượng  khí  hậu  cực  đoan   phục  vụ  phòng  tránh  thiên  tai  ở  VN     – Nghiên  cứu  xây  dựng  hệ  thống  đồng  hoá  tổ  hợp   cho  mô  hình  thời  lết  và  hệ  thống  tổ  hợp  cho  một   số  mô  hình  khí  hậu  khu  vực  nhằm  dự  báo  và  dự   @nh  các  hiện  tượng  thời  lết,  khí  hậu  cực  đoan    
  • 4. Nhu  cầu  @nh  toán  và  lưu  trữ   •  Dự  án  Danida  –  Đan  Mạch:   – Nghiên  cứu  thuỷ  tai  do  biến  đổi  khí  hậu  và  xây   dựng  hệ  thống  thông  ln  nhiều  bên  tham  gia  nhằm   giảm  thiểu  @nh  dễ  bị  tổn  thương  ở  Bắc  Trung  Bộ   Việt  Nam   •  Dự  án  CSIRO  –  Úc:   – Hạ  quy  mô  phân  giải  cao  cho  Việt  Nam    
  • 5. Nhu  cầu  @nh  toán  và  lưu  trữ   •  Dự  báo  thời  lết:  MM5,  WRF,  HRM   –  Dự  báo  3  ngày  –  chạy  4  lần/ngày     –  2  giờ/1  lần  chạy  (node  @nh:  2xQuad  2.5GHz,  8GB  Ram)     •  Dò  ˆm  xoáy  bão:  RegCM   –  Dò  ˆm  12  tháng  –  chạy  1  lần/tháng     –  140  giờ/1  lần  chạy   –  Lưu  trữ  70  GB  dữ  liệu     •  Dự  báo  mùa:  MM5,  WRF,  RegCM   –  Dự  báo  7  tháng  –  chạy  1  lần/tuần     –  35-­‐50  giờ/1  lần  chạy     –  Lưu  trữ  6-­‐16  GB  dữ  liệu  
  • 6. Nhu  cầu  @nh  toán  và  lưu  trữ   •  Mô  phỏng  khí  hậu  1979  –  2010:   – Nhiều  loại  đầu  vào:  ERA40,  NCEP,  INTERIM   – Models:  RegCM,  MM5CL,  clWRF,  REMO   – Mất  2-­‐5  giờ/1  tháng  mô  phỏng,  ~  5GB  dữ  liệu   •  Dự  @nh  khí  hậu  2011-­‐2100:     – Kịch  bản  phát  thải  A1B,  A2   – Models:  MM5CL,  CCAM,  RegCM,  clWRF,  REMO   – Mất  2-­‐5  giờ/1  tháng  mô  phỏng,  ~  5GB  dữ  liệu  
  • 7. Nhu  cầu  @nh  toán  và  lưu  trữ   •  Số  lượng  tương  đối  lớn  người  dùng:     – 10  cán  bộ     – 2-­‐3  NCS   – 5-­‐6  Học  viên  CH     – >  15  sinh  viên  ĐH     – Người  dùng  từ  các  tổ  chức  khác       •  Cần  lưu  trữ  dữ  liệu  từ  các  dự  án/đề  tài  trước     •  Nhu  cầu  lưu  trữ:  >  100  TB   •  Ngân  sách  hạn  chế  
  • 8. Phần  cứng  thông  dụng  và  PMMM  cho  HPC   •  Phần  cứng  thông  dụng:     –  Đã  được  chuẩn  hoá   –  Sản  xuất  với  số  lượng  lớn   •  Sử  dụng  server  Intel,  Supermicro     •  Mellanox  Infiniband  SDR  10  Gbps   •  Rocks  toolkit     •  Centos     •  Torque  +  Maui     •  GNU,  Intel  compiler  (academic),  mvapich,  netcdf,   opengrads,  module  environment,  …    
  • 9. PMMM  cho  hệ  thống  lưu  trữ   •  Tốc  độ  đọc/ghi  cao   •  Dung  lượng  lưu  trữ  >  100  TB     •  Tin  cậy,  ổn  định     •  Tận  dụng  được  các  ổ  cứng  có  sẵn     – Hàng  chục  ổ  cứng  300GB  –  2TB  dành  cho  máy  để   bàn  (WD,  Seagate,  Samsung,  …)     LustreFS  và  HDFS    
  • 10. Hệ  thống  lưu  trữ  LustreFS   •  Linux  +  Cluster  =  Lustre   •  Khởi  đầu  tại  Cluster  File  System  –  2003   •  Mua  lại  bởi  Sun  –  2007   •  Oracle  lếp  quản  –  2010     •  Cuối  2010,  Oracle  dừng  phát  triển  Lustre  =>   cộng  đồng:  Whamcloud,  Xyratex,  OpenSFS,  …   •   Intel  mua  lại  Whamcloud  –  2012    
  • 11. Hệ  thống  lưu  trữ  LustreFS   •  Hệ  thống  file  phân  tán     •  Thường  được  sử  dụng  trong  các  hệ  thống  @nh   toán  lớn     •  6/10  và  60/100  hệ  thống  mạnh  nhất  thế  giới   (Titan  #2,  K  Computer  #4,  …)     •  Hỗ  trợ  hàng  chục  nghìn  node  @nh   •  Dung  lượng  mở  rộng  tới  hàng  chục  PB     •  Thông  lượng  I/O  >  1  TB/s    
  • 12. Hệ  thống  lưu  trữ  LustreFS  
  • 13. Hệ  thống  lưu  trữ  LustreFS   Hot  spare   Raid5     Raid5    
  • 14. Hệ  thống  lưu  trữ  LustreFS   Hot  spare   Raid5     Raid5     Hot  spare   Raid5     Raid5    
  • 15. Hệ  thống  lưu  trữ  LustreFS   Hot  spare   Raid5     Raid5     Hot  spare   Raid5     Raid5     Infiniband  (10Gbps)  
  • 16. Hệ  thống  lưu  trữ  LustreFS   Hot  spare   Raid5     Raid5     Hot  spare   Raid5     Raid5     Infiniband  (10Gbps)   Use  only  Enterprise  SAS/SATA  HDD   LustreFS  
  • 17. Hệ  thống  lưu  trữ  HDFS   •  HDFS  =  Hadoop  Distributed  File  System     •  Thiết  kế  để  chạy  trên  phần  cứng  thông  dụng   (commodity  hardware)     •  Bắt  đầu  phát  triển  bởi  Doug  Cu¡ng  –  2002     •  Được  “truyền  cảm  hứng”  từ  GFS  của  Google  –   2003     •  Trở  thành  dự  án  mã  mở  Apache  –  2006   •  Sử  dụng  bởi:  Facebook,  Yahoo,  Ne¦lix,  …     •  Không  tương  thích  chuẩn  POSIX   •  Thông  lượng  I/O  tổng  gộp  cao  nhưng  độ  trễ  lớn  
  • 18. Hệ  thống  lưu  trữ  HDFS  
  • 19. Hệ  thống  lưu  trữ  HDFS   Name node   Data   node3   Client   Hệ  số  nhân  =  2:   Mỗi  file  được  cắt  thành  các  block   64MB  và  được  lưu  trên  2  node   khác  nhau   Data   node1   Data   node2  
  • 20. Hệ  thống  lưu  trữ  HDFS   Name node   Client   Client  đọc  dữ  liệu  trực  lếp  từ   các  Datanode  -­‐>  thông  lượng   tổng  gộp  cao   Data   node3   Data   node1   Data   node2  
  • 21. Hệ  thống  lưu  trữ  HDFS   Name node   Chịu  lỗi:     Block  có  số  bản  nhân  <  2   được  tự  động  copy  sang  1   node  khác   Data   node2   Data   node3   Data   node1  
  • 22. Metocean  Cluster   •  14  node,  106  core,  141  GB  RAM,  Rpeak  ~  TFlops     •  Infiniband  SDR  10Gbps  &  1Gbps  interconnect  network   •  76  TB  LustreFS  sử  dụng  Enterprise  HDD  (2TB/ổ)   •  ~  70  TB  “Cloud  Storage”  HDFS  sử  dụng  ổ  cứng  cho  máy  để  bàn   –  Lưu  trữ  những  file  dung  lượng  lớn  (bội  số  của  64MB)     –  Hệ  số  nhân  =  2  (dung  lượng  thực  dùng  ~  35  TB)     –  Mount  vào  hệ  thống  file  bằng  FUSE     •  Dữ  liệu  quan  trọng  nhất  của  hệ  thống  HDFS  và  LustreFS  -­‐  metadata  (vài  GB)  -­‐  được  upload  tự  động  lên   Dropbox   Infiniband  10Gbps   1Gbps  Ethernet   192.168.0.0/24   192.168.1.0/24   Dropbox  Cloud  Storage  
  • 23. Kết  quả  benchmark   Đánh giá khi LustreFS đã sử dụng tới 98% (Tốc độ đọc/ ghi giảm đáng kể) mpirun -np 16 IOR -a MPIIO -r -w -b 1g -t 1m -o ! /work/users/kiennt/IORFILE -v -i 3 !   1  mb   10  mb   100  mb   1  gb   2  gb   3  gb   8  clients   460.05   648.65   301.74   343.47   340.3   337.21   16  clients   45.72   661.26   438.17   477.21   477.76   363.43   24  clients   42.15   548.84   444.19   479.93   499.2   387.3   32  clients   111.86   373.07   544.19   514.12   488.83   410.73   40  clients   142.81   333.58   551.62   556.51   524.36   453.79   0   100   200   300   400   500   600   700   MB/s Block  size   Write speed Max  speed   1  mb   10  mb   100  mb   1  gb   2  gb   3  gb   8  clients   72.68   5725.97   4116.08   614.1   493.62   500.98   16  clients   155.99   953.16   3856.11   1613.18   1269.88   1029.32   24  clients   223.75   514.94   2983.58   1573.84   1286.87   953.75   32  clients   1315.45   1993.96   4310.74   1804.51   1175.01   979.01   40  clients   1546.91   2181.85   5007.63   1957.33   1128.21   1065.43   50   250   1250   6250   MB/s Block  size   Read speed caching   effect  
  • 24. Kết  quả  thực   •  LustreFS:     –  Chạy  RegCM,  MM5,  CCAM  trên  1  node   –  Dữ  liệu  xuất  ra  được  ghi  lên  LustreFS  và  NFS   –  Thời  gian  chạy  trên  LustreFS  giảm  từ  30%-­‐50%  so  với  NFS     •  Hadoop  Streaming:   –   Chỉ  dùng  Map  để  phân  @ch  dữ  liệu  trên  12  nodes  (2   mapper/node)     –  Các  nodes  vẫn  đang  chạy  các  chương  trình  MPI     –  Thời  gian  chạy  giảm  tới  10  lần     •  An  toàn  dữ  liệu:   –  Mất  3  block  HDFS  /  2.5  năm  
  • 25. Hỏi  đáp       Xin  chân  thành  cảm  ơn