Data Fabric(数据织造)是一种全面的数据办理和集成办法,它运用一组技能组件来办理、集成和处理来自不同数据源的数据,以便安排能够更好地了解和使用这一些数据。作为一种企业数据办理模式,适用于那些向大型用户团队供给对办理杰出、集成且安全的数据拜访的公司。现在,在美国大学和国家实验室作业的科学家们尽力打造一种Data Fabric,称为国家科学Data Fabric(NSDF)。
NSDF是由美国国家科学基金会(NSF)赞助的一个试点项目,旨在供给一个衔接美国全国和世界各地研讨组织的Data Fabric。它是两年前由五位研讨人员首先建议的,包含Valerio Pascucci(犹他大学)、Michela Taufer(田纳西大学诺克斯维尔分校)、Alex Szalay(约翰霍普金斯大学)、John Allison(密歇根大学安娜堡分校)和Frank Wuerthwein(圣地亚哥超级核算中心)。
“咱们作为一群科学家和核算机科学家走到一同,认识到需要为这些科学家规划一种Data Fabric。” Taufer在本年早一点的时分的一次网络研讨会上说。
NSDF背面的理念是引进“一种新的跨学科办法,用于集成数据传输和拜访同享存储、网络、核算和教育资源,从而使数据驱动的科学发现民主化”。“NSDF的愿景是树立一个全球衔接的基础设施,在这个基础设施中,科学查询不受极点数据的约束。”
NSDF供给了“一个同享的、模块化的、容器化的数据交给环境”,“填补了咱们当时核算基础设施中缺失的中心部分”。NSDF图画显现了经过设备交给的单一范畴无关的仓库,它将中心Data Fabric功用与跨参加站点的各种数据存储、核算和网络资源的衔接器混合在一同。
依据NSDF网站,NSDF试点经过几个存储库供给仓库进口,包含体系、区域存储、敞开科学网格(OSG) StashCache和Origin节点、敞开存储网络(OSN)存储POD、国家研讨渠道(NRP) Fiona、云方针存储和边际数据流。
用户层,由命令行东西、特定范畴应用程序、交互式笔记本(如Jupyter)和仪表板组成;
由数据办理和核算衔接组成的三层可编程数据层;数据发现、数据办理、数据处理、数据剖析、数据映射和可视化东西;作业流程和自动化;
由CDN内核和插件组成的可扩展内容交给网络,经过SDK、API和微服务揭露;
并支撑交给中心Data Fabric功用的服务,例如数据目录、安全性、沿用盯梢、来源、容器和编列。
经过该设备启用NSDF后,参加的用户都能够拜访本地存储和应用程序。数据经过Internet - 2同享,Internet - 2是衔接各个政府和大学站点的高速网络,具有100Mbps的骨干,其间一些站点升级到太比特骨干。
DoubleCloud是一个国家科学数据民主化联盟(NSDDC),它正在保管一个NSDF目录,用户都能够在其间发现和拜访数PD的索引科学数据。大约有65家研讨组织在DoubleCloud数据目录中列出了他们的数据,包含AWS OpenData、亚利桑那州立大学(ASU)、弗吉尼亚大学、西印度群岛大学(UWI)等。
DoubleCloud在NSDF网站上表明:“咱们的服务在文件或方针级别对科学数据来进行细粒度索引,为数据分发战略供给信息,并从顾客的视点改进运用者实在的体会,方针是完成端到端的数据流优化。”
自推出以来,NSDF已扩展到各种站点和体系,包含亚利桑那大学、印第安纳大学的Jetstream和德克萨斯大学奥斯汀分校的德克萨斯高档核算中心(TACC);德克萨斯大学奥斯汀分校TACC中心;坐落德克萨斯州达拉斯和弗吉尼亚州阿什本的IBM云站点;芝加哥大学和TACC;犹他大学、威斯康辛大学麦迪逊分校和克莱姆森大学的云实验室;犹他大学高性能核算中心;AWS各区域的CloudBank;用OSG;各组织的敞开贮存网络;和CYVERSE。
国家自然科学基金试点项目现在正在支撑几个研讨项目,包含从南极洲观测深空的冰立方中微子天文台;意大利格兰萨索地下实验室的XenonNT暗物质探测器;以及康奈尔大学的康奈尔高能同步加速器源(CHESS)等项目。