特殊行业小企业的大文件存储、共享和永久备份的一些问题
前情概要
公司性质特殊,存储的数据是刑事案件的手机、电脑、服务器镜像,数据需要保留至少 30 年;
公司起步阶段,对成本比较敏感,目前公司规模约 10 人,一般 1~5 个人参与一个项目;
每年 50~100 个项目,每个项目所需的存储从 10G 到 30T 不等,平均在 1T 左右;
存储的数据以 zip 压缩文件为主,也可能临时存储大量服务器镜像的原始文件( raw 、qcow2 等格式),文件大小从 10G 到 1T 不等,每个项目还包含数十个文档文件。
当前方案
Dell 730XD + TrueNAS Scale + 12x16T ;
2 个 ZFS 存储池,每个 6 块盘,一个冗余 1 块盘( Z1 ),一个冗余 2 块( Z2 );
开启 zstd-9 ,对于服务器镜像的原始文件有极佳的压缩率( 1T 的镜像文件实际占用空间可能会小到 1G )
仅开 samba 协议挂载形式访问数据;
ZFS 离线备份往年数据。
当前存在的问题
权限管理的问题。每个项目的数据不允许项目外的人访问(也不允许列举目录),不知道是不是使用 TrueNAS 的姿势不对,没找到可以配置的入口。TrueNAS 是否可以方便的实现该需求?如不可以,有无更好的选择?
潜在的风险
氦气盘不稳定因素。据网上的资料,氦气盘存在漏气的风险,考虑到成本因素,离线备份只有一份备份,备份损坏可能导致灾难性问题。是否应当考虑其他存储介质?
TrueNAS 稳定性问题。目前已经挂过一次 TrueNAS 系统盘了( Intel 傲腾),用新盘装新系统添加池就恢复了。TrueNAS 是否存在其他可能导致数据丢失的潜在风险?
关于不使用光盘存储的说明
光盘容量一般不大,目前商用最大的也就100GB的蓝光盘。在存储大体积(例如1TB)文件时,需要十几张光盘才行,一张光盘损坏就会导致数据全部丢失,风险极大。
关于不使用云存储的说明
云存储主要存在两个问题:
泄密风险,即使加密存储还是会让甲方感觉不安全;
上传/下载带宽问题,云盘无法满足需求。
建议冷数据丢磁带机里保存,反正这种需求超过 5 年的旧数据平时应该不经常访问,真的要访问了等一两个小时也不是问题
数据完整性就靠多备份,规划一下每隔一段时间重新验证数据就行了,反正磁带便宜
可以直接存储加密的数据到磁带上防止介质丢失的问题
既然性质特殊,存硬盘后直接分门别类丢保险柜呗
我只说我熟悉的部分。
建议冷数据存到磁带,Dell 最便宜的磁带库 TL1000 大概在 6 万。一盘磁带 6T 我记得几百元。
考虑过磁带机,但是磁带的成本其实和硬盘相差不大,尤其是磁带机的成本非常高。如果可能的话还是希望选择机械硬盘。
起步阶段的公司,就能让用户确信可以维持 30 年运营吗?
两个存储池冗余不同目的是什么,节约成本?
权限控制的话每个项目单独开共享是最简单的,zfs 可以随意分共享。
建议不要使用同品牌同型号同批次的硬盘
也可以搭配光盘作为备份的冷存储
1 ,离线备份不应该用储存池等奇怪的方式,防止一些逻辑灾难,应该用简单的导出单个镜像存放,建立索引
2 ,TrueNAS 还算值得信赖
TrueNAS 的权限管理不是挺完善的吗,现有的能力不满足还是说你们没使用过。
#5 这种敏感行业,不是什么人都能做的。老板背后肯定有人,信的不是公司,是背后的大佬。
热数据存在 NAS 里面没什么问题,但是为什么冷数据也要存在 NAS 里呢,对硬盘的可靠性这么有信心么。
OP 你这种要保存 30 年数据的,用磁带就是最佳的方案。
只要不是保存环境过于恶劣,磁带的寿命是远超过 30 年的。
我们是用数据永久保存需求的,带库早就塞满了,现在完全是靠人工来管理磁带。
TrueNAS 不太熟悉不展开讲,权限问题用 Samba 应该好解决啊,配 ACL 呢?
其它热存储的东西就不说了,200T 的商业级 NAS 方案都挺成熟了的。但是这种需求最终还是会落到冷存储上的。最终归档还是推荐磁带机。
从成本角度考虑的话。
前两年可以先用存储服务器凑合着,每年 100T 的开销,对数据完整性有要求的话建议再买几块大硬盘定期冷备。
后期规模上去了还是建议上磁带,反正过个两三年设备换代了正好倒腾一遍数据。这时候公司还在也就起起来了,那时四五百个 T 的存储需求也能把磁带机的费用摊下来。
之后就 NAS (含硬盘存储服务器)存近 1 年的项目,定期用磁带归档一次。每两三年校验一遍磁带,七八年把磁带更换了就可以。对备份有要求就磁带双副本。
如果压缩这块能抽出来,也就是最后实际落盘的数据量没那么大,其实可以考虑光盘存储,BD 光盘单盘存 50G 按淘宝上的零售价也可以控制在每 GB 成本几毛钱,而且光盘的稳定性比机械硬盘好太多了,20 年前的盗版光盘,只要存放环境不是太恶劣拿出来大概率都是可用的~
等效于把字刻在石头上~
冗余不是备份
个人认为 TrueNAS 的稳定性小于 dell 自带的 raid
这些数据如何不是实时调用,尽量采取冷备 ,例如做好校验,拷贝到硬盘,贴好标签,备份多份
写磁带价格挺贵的吧, 同学有没有做过价格分析啊
30 年,就这需求,必须磁带了。
光盘比磁盘还不靠谱。
磁带存储主要是磁带机贵!磁带反而不贵!
前期在 1Pb 一下,建议直接 raid1 的 1:1 备份,及时巡检硬盘,以及硬盘诊断。
直接热备,硬盘连续加电跑出问题的概率要远远小于断电存储的概率。
30 年难搞
对于权限问题,全部用 acl 控制,默认权限都是 000 ,acl 给需要的用户,每个项目有一个项目负责的系统用户,公司的每个人都有可能负责多个项目,即 一个自然人有多个项目的系统用户。
之后项目多了应该可以总结出一套内部的用户模版,比如
manager_proj_a:rwx
view_proj_a:r-x
saver_proj_a:-rx
news.microsoft.com/zh-cn/features/%E5%BE%AE%E8%BD%AF%E7%A0%94%E7%A9%B6%E9%99%A2%E5%AE%9E%E7%8E%B0%E7%8E%BB%E7%92%83%E5%AD%98%E5%82%A8/
Project Silica: 微软研究院实现“玻璃存储”,把电影《超人》写入石英玻璃
坚实、耐用、低功耗,存储 1000 年,下一代云存储技术最新探索
仅供参考哈。
两个存储池的来历说来惭愧,开始的时候不确定 TrueNAS 是否适用我们的需求,所以就建了一个 6x16T 的 Z2 池,后来用起来觉得不错,就又加了一个 6x16T 的 Z1 池。
每个项目单独开共享听起来好像很不靠谱的样子,这样会让员工挂载无数个网络盘。
有道理,现在用的是同批次做的池。后期会避免这个问题。感谢!
光盘很麻烦,有时候一个镜像就需要几十张蓝光盘存储,坏掉一块盘就完犊子了。
离线备份目前用的是单盘 ZFS ,一个盘里面存储若干案件的数据。
案件结束半年后没有新的需求之后,会将数据拷贝至冷盘然后从 NAS 中删除。除非懒,一般不会把太冷的数据长期丢在 NAS 中占空间。
应该是用的姿势不对,配置始终有问题。说白了就是现有的能力不达标): 回头再研究一下
都说 ACL 可以实现,应当是我姿势不对。感谢!
磁盘应该是终极备份解决方案了。
有时候单个服务器镜像可能需要几十张光盘存储,坏掉一张就完犊子了。所以没考虑蓝光备份。
OK ,我查查看。感谢!
公司做取证的?
歪个楼,假设一个人卖片儿,自己有上千 T 的片源,被抓后你们是不是也得把这些都存下来?
长期还是磁带靠谱些。坏的概率还是比硬盘低,而且磁带主要是磁带机贵,拓展存储池大小反而不贵了
谷歌网盘存储试试? 这样根本就不用担心存储的问题了. 再做个账号系统对接谷歌账号查询下载文件就行了
是不是可以试试用 M-DISC 进行归档
中国的刑事案件数据,存谷歌云盘。好吗?甲方可能同意吗?
先不要考虑 30 年。基于成本因素,先考虑 10 年,如果 10 年你们公司不倒,那自然是做大做强,有钱可以采购更好的方案,再转移过去就是了。
腾讯 100tb 冷存储,5 年才 5 万多
性质特殊,我们不考虑公有云,可能存在泄密的风险。
是的,其实我现在的方案也没考虑 30 年,所以也没上磁带机。
使用公有云, 但是整体加密存上去
#39 加密后也不行吗?本地物理手段管理,终究还是要专人掌握那把“钥匙”的。
理论加密后丢云上面没问题,但是甲方知道你把这样的数据丢到云服务商那儿估计会觉得我们脑子有泡。
另外还有一个问题是网络带宽,一个案件假如有个 10T 的数据,千兆上传就得传半个多月,无法接受这样的速度。
短期先用硬盘存着,赌一下 5 到 10 年后技术突破,单位体积存储空间翻 10 倍
你是想让 OP 吃花生米啊
跟我之前有点像,我们是体制内招投标的,开标录像要求终身保留。实际上我们就是定期拷贝到硬盘丢那儿不管了。
我咋觉得这个大量冷数据的存储介质好像只有光盘或者磁带这种最靠谱。
硬盘的话机械硬盘貌似需要持续供电,断电时间久了照样数据丢失了。
我觉得前期用 TrueNAS 组 raid1 做热备份吧,尽量使用不同批次的磁盘避免同期问题,并且多准备一些硬盘做冷备份。等后期预算上来了直接去买企业服务吧,毕竟有原厂保障相对稳点。
能够加密压缩 zip 包后直接云上买对象储存的冷备,说不定是最不折腾的了。 预算够可以多买几家云多重备份。
但是因为规章制度问题必须自己本地架服务器的话就有的好折腾了。
硬盘冷备是最不折腾的,但风险也不是最低的。 因为硬盘也有暴毙的风险。 机房也有火灾的风险。
那个自然是刻盘了,盘上贴上标签纸
#47 长时间断电丢数据是固态
我大概考虑了下目前的实现方案,发现并不是很困难,其实就是有保修的可靠商用硬件即可,目前的存量数据并不是很大。
每年大概 1pb 按照 100 个项目每个 10tb 计算,你们的硬件必然是随着保修期长期购买新硬件淘汰老硬件的过程。
公司需要有专业的的硬盘维修和数据恢复修复人员。
乐观估计按照技术发展每年单块硬盘最大容量翻一倍计算,每年需要保持购入 2pb 容量的硬件作为主备,每年的成本会持续降低到一个差不多的固定线进行维持。
硬盘健康可参考 www.backblaze.com/blog/backblaze-drive-stats-for-2023/
这么特殊的公司?应该走档案库级别数据存储方案吧, 还整什么 trusNAS smb 实在是嫌死的不够快,
每个项目都应该用磁带/磁盘/光盘单独存储, 两地三备份, 物理隔离保护, 定期归档拷贝销毁
- 档案级别数据存储方案具体是什么样的?
- TrueNAS+SMB 的缺陷在哪?为啥会死得快呢?
两地三备份等措施成本过高,甲方不会承担如此高的成本的。
如果所有内容都会压缩加密的话,确实可以上云,缤纷云的成本比较低。
我们目前也在开发自部署方案,是自研的。
如果需要的话,我们可以讨论一下私有化方案。你这些都有成熟方案 楼上都说了 分级存储 冷数据 多份备份 硬盘 光盘 磁带 别放一个地方
数据敏感的话其实还是建议遵循 3-2-1 原则,磁盘和磁带搭配可能还是最好的选择。磁带的主要成本还是在磁带机上,算下来反而是越用单位成本越低的。如果前期价格敏感的话如果规章制度允许可以考虑下闲鱼货,我记得有看到过 LTO8 的 30T 只要 300+的,磁带的单 T 成本绝对是远低于磁盘,而且没有磁盘这种经常通电保持状态的要求,更有利于大规模的冷数据存储
如果是我,我选择群晖,重要资料不敢放在一个开源的 nas 系统上,群晖起码有售后,很多大型企业和高校都用群晖。
如果前期资金少,那就现 raid1 ,等后期再换其他方案,即使有钱,也没必要一步到位,万一过几年有重大技术革新呢。到我的销售强项了,可以了解一下 qnap 和 seagate 的方案。
www.qnap.com.cn/zh-cn/solution/high-density-with-seagate-jbod
通过 qnap 的高性能 nas 机头,加上希捷 5u84 的扩展柜。2u 机头+两个 5u 的扩展柜,即可实现 4pb 左右的容量。节约占地面积,高可靠性
方案特性,
长期存储的功耗非常客观,可定制硬盘的功耗,降低 TCO 。
原厂的兼容认证,无后顾之忧
NAS 对于文件权限天生有优势,精确到用户的控制(不允许项目外的人访问(不允许枚举目录))
希捷原厂磁盘柜+硬盘,硬件诊断有最佳优势,避免硬盘损坏的风险
更可使用希捷高级的 Exos® CORVAULT™自修复型存储,自动管理故障,自动修复故障
QNAP 原厂的系统在各种主机间平滑迁移,坏主机,坏硬盘,都不怕
缺点:比自组略微费钱,但比起其他品牌的那相当省钱了。优点:很省心
seagate 5u84 盘的设备详情:
www.seagate.com/cn/zh/products/storage/data-storage-systems/jbod/exos-e-5u84/
我单位按照监管的信息技术指引客户资料和记录至少保存 30 年,之前有用过光盘但超过一定年限光盘读取成功率很低;近 10 年用集中式存储+NBU+每天多地离线备份,但是遇到过 2 次存储故障紧急请 EMC 原厂救援,NBU 备份受制于设备容量也只能备份本年度数据,异地离线磁盘经常会产生即使做了 raid1 也无法正常读取现象。目前我正在调研磁带库
多备份总没错,刚起步就想着 30 年以后啊
这种破事难道不是首先考虑一个 LTO-9 的磁带库?冰箱那么大的柜子,里面装上五六百盘磁带,每盘磁带容量不压缩 18T ,全自动机械手操作,平摊下来很便宜的。
硬盘真能放 30 年?我闲置 10 年的硬盘读取就挺卡了,而且确认接口的灰尘已清理。还不如磁带靠谱
这个不是搞磁带量大管饱,稳定吗
问个问题,银行的那种可以倒查 5 到 10 年的历史明细数据是怎么存储的?我们现在做的一个高并发业务平台,目前只保留 2 年数据,如果历史数据全部保留,活动期间所有人一起查询历史数据时,速度非常慢,压力非常大
问个问题,银行的那种可以倒查 5 到 10 年的历史明细数据是怎么存储的?我们现在做的一个高并发业务的微服务平台,目前只保留 2 年数据,如果历史数据全部保留,活动期间所有人一起查询历史数据时,速度非常慢,压力非常大
问个问题,银行的那种可以倒查 5 到 10 年的历史明细数据是怎么存储的?我们现在做的一个高并发业务平台,目前只保留 2 年数据,如果历史数据全部保留,活动期间所有人一起查询历史数据时,速度非常慢,压力非常大
用硬盘冷存储最大的问题就是硬盘是需要通电的,隔一段时间就要上电做一次校验,否则你不知道什么时候你的硬盘就完蛋了。
#69
"活动期间所有人一起查询历史数据时,速度非常慢,压力非常大"
一般来说不会一起并发查询这么多冷数据的,即便是倒查 5-10 年也不是说瞬间出结果的,建议改下业务逻辑,先统计,之后扔后台慢慢查。
#69
这在现在已经不是问题了,用大数据做就行,clickhouse 就可以实现了,速度并不会太慢,更多还是按照时间分区查询。
建议楼主等五年,买这个设备:
www.hubei.gov.cn/hbfb/rdgz/202405/t20240518_5195811.shtml
NP
你们需要的新技术来了
“MED 预计将于 2025 年推出,第二代更紧凑的产品将于 2026 年或 2027 年推出,外形尺寸为 3.5 英寸。”
www.cnbeta.com.tw/articles/tech/1454774.htm
可以问一下这一套 4pb 的价格吗?大概数字就行,100w 能拿下吗?
#76 差不多。之前卖一个机头+一个柜子满配,70 多万
#69 查询历史数据,可以让他提交请求排队啊,跟我们的征信查询一样提交后 24 小时后来下载结果!某些银行查历史流水数据的话是要给钱才能查询打印的!
目前问题是这样的如果发送的消息不是 OpText,OpBinary 这两种类型的话,连接会在 30 秒自动断开。 我定时不管是服务端还是客户端发送 opPing 也会断开。 只…
官网: www.agiquery.com 坚持全职开发了两年了,接受多种形式的合作,外包,定制开发 BI 系统。 联系方式:18901845760 支持一下 点了试用和部…
今天搜索突然搜到个 javashuo.com 点开一看是和之前卡饭一样的套路,再加采集,特别容易出现在搜索结果里 () machbbs (.) com/v2ex/ 这个更牛…