某五百强信创数据库运维幽默记录
某五百强信创数据库,为了搭配他们的 arm 硬件,把物理安装的配置需求设计得十分严格,核数内存比 1:8 ,至少 8C 起步,否则安装检查不通过。(但是容器化模式下允许 4C16G 安装)一个集群 3 节点,也就是每个 cluster 至少要吃掉 24C192GB 内存,我们这边 base 的机器资源不够,调动用外地的机器,两地之间网络全隔离,需要开单申请端口放行开始之前,我问某五百强技术支持,我们网络隔离,完成任务 1 需要开通什么端口技术支持丢给我一个《端口矩阵》,林林总总列出了所有组件的端口接近 100 个,但是没告诉我是干什么用的,说可以参考这个文档然后选了几个看起来要用的端口,提交了审批,等了 2 天,端口批下来了开始干任务 1卡住了,几百个组件查 log 查了俩小时,发现它在任务过程中冷不丁地要请求一个端口 A 才能完成,具体来说,它下发 agent 包用的不是 scp ,而是要求 node 反过来请求 controller 的自建非标端口 sftpOK ,反馈,继续开审批,然后追问五百强技术支持,你们任务 1 还涉及什么端口能说说吗?任务流程全是黑盒子,使用手册没有、矩阵文档也没有技术支持说,你看看端口矩阵,自己整理下OK ,等了 2 天,端口 A 批完了,继续任务 1 ,结果卡在另一个地方,再查俩小时 log ,发现这个子任务靠 ping 判断 node 的网络连接,但我们没开 ICMPOK ,继续开审批,把 ICMP 开了,我再追问技术支持,你们还有什么端口要访问的,能不能说清楚他回答我,那个端口矩阵你可以看下等了 2 天,ICMP 批下来了,继续任务 1 ,结果卡在最后一个子任务,这个任务在矩阵文档里写的是要用端口 B ,之前已经批过这个端口,测试也顺利放行。继续查 log 和测试,俩小时之后发现这个子任务实际上在用端口 C ,而非 B ,端口 C 没开通OK ,继续开审批,等了 2 天,把端口 C 开了,最后终于跑完了半个月时间消失了接下来做任务 2 ,毫无意外地卡住了查 log 两小时,发现这个子任务试图让 node 终端请求 controller 的 Kafka 来获取一些任务参数,这个端口当然是没开通的,哥们,你是个数据库啊反馈技术支持,追问,你们任务 2 要什么端口技术支持进入了已读不回状态
补充一下关于“这个子任务靠 ping 判断 node 的网络连接”细节这个子任务是任务的末期,判断 agent 下发后是否能够正常通信的,任务流名称大概叫 VerifyAgentConnection 之类的东西。它用了一些混合方法来验证,包括 SSH 连接、请求一个 Agent 的服务端口 D 获取信息、以及 ping 。后面我通过 log 查到,SSH 已经通过了,而且任务已经明确地接收到了 D 端口返回来的很长的集群 info json ,但是因为 ping 没通过,反复重试 600 秒后超时,最后判定任务失败
也许是某一种缘分,我发完这个帖子之后,五百强的技术支持终于打电话跟进了。
说明了这半个月以来摸端口走一步算一步的过程,然后反馈端口矩阵对我们面向功能的运维用处不大。
最后对方让我们把矩阵里的端口全开了,走最后一次审批流程,下周再接再厉。
有些V友说得挺对的,我认可其实后面的麻烦都是我这边流程不当导致的问题,还是太年轻,应该一开始就直接让甲方把矩阵全开了。
过阵子给大家更新一些信创数据库周边工具更幽默的案例好了
数据库还用到了 kafka ?
你为什么不把矩阵的端口全开了得了。问就回答说技术给的文档。
国产软件都这尿性,都快习惯了
另一边是银行,审核非常严格,每次开端口要三级两地领导审批,每个端口需要对应原因,否则一般大概率是会被打回的
为啥不敢说公司名称 我不能理解
五百强,信创数据库,同时卖 arm 机器,内存要求高接触过的已经能够知道是哪家了
按天收费的话就赚了
对这种国内的黑盒信创软件,基于政治任务,就不要考虑什么最小授权原则了,应开尽开,保留甩锅证据就好了
不会是 hua 吧,我接触的不多,就接触过一次那个 arm 服务器
魔改 PG ,越改越垃圾。
toB 文档写成这样也能卖钱啊。。从这实际任务流程上感觉就是:世界果然是草台班子搭起来的
kafka???
这你居然还有心情问第二第三遍....在第一遍问他需要什么端口的时候不就该立刻意识到他的回答是「我就是个混子,我啥也不知道」吗没在第一时间意识到对方根本啥也不懂那就是你的不对了,需要进一步加强对技术力判断的经验。基于对方技术啥也不懂的前提,如果对面钱给得够,那就要在项目规划期就策划好排查所需端口的工期,说白了,只要钱给到位,甲方是不可能有错的,还是你们自己太菜。
类似于伏地魔的 you konw who
得看什么五百强,国企央企的话属于正常发挥
五百强+信创数据库+arm ,应该是华为的高斯数据库吧
更惨的情况是,你的客户因为信创买了 YKW 的数据库。然后客户又要求你适配 YKW 的数据库。你并不是 YKW 的直接客户,所以你连他们家的产品文档都下载不到。反正 PG 能用,YKW 的数据库用着察觉不出问题,能过验收,这国产兼容适配的任务就完成了。
你还是太年轻,我们给甲方部署系统,第一条要求就是网络全开,后面上线后再收紧访问面,因为就是你这种坑踩得太多了。。。尤其是阿里系的东西,一言难尽
刻板印象,具体还是要看对接人的。
信创是一笔大生意
这些数据库怎么这个样子?国内的那些也是如此吗?
arm 的 aarch64 64k pagesize 可能 是一个原因
他这个数据库是自己从 0 开始写的吗?还是开源套皮的
这家五百强的风格是为每个项目指派一个专门负责人对接支持,无论是 poc 还是正式交付的项目,从程序上来说是挺好的但架不住已读不回的就是这位负责人
吃一堑长一智,以后会这么干了
其实不用关心是否套皮,关心一下哪些能超越的,超不过就赶紧加入,努力成为那个没了我,你也要完蛋的加入者。
已读不回, 直接向上反馈说不配合, 花了钱还遭罪这家也太牛了.
信创基本是套皮,没几个是自己的
“发现这个子任务试图让 node 终端请求 controller 的 Kafka 来获取一些任务参数”一个数据库为什么还需要 Kafka 。。。 好奇
话说你是咋想的敢问第二次呢
特有的客户当孙子,信创,腐败的温床。
下回可能就是不读了
信创项目嘛 设计是这样的
好日子还在后头呢
我只能说确实挣钱,这孙子不白当.. 有专门的信创拨款
#4 我觉得第一次卡住 你再去提审批就该考虑一下,这个技术提供的端口矩阵不准确,需要你来沟通和测试后完善一下再去申请新的,永远不要相信别人提供的
那卖的是产品吗?卖的是人情世故。 虽然觉得这些软件恶心。
烂先不谈,以后别炸就行。炸了那可真是搬起石头砸自己的脚
还有更幽默的的 vx 公众号 人在信创
某几家的产品, 说是信创数据库,其实是基于 pgxl 架构改出来的缝合产物,还自带运维平台,不是通常意义上的单纯数据库。 所以不但有 kafka ,甚至还可能有 redis ,zookeeper ,es 等等一堆东西。
#23 我建议你每日或者定期一个时间段给你的领导反馈(或者在结束后写复盘总结,锅应甩尽甩)你是对你的公司/领导负责,不是对外部负责不然你的领导认为你办事能力不行,对接个东西对接半天
不谈这个产品本身咋样,如果你后续发现的端口在所谓的 《端口矩阵》上都有,那说明是你的锅,反之是对面的锅。如果你的上游审批需要这些端口的作用,那你应该提供《端口矩阵》,或者要求对面提供端口使用说明。
#41 "然后选了几个看起来要用的端口",这纯在给自己找事,自信过头了。
#1 应该是数据库上层组件通信用的
根据我(司)对接过几家厂来看,负责项目实施的都是只懂按文档帮你装上去就完事了,如果中间遇到什么问题,一问三不知,他还要转工单或者问别人
“技术支持说,你看看端口矩阵,自己整理下”,现在的乙方都这么牛逼了吗?直接找他们上级投诉去吧。
盲猜是某央企,三大运营商?
这个号太有意思了。。。瓜吃的嗡嗡的。。
某五百强的风格就是将机器和标准件打包一起卖,搭售有技术支持技术支持一般来说都是外包,主要靠现场查手册给技术支持解决不了的才会提交给原厂人员,如果确定是原厂的 bug ,那要看有没有绕开的办法如果没有,那就等着排期几个月修复吧反正这家关系硬,甲方的选择余地不多其他供应商就比较惨了,对接起来比孙子还不如
这家的东西质量在国产里面算很好的,就是技术支持方面是一坨它将肉吃光了,其它供应商只能啃点骨头,赔本赚吆喝的不少
看来还不如 oceanbsse
到底是什么理由必须买这垃圾东西啊。。。
因为爱国 buffer 啊
中农工建交邮,是哪家吧
赞同 az467 #40信创数据库为了方便一体化还自带运维平台,不是通常意义上的单纯数据库。所以不但有 kafka ,甚至还可能有 redis ,zookeeper ,es 等等一堆东西。kafka 作为收集事件流和日志的。查了 gaussdb 的文档,果然要求 ssh, ping 一堆端口 support.huawei.com/enterprise/en/doc/EDOC1100345160?currentPartNo=k001&togo=content
华为的确是关系硬,背后是军工背景,看过油管二爷故事介绍的。
为了省钱,现在技术支持全外包,外包么懂得都懂
上面要求
端口矩阵, 这么高端的词汇
你咋找的?微信?电话?邮件走起啊,抄送自己领导。沟通的艺术啊。。。他混反正你留痕了锅不在你头上。
oceanbase 吧?各种开源组件集成在里面
很大概率这个技术支持也不太了解,所以只能甩给你文档,而如果他再去问可能也要很久、被踢皮球,有一些自私的人就不愿意浪费时间去找别的人问了。
国产数据库也不至于这么不堪吧,我记得不是有几个正常的产品的么?
OB 是国产最强的,目前没有之一
没办法,这就是干技术人的现状,费了九牛二虎,求了各路神仙,好不容易搞定了,领导还觉得你这干的太慢了啊哈
是的,管理套件是 Java 全家桶,zookeeper 、dubbo 、influxdb 、kafka ,连 machine learning 相关的东西全都有,甚至给自己塞了一个信创数据库做内部 metadata
信创啊 。 独一份的生意
世界就是一群草台班子搭建的,这样多好,又快乐摸鱼了一周多
那必须自主研发
#42 楼主不已经解释了“另一边是银行,审核非常严格,每次开端口要三级两地领导审批,每个端口需要对应原因,否则一般大概率是会被打回的”你以为的开端口: 点下安全组就行实际上楼主的遇到的开端口: 提交审批说明理由
不错了至少是大公司还有一些明显是当地领导关系的小公司做的什么破自研操作系统,数据库,听都没听过你说换皮就老实换皮吧,你瞎搞什么创新
一看就是华为吧?
#69 对啊,不就是嫌审批麻烦,然后 op 不想去做吗,然后开始自己凭经验挑端口 。至于每个端口的详细理由回复也已经说了,如果《端口矩阵》是不能满足审批要求,就应该让对面提供,如果对面不提供,反手应该问题升级到领导那去。
root 上去一把梭,什么安全服务、防火墙通通关闭,一键安装
#23 当然是自主知识产权。只要西方敢开源,我们就可以突破。
#69 和机关内 ssh 权限审批严格,每次获取 root 权限都需要多个领导审批,我直接凭借经验从安装文档的命令放弃了使用 root 权限(我凭经验这些命令都不需要 root )执行了,但是最后服务起不来 有啥区别? 我的观点是为啥要去猜测乙方服务所需要的端口,乙方说要什么,就去提条子申请什么,少资料就找乙方提供,是自己不想按流程办事 想省事然后坑了自己。感觉一点不像甲方,倒像是乙方 pk 乙方,没一点话语权的样子,我们遇见乙方要是这样,问题早上升了。
这事儿太正常了,第一次就应该把锅甩出去了,要求对方提供,要不就升级到领导。
什么狗屎数据库,还没开始用就吃 192G 内存
没找到幽默?:-D
HW 是乙方,他也是乙方,甲方是银行HW 是强势的乙方,甲方推动 HW 也是不容易的他是弱小无力的乙方,苦活累活都是他的和 HW 一起合作过项目的,都知道 HW 是多么操蛋的
今天远程开会,主讲人讲着讲着没音了,等一会说是国产机卡死了,只能说路还长着呢
怎么感觉和 oracle 一个风格,之前用 oracle ,找原厂必须给钱,几千刀一次,或者包年(好像是百万级的费用),用不起,最后找了三方的技术支持顶着,实在没办法才找原厂
菊花的路过,技术支持都是一线,基本上也就是培训出来的,当然可能有些研发倒霉蛋可能是发配来一线……既然你付钱了,那教你一招直接写一封邮件抄送你领导和他部门的大领导,不行就所在地区的领导,说已经严重影响进度,限时什么时候解决,不然验收不通过。
华子的端口矩阵,都会说明端口的作用,只是不是对该产品非常熟悉的人,看了也不知道某个端口是做什么用的。既然给了 100 多个端口,那就全申请了,申请不下来就上升呗。本来就是非标场景了,再按照自己经验来,无论是安装,还是后面的运行,只会有踩不完的坑。
哈哈,这么说就能理解了
#16 看了一半就知道是高斯了,这玩意我们 SRE 用起来简直难受到炸
#84 扯吧,我们这边拿到的端口矩阵很多都是大段范围,完全不说明具体细节,问它们研发它们自己都搞不明白,一个数据库为什么要开那么多端口
中信?
信创,一个非常可笑的玩意儿。
世界就是一个草台班子,我同事大部分第一们实际语言是 python ,啥都喜欢调用系统命令实现,例如cat /etc/os-release | grep xx端口探测用 nc ,不用库 socket防止脚本多次运行用 ps 库查自己名字调用 ping 命令查其他机器在不在线调用 curl 命令下载一个 web 接口编译命令写 xx.sh 不写 makefile搞东西不写 README.md😅
信创改造对甲乙丙丁方都有好处,唯独对运维是坏处,懂得人都懂
数据库依赖 kafka ?先不说数据库依赖另一个中间件合不合理,这国产化替代个毛线啊。
一眼华子 魔改的 PG 数据库
这有什么好幽默的,网络安全也是安全。
KP 吃得有点狠……
看看接口人的工号开头是多少?盲猜是 30 (笑
某为 od /doge
是啊,有点那啥了
信创就是上面相关的几方互相 get money ,共同巩固壹号皇位安全的玩意,信息/数据真的安全了吗?核心的东西有几个是自己的?求 V2 里面的小红粉别喷!
现在有三台机器 其中一台在吃灰 A 一台 j4125 装的 ikuai 负责网络中枢 dns/dhcp/nginxB 一台绿联 dx6000 装的 truenas C 一台 n…
疫情开始的前一年,我在天府软件园的一家小公司做安卓客户端的开发和维护。那年夏天,因为经营不善,公司入不敷出,老板决定让研发部的所有成员周六上半天班。因为不满这项制度,我提出了离…
很多编程 IDE 里并没有模式区分,只能一股脑输入文字。这就导致大部分快捷键操作,都需要依靠 Ctrl 和 Alt 的组合,或者用鼠标才能达成,但是用太多的鼠标,明显分散注意力…