本周是 2023 年的第 13 周

技术

Why I Will Never Use Alpine Linux Ever Again

不只是 C,在 Golang 项目中也会遇到如根证书默认没有安装,而导致在代码中访问 https 的地址失败。实际项目中,为了一些依赖项寻找一个合适的 apk 包,而在不同的版本之间来回测试,这个过程非常的恶心人。


彻底告别K8s和Docker Swarm!Ruby On Rails 之父下云后:系统好用又便宜,还清理了几千行代码 - InfoQ 架构头条

Kubernetes 最开始设计也只是为了贴合“微服务”生态和容器生态而设计的一个框架,并不完美,也一定不是容器编排的最终形态。在实际工作中,笔者也总是能遇到各种各样妥协的设计。

上云也好,下云也罢,无非是要找到最适合自己组织的服务部署和运维模型,而不是一味的跟从所谓的“业界标准”,况且 Kubenetes 也不是云的标准答案,只是在较多场景下成本和收益相比性价比比较高的一个方案。

要论局限性, Kubernetes 的局限性大了去了,一旦集群规模变大,各种看起来健壮的设计都会成为瓶颈。笔者“有幸”开发和运维过一个应用,部署在一个超过 300 个 worker 节点的 Kubernetes 集群上,我们依次遇到了:

  • Deployment 过多导致 APIServer 宕机;
  • 频繁的增删 Service 导致节点来不及增删 iptables 条目
  • 节点规模到 300+,Master Node 不得不扩容到了 32C64G
  • etc…

https://www.youtube.com/watch?v=ORBzoVCUHwY

正确设置 vNUMA 适配物理 NUMA,不但可以提升 VM 的性能,也可以运行更多的 vm


https://moelove.info/2023/04/03/Kubernetes-v1.27-新特性一览/

原地 Pod 资源扩容非常令人期待


https://openai.com/research/scaling-kubernetes-to-7500-nodes

和上面提到的下云相比,OpenAI 的集群却是基于 Kubernetes 进行调度,可以看出现在版本的 k8s 比旧版本的集群能够适应更多的 Node。我是震惊于单个 Namespace 就有 40GB/s 以上的带宽,大概率用的老黄家的这个 400G 交换机 https://www.nvidia.com/en-us/networking/ethernet-switching/ 真的是钞能力。


https://zhuanlan.zhihu.com/p/611479852

AI 作画写好 prompt 是关键

生活

书、影

  • 《纳瓦尔宝典》正在看