winunify
本站致力于IT相关技术的分享
基于Kafka事件流实现HBase在Kubernetes上的自适应区域管理 基于Kafka事件流实现HBase在Kubernetes上的自适应区域管理
手动干预 HBase region 热点几乎是每个数据工程师都经历过的噩梦。在业务高峰期,某个 region 的读写请求量飙升,导致整个集群的延迟抖动,而此时我们能做的,往往是连上 shell,执行 split 或 move 命令,然后祈祷
2023-10-27
使用Puppet自动化部署由Weaviate、Apache Iceberg与MariaDB构成的混合特征存储架构 使用Puppet自动化部署由Weaviate、Apache Iceberg与MariaDB构成的混合特征存储架构
我们的机器学习平台最初陷入了一片混乱。特征工程管道的每个组件——离线批处理、在线实时查询、向量相似性检索——都由不同团队手动部署和维护。环境漂移成了家常便饭,开发环境的一个“小”配置更新,在生产环境就可能引发雪崩式的故障。问题的根源在于我们
2023-10-27
基于Spring Boot与Cassandra构建支持DVC版本追溯的高吞吐实时特征API 基于Spring Boot与Cassandra构建支持DVC版本追溯的高吞吐实时特征API
在任何严肃的机器学习系统中,训练-服务偏斜(Training-Serving Skew)都是一个潜藏的、难以根除的顽疾。其中一个核心诱因,就是线上实时推理所用的特征,与线下模型训练所用的特征,在生成逻辑上出现了细微但致命的偏差。问题的根源在
2023-10-27
构建基于Phoenix、InfluxDB与Ant Design的统一实时指标网关 构建基于Phoenix、InfluxDB与Ant Design的统一实时指标网关
我们面临的第一个问题是指标孤岛。数十个微服务各自通过不同的方式暴露Prometheus端点、写入日志或直接推送数据到消息队列。运维团队需要维护一个庞杂的监控栈,而开发团队想要排查一个跨服务的请求链路问题,则需要在多个系统之间来回跳转。我们需
2023-10-27
基于 Pulsar 不可变日志与 TimescaleDB 读模型构建 Azure 高基数 IoT 事件溯源管道 基于 Pulsar 不可变日志与 TimescaleDB 读模型构建 Azure 高基数 IoT 事件溯源管道
处理工业物联网(IIoT)数据流的挑战不在于其总量,而在于其结构。一个典型的场景是数百万台设备,每台设备每秒上报数十个遥测点。这种“高基数”特性,即拥有大量唯一时间序列标识符(如设备ID),会迅速摧毁传统时序数据库的索引性能。更棘手的问题是
构建ClickHouse高吞吐异步写入客户端的C++实践及其GitOps声明式管理 构建ClickHouse高吞吐异步写入客户端的C++实践及其GitOps声明式管理
最初的问题很简单:我们需要将海量的遥测事件从C++服务集群实时写入ClickHouse。最初的实现也同样简单,每个事件都通过一个HTTP POST请求直接发送。当QPS只有几百时,一切安好。但随着业务增长到数万QPS,这个模型迅速崩溃。Cl
2023-10-27
3 / 5