winunify

团队内部的 CI 流水线已经慢得像头搁浅的鲸鱼。一个典型的 Go 项目，一次代码提交触发的 gitlab-ci.yml，串行执行单元测试、代码覆盖率计算、依赖漏洞扫描、静态代码分析，最后是构建和推送镜像。整个过程平均耗时 15 到 20 分

2023-11-16 DevOps

为移动端应用提供的机器学习模型，其生命力在于个性化。一个静态的、一刀切的模型在部署后很快就会因为用户行为数据的变化而变得迟钝。传统的中心化批量训练模式，周期长、成本高，无法满足对单一用户行为的实时响应。我们面临的挑战是：当特定用户在 iOS

2023-11-15 MLOps

我们的 monorepo CI 系统正在变成一个性能黑洞。一个看似无害的 PR 能触发数百个独立的构建和测试任务，而定位其中引入的性能衰退，完全依赖工程师的人工排查和直觉。日志散落在各处，缺乏结构，更不用说进行趋势分析了。我们需要一个系统，

2023-11-15 数据工程

我们面临的第一个问题不是信令，也不是媒体传输，而是数据出口。当上千路 WebRTC 音视频流在我们的 SFU (Selective Forwarding Unit) 集群中穿梭时，业务方的数据科学团队提出了一个看似简单却极难实现的需求：他们

2023-10-27 分布式系统

当推荐系统或风控模型的在线推理（Online Inference）请求 QPS 从一万攀升到十万时，最大的瓶颈往往不再是模型计算本身，而是实时特征的获取延迟。批处理生成的特征时效性太差，无法捕捉用户最新的意图；而一个为在线服务设计的、能够支

2023-10-27 数据工程

团队的向量模型迭代一直是个痛点。每次对预处理逻辑或模型进行微调，都意味着需要对整个数GB的验证数据集重新生成嵌入向量，这个过程动辄数小时。我们的CI/CD流水线，原本是为了加速交付，现在却成了最主要的瓶颈。问题很明确：大量的计算是重复且不必

2023-10-27 MLOps