百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

基于Protobuf共享字段的分包和透传零拷贝技术,你了解吗?

ahcoder 2025-02-18 10:20 15 浏览

导语 | 本文通过介绍实现Protobuf共享字段Guard,并将其应用于中控/召回场景,并获得了显著CPU/时延收益。即使不使用Guard,希望本文的经验和思路也能为读者带来一些帮助和参考。

引言

在推荐系统中,用户级的字段常常需要贯穿整条链路,例如,实验参数,行为序列,用户画像等等。

召回/过滤/排序等模块都需要用户特征,此时最好的方法自然是从请求开始时一次性获取,然后一路透传下去。此前笔者的写法常常是:

const GetRecommendReq & oReq;//from rpc
RankReq oRankReq;
oRankReq.mutable_user_portrait()->CopyFrom(oReq.user_portrait());

这样的透传自然有好处,例如,下游如果需要用户特征,不需要再每个请求去请求一次。尤其是上游发起分包时,透传用户级别特征能够显著减少下游获取用户特征的RPC开销。

然而,RPC开销减少了,再得陇望蜀想一想,是否能直接省去这个CopyFrom的开销呢

我们知道,protobuf提供了Allocated/Release系列接口,通过直接转移指针所有权的方式消除Copy或Swap的开销。

换个思路,如果不是转移指针所有权,而是借出指针所有权,就能够实现共享字段了。所谓借,其实就是在使用前把字段指针转移,但在使用结束后立刻收回(收回所有权以防被delete)。而这正是经典的Guard抽象。

当然,即使不使用Guard,相信上面这个思路已经足够提供一些帮助了。我们可以直接使用pb的接口实现:

const GetRecommendReq & oReq;//from rpc
GetRecommendReq & oMutableReq =  const_cast(oReq);
RankReq oRankReq;
oRankReq.set_allocated_user_portrait(oMutableReq.mutable_user_portrait());
Client.Rank(oRankReq);
oRankReq.release_user_portrait();

对于一些更复杂的操作,例如我想要拷贝部分字段,共享部分字段,修改部分字段(分包的场景),我们在下文给出了我们的解决方案。

设计

我们的Guard提供了两个接口,分别是Attach和Detach,接口如下。实现通过pb的反射机制,使得release和set_allocated能够相互绑定,实现Guard析构时回滚。

void AttachField(Message* pMessage, int iFieldId, Message* pFieldValue);
 Message* DetachField(Message* pMessage, int iFieldId);
  • AttachField:先把字段set_allocted借给pMesage,Guard析构后回滚释放,以防双重delete。
  • DetachField:先把pMessage的字段release借出,Guard析构后回滚归还,以防内存泄漏。

回滚的顺序是FILO,也就是严格按照相反的顺序(因为release和set_allocated并非严格对称,如果在成环的情况下可能会有问题)。

由于C++的构造和析构也是FILO(
https://isocpp.org/wiki/faq/dtors#order-dtors-for-locals),
一定要在pb初始化后再初始化Guard

这两个接口已经足够满足在我们的业务中存在的几种抽象:

(一)主调透传/分包

把上游传递的某个字段,零拷贝传入下游的请求。此时直接Attach字段即可。

//usecase:
        const AReq & oAReq;
        BReq oBReq;
        SharePbFieldGuard guard;
        guard.AttachField(&oBReq, BReq::BigFieldId, const_cast(oAReq).mu

(二)被调分包

控制某些字段不同,而其他字段共享/相同。为了避免拷贝大字段,我们可以在拷贝前先释放这些重的字段;拷贝结束后,把重字段共享给所有的分包。使用CopyFrom好处在于,我们不需要为所有新增的字段都手动判断,只需要特殊处理重的字段即可。

//usecase:
        Req & oReq;
        std::vector vecMultiReq(n);
        SharePbFieldGuard guard;
        auto* pField = guard.DetachField(&oReq, Req::BigFieldId);
        for(auto && oSingleReq: multiReq)
        {
            oSingleReq.CopyFrom(oReq);
            oSingleReq.set_field(...);
            guard.AttachField(&oSingleReq, Req::BigFieldId, pField);
        }

(三)多字段共享写法(以下是一段脱敏的实际代码)

由于操作的指针都是Message*类型,可以直接用容器存储pb index到字段指针的映射关系。通过循环即可共享所有重字段。

         std::vector vecHeavyField{};//初始化为一组fieldId
        SharePbFieldGuard oGuard;
        std::unordered_map mapIndex2Message;
        for(auto uField: vecHeavyField)
        {
            mapIndex2Message[uField] = oGuard.DetachField(&oReq, uField);
        }
        
        for (auto && oSingleReq: vecReq)
        {
            oSingleReq.CopyFrom(oReq);
            //shared filed
            for(auto uField: vecHeavyField)
            {
                oGuard.AttachField(&oSingleRecallReq, uField, mapIndex2Message[uField]);
            }
        }

相关视频推荐

千万级弹幕通信协议protobuf工程实践

c++后端绕不开的7个开源项目,每一个源码值得深入研究

学习地址:C/C++Linux服务器开发/后台架构师【零声教育】-学习视频教程-腾讯课堂

需要C/C++ Linux服务器架构师学习资料加qun812855908获取(资料包括C/C++,Linux,golang技术,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体,CDN,P2P,K8S,Docker,TCP/IP,协程,DPDK,ffmpeg等),免费分享

展望

安全性:因为回滚时set_allocated会delete掉原本的字段,假如成环可能会很危险,如何侦测这种情况。

性能:是否存在不使用反射,就能自动绑定set_allocated和release的方法?

Repeated字段支持:怎样处理Repeatd字段不同的反射接口?

原文地址:基于Protobuf共享字段的分包和透传零拷贝技术,你了解吗?

相关推荐

Linux ntp时钟同步问题(linux ntp同步命令)

有时候,操作系统会报linux的ntp时钟错误。从时钟源同步时间超时。我查看了一下ntp的时钟源,发现执行ntpq-p显示超时。执行nslookup时钟服务器域名,发现可以正常解析。执行了n...

linux服务器同步利器Rsync全介绍(付脚本)

1、认识Rsync(remotesynchronize)是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。Rsync使用所谓的“Rsync算法”来使本地和远程两个主机之间的文件...

如何使用Rsync同步两个网站服务器的内容

本头条号每天坚持更新原创干货技术文章,欢迎关注本头条号"Linux学习教程",公众号名称“Linux入门学习教程"。如需学习视频,请复制以下信息到手机浏览器或电脑浏览器上:zc...

Linux TB级小文件同步备份解决方案

在某些电子档案存储的业务系统下,按照业务场景要求,需要将产生的所有电子影像资料永久存储,并支持备份;因为“钞能力”等原因,一般备份存储只有一个节点(即:一个备份存储服务器);这样就要求研发工程师,不...

CentOS7下使用Lsyncd实现文件实时同步

Lsyncd简单介绍Lsyncd使用文件系统事件接口(inotify或fsevents)来监视本地文件和目录的更改。Lsyncd在几秒钟内将这些文件事件整理核对后,然后生成一个或多个进程以将更...

如何手动同步Linux系统时间并与互联网时间保持同步?

在Linux系统中,正确的时间同步对于许多任务都是至关重要的。一些关键应用程序可能需要准确的时间戳才能正常工作,而一些安全功能也需要确保所有服务器的时间都是准确的。NTP服务可以自动同步系统时间和互...

Linux服务器Rsync定时同步一键化配置指南

1、主从服务器同时安装rsyncopenssh-clientaptupdate&&aptinstall-yrsyncopenssh-client2、主服务器安装好后输入以下命令生成密钥...

Linux系统如何使用NTPDATE命令设置时间同步

简介:咱们在使用Linux系统的时候,常常能发现用了一阵子之后,Linux系统的时间就对不上了。已经知道的情况是,安装Linux的时候选的时区是Asia/Shanghai,可这系统运行了一...

开源的Linux文件同步工具有哪些?(linux 文件夹 同步)

Linux系统之间经常需要文件同步,一个好的文件同步工具省时省力,这里介绍几款开源的Linux文件同步工具1.rsync:rsync是Linux上一个功能强大的命令行工具,可以在不同的服务器之间同...

Linux 系统使用 rsync + inotify 实现文件实时同步

Linux系统使用rsync+inotify实现文件实时同步简介inotify监控文件的变化后通知rsync进行文件的同步#配置免密登录ssh-keygen-trsaca...

Linux 远程数据同步工具详解(linux远程同步命令)

一、简介1认识Rsync(remotesynchronize)是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。Rsync使用所谓的“Rsync算法”来使本地和远程两个主机之...

构建基于 Linux 的 NTP 时间同步集群与时间安全防护实战指南

一、为什么时间同步对系统如此重要?在分布式系统、数据库复制、消息队列、审计日志、安全认证(如Kerberos)、容器编排等场景中,系统时间一致性是保障正确性与安全性的基础。一旦服务器间时间漂移,可能...

每日Linux学习:同步备份工具 rsync

rsync是一个用于高效同步文件和目录的工具。它通过仅传输变化的部分(增量传输)来节省时间和带宽,支持本地同步、远程同步(通过SSH),还能保留文件原有权限、时间戳等属性。本文通过几个常用的实例来...

Chromixium OS 1.0发布 基于Ubuntu发行版

Chromixium项目宣布chromixiumOS1发布,一款基于Ubuntu的Linux分支,chromixiumOS试图重新打造一款外观和感觉与ChromeOS相似的完...

iOS8.0.X~iOS8.1完美越狱!盘古团队出品

【巴士速递·移动情报站】最新消息,iOS8.1越狱了!!此次越狱依旧是iOS7时代我国的大神盘古团队带来的,而该次越狱支持最新的iPhone6、iPhone6Plus、iPadAir2和iPad...