Split Learning Review
下面的论文均围绕分布式深度学习展开,涵盖了联邦学习、分裂学习等技术在不同场景下的应用、性能评估和安全分析,对推动分布式深度学习技术的发展和应用具有重要指导意义。
Distributed learning of deep neural network over multiple agents
摘要:提出一种在多个数据源上训练深度神经网络的技术,可解决训练和部署神经网络时标记数据稀缺的问题,在不直接共享原始数据的情况下进行训练,实验证明其性能与单机训练相似,并分析了安全问题和半监督学习应用。
引言:深度学习在多领域有应用潜力,但训练面临数据和计算资源需求大以及隐私问题。本文旨在解决这些问题,提出使用多个数据源和单个超级计算资源训练神经网络的方法。
理论
分布式训练算法:分别介绍了基于单个实体和多个实体的分布式训练算法,通过将数据编码传输到服务器进行训练,证明该算法与常规训练结果相同。
半监督应用:描述如何修改算法以结合半监督学习和生成损失,在少量标记数据的情况下进行训练,通过组合预测和自动编码器的损失来优化模型。
在线学习:算法可在线学习,通过共享权重更新种子和加密权重更新,减少网络开销并提高安全性。
安全分析:分析算法安全性,指出重建数据具有挑战性,只要客户端网络包含至少一个全连接层,服务器就难以发现客户端参数。
无标签传播训练:提出一种调整训练框架的方法,通过环绕网络末端层让客户端生成梯度,避免标签共享。
数据集和实现:使用标准json通信库和自定义协议实现算法,介绍了实验使用的数据集,包括Mixed NIST、Canadian Institute For Advanced Research和ILSVRC (ImageNet)
实验和应用
实验验证:在多个数据集和拓扑结构上进行实验,验证了算法的正确性,分布式训练的网络收敛到与单机训练相似的准确率。
与现有方法比较:与现代先进方法比较,该算法在客户端计算成本和通信带宽上有显著优势,能在较少计算资源下实现更高的验证准确率和更快的收敛速度。
数据量对最终准确率的影响:实验表明,聚合多个数据源的数据可显著提高模型准确率。
结论和未来工作:提出的方法能在不共享原始数据的情况下训练深度神经网络,减少计算需求并适用于半监督学习。未来可扩展到训练分类器集成、使用学生 - 教师方法共享网络知识、应用于回归和分割任务等。
Reducing Leakage in Distributed Deep Learning for Sensitive Health Data
“Reducing Leakage in Distributed Deep Learning for Sensitive Health Data”由Praneeth Vepakomma等人撰写,于2019年在ICLR AI for social good workshop上发表。论文聚焦于分布式深度学习中敏感健康数据的隐私保护问题,提出通过最小化原始数据与中间表示之间的距离相关性,在保障模型准确性的同时减少数据泄露风险。
研究背景与相关工作
研究背景:医疗领域数据共享和计算的安全性、隐私性至关重要。多模态数据由多个医疗实体持有,因敏感性和隐私问题,相互不信任,阻碍了分布式机器学习的发展。
相关工作:介绍了分布式深度学习方法,如分裂学习、联邦学习和大批次同步随机梯度下降。还阐述了距离相关性方法在不同领域的应用,其在深度学习中目标通常不是防止原始数据重建,而本文旨在填补这一空白。
研究贡献:提出一种新技术,利用距离相关性降低中间表示的可逆性(即减少数据泄露),并在分裂学习的背景下进行了验证。通过确保通信负载与原始输入数据的距离相关性较低,同时维持预测输出标签的准确性,还展示了最小化距离协方差可最小化中间表示与输入之间的KL散度乘积。
方法
分裂学习:每个客户端将部分深度网络前向传播到特定的分裂层,分裂层输出发送给其他实体完成剩余训练,梯度反向传播后,分裂层梯度再传回客户端完成后续训练,训练过程中不共享原始数据。
改进方法:提出的方法在分裂学习基础上,通过结合距离相关性(DCOR)和分类交叉熵(CCE)构建损失函数,在训练网络时,最小化原始数据与分裂层激活之间的距离相关性对数,优化预测标签与真实标签之间的分类交叉熵。总损失函数为两者加权之和,平衡隐私保护和分类准确性。
距离相关性与可逆性的联系:使用Kullback-Leibler散度衡量数据的可逆性,推导了距离协方差与Kullback-Leibler散度、交叉熵之间的关系。证明最小化距离协方差可最小化KL散度的乘积,并通过对距离协方差进行正则化,给出了KL散度差异的上界,且说明可通过最小化相关范数来缩小该上界。
实验:通过对结直肠组织学图像数据集和MNIST手写数字识别数据集进行实验,验证了改进方法NoPeekNN的有效性。结果表明,NoPeekNN能大幅降低原始数据与中间表示(smashed data)之间的距离相关性,在结直肠组织学图像数据集中从0.92降至0.33,在MNIST数据集中从0.95降至0.19,同时保持相似的分类准确率。在自编码器实验中,也证明了私有化的分裂层可防止原始图像的重建。
研究结论:论文展示了如何在减少分类交叉熵的同时,最小化中间数据与原始输入之间的距离相关性。实验证明,在健康数据集上应用分裂学习时,该技术既能减少数据泄露,又能保证模型准确率,有望为偏远社区在应对健康威胁时安全地汇集健康数据提供解决方案。
Split learning for health: Distributed deep learning without sharing raw patient data
摘要:提出SplitNN的几种配置,用于实现医疗实体在不共享敏感原始数据的情况下协作训练深度学习模型,比较了SplitNN与其他分布式深度学习方法在性能和资源效率上的权衡,结果令人鼓舞。
引言:医疗领域的协作受信任、数据共享法规和患者同意等因素阻碍。深度学习在医疗领域应用广泛,但训练分布式深度学习模型时,既不能共享原始数据,也不能共享模型架构和参数。本文基于SplitNN提出适用于实际医疗场景的配置。
相关工作:介绍Federated Learning和Large Batch Synchronous Stochastic Gradient Descent等分布式深度学习技术,指出它们在某些非标准分布式深度学习场景下的适用性尚未得到研究,而本文将为这些场景提出SplitNN的配置。
SplitNN配置
简单香草配置:客户端训练部分深度网络至特定切割层,将输出发送到服务器,服务器完成剩余训练,再将梯度传回客户端完成反向传播。
U型配置:无需客户端共享标签,通过将网络在服务器端的末端层环绕并将输出返回客户端,由客户端生成梯度进行反向传播,适用于标签包含敏感信息的情况。
垂直分区数据配置:适用于多个机构持有不同模态患者数据的场景,各机构训练部分模型,将切割层输出连接后发送到服务器完成剩余模型训练。
资源效率结果:在CIFAR 10和CIFAR 100数据集上的实验表明,SplitNN在客户端计算资源需求大幅降低的同时,能保持较高的准确率,在计算资源效率上有显著提升。
结论和未来工作:简单的分布式深度学习配置无法满足医疗实体协作的实际需求,SplitNN在资源效率上优于现有方法,且具有多种灵活配置。未来可进一步探索其在更多场景的应用,结合神经网络压缩方法提升性能。
补充材料:提出更多SplitNN的分裂学习配置,包括扩展香草分裂学习、多任务分裂学习和类似Tor的多跳分裂学习。
SplitNN-driven Vertical Partitioning
摘要:提出SplitNN驱动的垂直分区,这是一种分布式深度学习方法,能从垂直分布的特征中学习,在不共享原始数据和模型细节的情况下,让机构间进行训练,评估了多种合并分割模型输出的配置,并比较了性能和资源效率。
引言:金融机构利用深度学习优化业务,但面临数据利用和隐私保护的挑战。SplitNN架构为数据协作提供了新方式,本文旨在利用垂直分区数据学习共享模型并保护数据隐私。
相关工作:介绍垂直分区机器学习的相关技术,包括线性和逻辑回归、决策树、支持向量机等的垂直分区学习方法,以及垂直联邦学习。指出传统解决方案使用加密方案面临性能挑战和通信开销,而Split Learning能减少客户端的通信和计算开销。
垂直SplitNN
架构与机制:在每个客户端训练部分神经网络,聚合其输出后输入到服务器端的组合模型。提出元素平均、最大、求和、乘法和连接五种聚合机制,各有优缺点 。
实现与数据集:以SplitNN架构为基线,在三个金融数据集上进行实验,包括银行营销、信用预测和金融短语库数据集。
实验
与集中式模型比较:使用最大池化合并技术,结果表明在大多数情况下,垂直分区和元素最大池化的性能与集中式模型相近,部分数据集有轻微提升。
合并策略比较:比较多种合并策略,发现连接策略虽简单但存在可行性问题,元素平均池化和简单元素相加可使用安全聚合协议,且性能损失较小,实际中平均池化更合适。
客户端随机掉线情况:客户端随机掉线会显著影响性能,掉线数量增加,性能下降更明显,甚至影响模型收敛。
通信和计算成本测量:通信成本取决于端点层输出大小,计算成本取决于架构和输入特征向量大小。在不同场景下,应根据瓶颈情况选择合适的训练策略。
结论:提出的方法能有效处理垂直分区数据,合并策略能得到与集中式模型性能相当的共享模型。最大池化总体最佳,平均池化考虑安全聚合协议时可接受,为训练垂直分区数据的模型提供了有效方式。
SplitFed: When Federated Learning Meets Split Learning
摘要:提出SplitFed Learning,结合联邦学习和分裂学习的优点,通过改进架构配置和融入差分隐私、PixelDP技术,增强数据隐私和模型鲁棒性。分析和实验结果表明,该方法在测试准确性、通信效率和计算时间上表现良好。
引言:分布式协作机器学习(DCML)因数据隐私优势而受欢迎,联邦学习和分裂学习是其中的两种主要方法。联邦学习允许并行训练但存在客户端计算资源和模型隐私问题,分裂学习能减少客户端计算负担但训练时间长。本文提出SplitFed Learning以解决这些问题。
背景和相关工作:介绍联邦学习、分裂学习和差分隐私的基本概念。联邦学习通过客户端并行训练和服务器聚合更新模型;分裂学习将模型分割在客户端和服务器上分别训练;差分隐私用于定义隐私模型。
提出的框架
总体结构:结合联邦学习的并行处理和分裂学习的网络分割优势,引入联邦服务器进行客户端模型更新的聚合和同步。客户端和服务器协同训练,通过多次迭代更新模型。
隐私保护:SFL通过模型到数据的方法和网络分割保护隐私,同时在客户端应用差分隐私和PixelDP技术,进一步增强数据隐私和模型鲁棒性。
总代价分析:分析了联邦学习、分裂学习和SFL在通信成本和模型训练时间上的差异,结果表明SFL在多客户端场景下计算时间更短。
实验:在多个公共图像数据集和流行模型上进行实验,包括HAM10000、MNIST等数据集和LeNet、AlexNet等模型。比较了联邦学习、分裂学习和SFL的性能,结果表明SFL在模型准确性和通信效率上与分裂学习相似,但计算时间更短。
结论:SplitFed Learning通过结合联邦学习和分裂学习的优势,提供了更好的模型隐私保护和更快的训练速度,在资源受限环境中具有应用潜力。未来可进一步研究隐私和效用的权衡以及集成同态加密等技术。
End-to-End Evaluation of Federated Learning and Split Learning for Internet of Things
摘要:首次在真实物联网环境中对联邦学习和SplitNN进行实证比较,评估学习性能和设备实现开销。结果表明,SplitNN在不平衡数据分布下学习性能更好,联邦学习在通信开销上更具优势,且两者在资源受限的物联网设备上应用复杂模型都存在困难。
引言:深度学习发展迅速,但数据隐私和安全问题突出。分布式学习技术可解决这些问题,本文聚焦联邦学习和SplitNN,旨在评估它们在物联网场景下的性能和实现开销。
分布式学习和数据集:介绍联邦学习、分裂学习和集成学习的基本原理,以及实验使用的数据集,包括语音命令(SC)和心电图(ECG)数据集。
学习性能评估:在不同数据分布(平衡、不平衡和非IID)下评估联邦学习和SplitNN的学习性能。
IID和平衡数据集:在理想数据分布下,SplitNN收敛速度比联邦学习快,但模型准确性无法达到集中式模型的基线水平。
不平衡数据分布:联邦学习在不平衡数据下难以达到基线准确性,收敛速度慢;SplitNN对不平衡数据更鲁棒,收敛速度快。
非IID数据分布:联邦学习在非IID数据下收敛波动大但仍能收敛,SplitNN在极端非IID数据下无法学习。
SplitNN集成学习:验证了SplitNN与集成学习的兼容性,集成学习可减少训练时间,且不影响学习准确性和收敛性能。
在树莓派上的实现开销评估:在树莓派设备上评估联邦学习和SplitNN的时间、功率、通信和内存开销。
实验设置:介绍实验使用的树莓派和服务器的配置,以及性能指标的测量方法。
实现考虑因素:指出在树莓派上运行复杂模型计算资源不足,推荐使用简单的1D CNN模型。
集成学习:集成学习可减少训练时间和功率消耗,但不减少通信开销。
客户端数量的影响:联邦学习的时间开销随客户端数量增加而减少,SplitNN则相反;联邦学习的通信开销与模型参数有关,SplitNN与本地数据大小有关。
SplitNN中分割层数的影响:增加SplitNN客户端的分割层数会增加时间和能量开销,通信开销不变。
不同模型的影响:复杂模型会增加联邦学习的开销,而SplitNN的开销相对稳定。
讨论和未来工作
评估结果总结:SplitNN学习性能受多种因素影响,在不平衡数据下收敛快但在极端非IID数据下表现差;联邦学习通信开销低,更适合物联网场景,但两者在低容量物联网设备上训练复杂模型都不可行。
实现的优化:可使用XNOR - NET等技术优化模型,提高内存和计算效率。
分割顺序模型:探索SplitNN在顺序模型上的应用,如LSTM和RNN,目前存在困难,有待进一步研究。
结论:对联邦学习和SplitNN在真实物联网场景下进行了首次实证评估,为实际应用提供了参考,联邦学习在物联网场景中更实用,但两者在复杂模型训练上都面临挑战。
Security Analysis of SplitFed Learning
摘要:对SplitFed Learning进行首次实证分析,发现其模型更新维度比联邦学习小,在应对模型中毒攻击时更鲁棒,模型中毒攻击导致的准确率下降幅度比联邦学习低5倍。
引言:联邦学习和分裂学习是两种分布式协作学习技术,SplitFed Learning结合了两者优势。已有研究广泛探讨了联邦学习的安全漏洞,而对分裂学习和SplitFed Learning的安全性研究有限。本文对SplitFed Learning进行详细的安全分析。
背景:介绍联邦学习、分裂学习和SplitFed Learning的基本原理。联邦学习中客户端训练完整模型并与中央服务器共享更新;分裂学习将模型在客户端和服务器间分割,减少客户端计算负担和隐私风险;SplitFed Learning结合两者优点,客户端并行计算并与服务器交互 。
SplitFed上的中毒攻击
威胁模型:攻击者控制部分客户端,注入恶意更新,假设服务器诚实,重点研究客户端模型中毒攻击。
基于优化的攻击:描述基于优化的模型中毒攻击方法,通过制定优化问题生成恶意更新,以突破稳健聚合机制。同时介绍了修剪均值和中位数聚合规则及其对应的攻击优化框架。
实现:在多种图像数据集和模型上实现针对SplitFed的中毒攻击,包括CIFAR10和FEMNIST数据集,Alexnet、VGG11等模型。详细说明了数据集、模型、可重复性、评估指标和实验设置等方面。
分析
切割层和攻击有效性:切割层的选择对攻击效果影响巨大,客户端模型部分越小,攻击对整体准确率的影响越小。
防御的影响:比较修剪均值和中位数两种防御机制,发现中位数防御在所有设置下都比修剪均值防御表现更好。
IID与非IID数据:在非IID数据上进行攻击时,模型准确性受影响较大,但使用较低学习率和较小客户端模型部分可提高鲁棒性。
恶意客户端比例的影响:随着恶意客户端比例增加,模型准确率下降,且在相同恶意客户端比例下,联邦学习的准确率下降幅度比SplitFed Learning更大。
讨论和结论:提出可对恶意客户端发送的粉碎数据进行扰动以探索更多攻击空间。通过实验发现,SplitFed Learning在面对模型中毒攻击时比联邦学习更鲁棒,相同攻击在SplitFed中的效果更低。