微众银行杨强：针对中小微企业信贷评审数据稀缺等问题，联邦学习机制可提升模型的有效性

2022-11-14 15:39:22 来源：21世纪经济报道胡天姣编辑：

近年来，联邦学习（Federated Learning）与安全多方计算、区块链、可信执行环境（TEE）成为隐私计算的技术路径。

金融是联邦学习主要探索应用领域。联邦学习提供金融风控、金融营销、评分卡等业务场景的多方数据源联合建模服务。随着行业应用的深化，可用性、效率等多维度被纳入整体技术框架，“可信联邦学习”新范式应运而生。

(相关资料图)

“需要在‘安全与效率’权衡中推演出一个恒定定律。”微众银行首席人工智能官杨强在近日采访中对记者表示，根据论文《联邦学习中隐私与模型性能没有免费午餐定理》，通过隐私与模型性能的“No-free-lunch”安全-收益恒定定律，可实现可信联邦学习中安全、效用、效率三者的协调。

杨强认为，“法律法规与技术有机且无缝的结合”是未来金融行业需要注意的关键。此外，如何设计巧妙的算法，使联邦学习能够应付可能的安全隐患是未来大规模运用至金融场景的重要挑战。

数据“安全-效用-效率”权衡间的保护机制

中国与美国正在引领全球联邦学习发展。据统计，在联邦学习领域，全球高被引论文领先的机构依次是谷歌、卡内基·梅隆大学、北京邮电大学及微众银行。

联邦学习是一种分布式机器学习技术，以实现“数据可用不可见”、“数据不动模型动”的应用新范式。

杨强表示，根据设定的四个维度（威胁的源头、威胁性质、隐私窥探的有意/无意及保护措施的严格程度），微众银行现正与各机构合作，推动基于“No-free-lunch”定律的新标准建设。

作为一种新范式，“可信联邦学习”增强了传统的联邦学习，使得在保证原始数据的隐私安全和模型的可证安全外，还保证学习过程的高效率和模型的可用性，模型决策机制的可解释性，模型的可溯源和审计监管。

“需要设计一种保护机制，在‘安全与效率’权衡中推演出一个恒定定律。”杨强指出，根据《联邦学习中隐私与模型性能没有免费午餐定理》，通过隐私与模型性能的“No-free-lunch”安全-收益恒定定律，可实现可信联邦学习的安全、效用、效率三者的协调，在保证数据隐私保护的同时，也最大化模型效用和学习效率。

“在中小微企业信贷场景中，针对中小微企业信贷评审数据稀缺、不全面、历史信息沉淀不足等问题。”杨强说，通过联邦学习机制，可在确保数据提供方数据安全以及隐私保护的情况下，为银行融汇企业经营数据、税务数据等多源信息，丰富建模特征体系，共同提升模型的有效性。

此外，通过将风险前置，从风险源头切入，隐私计算还可帮助金融机构过滤信贷黑名单客户。

杨强表示，所有金融场景的应用均有其共性（如风控、销售、服务），也有其特殊性（如偏重线上或线下，营销还是反欺诈），对此，可以设计不同的联邦学习引擎，最大化安全与效率的平衡。

巧妙打造“数据安全锁”

央行《金融科技发展规划（2022-2025年）》明确提出，加强金融科技伦理建设，深化数字技术金融应用，健全安全与效率并重的科技成果应用体制机制。

《金融领域科技伦理指引》也要求，金融机构充分获取用户授权，以最小必要原则采集数据，使用数据秉持“专事专用”原则，严格采取防护措施，依法合规共享数据。

杨强称，越来越多的金融行业在迈向数字化与智能化，二者联合起来可被称为“数智化”。数智化的一个重要驱动因素为数据要素流通是，即数据由一个地点流至另一个地点，这由此构成了金融业另一个发展特征：数据的可交易化。

在“流动”中才能更好地发掘应用数据的价值。杨强表示，在数据交易所内，所有数据均会被定价，且受到知识产权等认证。

“上述特点构成了未来金融生态的重要特征。他强调，通过提升数据的安全与可交易性，联邦学习将持续对金融业态的发展发挥关键作用。

针对目前联邦学习中同态加密、差分隐私等隐私保护方法可能带来计算和通信开销大、模型性能大幅下降的弊端，论文《FedCG: 联邦条件对抗生成网络》提出在横向联邦学习中将生成对抗网络与分割学习相结合，有效保护了参与方的数据隐私，同时保障了各参与方模型性能的竞争力。该论文提出了名为FedIPR的首个联邦学习模型版权验证框架。

“如何使技术与法律法规有机未来”是未来金融行业需要注意的关键。杨强指出，现有的数据安全法与相关规制一部分得以经由技术实现，另一部分却需要来自法律、法规的保障。“二者的有机、无缝结合是微众银行目前正在进行的尝试。”他补充，以增强整体决策过程的可解释性与透明度，同时更具可监管、可问询及可追踪性。

联邦学习也可被视为促使AI更有效落地的一项技术。“它是AI发展的下一站，也同样是大数据发展的下一站。”杨强说，其安全可信的数据保护措施下连接数据孤岛的模式，将不断推动全球AI技术的创新与飞跃。随着联邦学习在更大范围和更多行业场景中的渗透及应用，促进企业级数据合作。

他称，No-Free-lunch是一个亟待突破的瓶颈。数年前，计算机行业有过如多方安全计算等类似探索，但此类探索所产生的数据“安全锁”很难被打开，难以激发大规模的数据运用。“设计出巧妙算法，使联邦学习能应对可能的安全隐患是其未来大规模运用至金融场景的关键。”

关键词：微众银行