分布式锁的可用性与切换效率探讨-编程实验室

不可否认，在多核时代，多线程并发是常态，分布式锁服务通过持续心跳来保证锁的健壮性，让用户不用投入很多精力关注丢锁，但也有可能异常的用户进程持续占据锁。

我们也曾经遇到过该类场景，因为机器 load 高，硬件问题等原因，设备上的进程假死但其中仍存在部分线程在工作，比如锁的心跳维护线程依然正常运行，这样锁节点仍然是被假死进程占据着，且无法被其他进程抢占。针对该场景，为了保证锁最终可以被调度，提供了可以安全释放锁的会话加黑机制。

当用户需要将发生假死的进程持有的锁释放时，可以通过查询会话信息，并将会话加黑，此后，心跳将不能正常维护，最终导致会话过期，锁节点被安全释放。这里我们不是强制删除锁，而是选用禁用心跳的原因如下:

a. 删除锁操作本身不安全，如果锁已经被其他人正常抢占，此时删锁请求会产生误删除。
b. 删除锁后，持有锁的人会话依然正常，它仍然认为自己持有锁，会打破锁的互斥性原则。

切换效率：

当进程持有的锁需要被重新调度时，持有者可以主动删除锁节点，但当持有者发生异常(如进程重启，机器宕机等)，新的进程要重新抢占，就需要等待原先的会话过期后，才有机会抢占成功。默认情况下，分布式锁使用的会话生命期为 50 秒，当持有锁的进程意外退出后(未主动释放锁)，最长需要经过 50 秒锁节点才可以被再次抢占。

要提升切换精度，本质上要压缩会话生命周期，同时也意味着更快的心跳频率，对后端更大的访问压力。我们通过对后端进行优化，使得会话周期可以进一步压缩，提升锁的切换效率。

例如：目前给 TableStore 提供 30 秒的分布式锁，同时也通过提供 Restful 接入方式，让用户可以自定义会话时长及控制心跳发送，同时我们会将锁的精度进一步提高到 20 秒之内。
结合具体的业务场景，例如守护进程发现锁持有进程挂掉的场景，提供锁的 CAS 释放操作，使得进程可以零等待进行抢锁。比如利用在锁节点中存放进程的唯一标识，强制释放已经不再使用的锁，并重新争抢，该方式可以彻底避免进程升级或意外重启后抢锁需要的等待时间。

从OFO腐败案看互联网创新与工匠精神的平衡之道

1. 从一场“爆雷”说起：当创新梦想撞上管理黑洞2020年初，几家头部互联网公司密集发布的反腐公告，像一盆冷水浇在了不少从业者的头上。阿里、美团、小米、360……这些名字背后，是无数年轻人曾经向往的“改变世界”的舞台。公告里那…

李华

开源增强工具完全指南：三步免费解锁WeMod高级功能

开源增强工具完全指南：三步免费解锁WeMod高级功能【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 你是否曾经面对WeMod的高级功能&#xff0…

李华

51单片机双机串口通信实战套件：带LCD实时状态显示、矩阵键盘交互、C#上位机监控与Proteus一键仿真

本文还有配套的精品资源，点击获取简介：一套开箱即用的51单片机双机串口通信学习资源，包含两套独立可烧录的Keil工程（1.hex和2.hex），支持A/B两块STC89C52或兼容芯片板之间稳定双向通信。硬件功能覆盖LCD…

李华

死锁：两个程序员抢一个会议室，谁也不让谁

死锁：两个程序员抢一个会议室，谁也不让谁话说某公司有两个程序员：小明和小刚。周一早上，两人都想开会。小明占了会议室A，想用会议室B；小刚占了会议室B，想用会议室A。两人都在等对方让出会议室，谁也不肯先放手。于是……会议开不成了，两个人就这样僵持着，大眼瞪…

李华

从‘整除关系’到‘包含关系’：图解哈斯图中极大元、上界等概念的本质与通用判断法

从‘整除关系’到‘包含关系’：图解哈斯图中极大元、上界等概念的本质与通用判断法理解哈斯图中的核心概念，关键在于剥离具体偏序关系的表象，抓住图论拓扑的本质。本文将用双案例对比法，通过整除关系与集合包含关系两个经典场景&a…

李华

基于 CANN ops-nn 神经网络算子库的昇腾NPU深度学习算子开发实战指南

前言在异构计算领域，华为昇腾NPU凭借强大的矩阵运算能力和高带宽片上存储，已经成为国产AI推理与训练的重要硬件基座。而在昇腾生态中，CANN（Compute Architecture for Neural Networks）作为连接上层框架与底层硬件的核…

李华