← 返回首页

多层 PII 检测引擎技术白皮书

Argus Gateway · 版本 1.0 · 2026-04-18 · Apache 2.0

Argus Gateway 的核心差异化技术 — 基于开源 argus-redact 构建的四层级联 PII 检测引擎。 在保持亚毫秒级基线延迟的同时,实现 44 种 PIPL canonical PII 类型的全面覆盖。全程本地部署,数据零出境。

完整技术文档: 本页为白皮书摘要版(适合打印/分发)。完整版含实现细节、代码示例和学术引用,见 中文完整版 / English full version

1. 为什么需要四层

业界常见的 PII 检测方案采用"正则 + NER"两层架构,存在三个结构性缺陷:

  1. 中文人名误判率高 — "张明"既是人名也是常用词,纯正则误判率 30-40%
  2. 隐含 PII 无法覆盖 — 宗教信仰、薪资、诊断等需要语义理解
  3. 缺乏误判控制机制 — 正则和 NER 的误判独立累积

Argus Gateway 的四层栈逐一解决这些问题:

请求文本 │ ▼ ┌──────────────────────────────────────────────────────┐ │ L1 正则层 < 5ms │ │ 26 种结构化 PII + 校验算法 (MOD11/Luhn/MOD31) │ │ 确定性匹配,零假阴性 │ ├──────────────────────────────────────────────────────┤ │ L1b 证据评分层 < 5ms │ │ 中文人名候选 → ±20 字符上下文窗口 → 多信号加权评分 │ │ 阈值 0.8:确认 / 推迟到 L2 │ ├──────────────────────────────────────────────────────┤ │ L2 NER 层 20-100ms │ │ chinese-roberta-wwm-ext 微调 (CLUENER + MSRA NER) │ │ 8 种语义 PII:人名 / 地址 / 组织 / 年龄 / 日期... │ ├──────────────────────────────────────────────────────┤ │ L3 语义层 500ms-2s │ │ 本地 Ollama (Qwen2.5:3b) — 13 种隐含 PII │ │ 仅 mode=auto + L2 检出 ≥1 + Ollama 可用时触发 │ └──────────────────────────────────────────────────────┘ │ ▼ 脱敏文本 + 还原密钥

2. L1b 证据评分 — 核心创新

L1b 是 Argus Gateway 区别于所有竞品的核心创新层。对每个中文人名候选,在 ±20 字符上下文窗口内收集多个弱信号:

信号权重示例
上下文前缀+0.6"客户张三" / "我叫张三"
尊称后缀+0.5"张三先生" / "张三教授"
PII 后缀+0.5"张三的手机号"
PII 临近 (≤50字符)+0.5同段有手机号 / 身份证号
PII 临近 (51-150字符)+0.3不同段有其他 PII

最终置信度 = min(基础分 + Σ证据权重, 1.0)。≥ 0.8 确认为人名;< 0.8 推迟到 L2 NER。 附加机制:负面词典过滤 / 吞噬检测 / 意图感知阈值 / 助词剥离。

3. 44 种 PII 类型覆盖

层级类型数延迟代表性类型
L1 正则26< 5ms手机号 / 身份证 / 邮箱 / 银行卡 / 护照 / IBAN / 信用卡 / 车牌 / IP / MAC
L2 NER820-100ms中文人名 / 英文人名 / 地址 / 医院 / 出生日期 / 年龄 / 国籍 / 民族
L3 语义13500ms-2s性别 / 宗教 / 政治 / 犯罪 / 薪资 / 诊断 / 用药 / 生物特征 / 未成年人

其中 14 种中国特有 PII(身份证 18 位 / 15 位 / 护照 / 军官证 / 港澳台通行证 / 社保卡 / 驾驶证 / 居住证 / 户口簿 / 出生医学证明 / 统一社会信用代码 / 车牌 / 银行卡)是核心差异化。

4. 合规 Profile

Profile激活类型覆盖法规典型客户
default12 种基础直接标识符通用
pipl38 种《个人信息保护法》含敏感个人信息中国企业
gdpr28 种GDPR 含特殊类别 (Art.9)欧盟业务
hipaa13 种HIPAA PHI 标识符医疗健康

5. 性能基线

模式1KB 延迟吞吐 (CPU)硬件要求
fast (L1+L1b)< 1ms~200 req/s1 核 / 512MB
ner (L1+L1b+L2)20-25ms~50 req/s2 核 / 2GB
auto (全四层)500ms-1s~5 req/s4 核 / 8GB

全路径代理延迟(含认证/限流/脱敏/转发/还原/审计):p50 = 15.6ms, p95 = 20.6ms, p99 = 24.1ms (fast 模式, aarch64 Cortex-A76)。

6. 横向对比

维度Argus GatewayAISIXLiteLLMPresidioOpenAI Moderation
检测层数4 层2 层2 层2 层1 层
中文人名误判控制L1b 证据评分未公开
隐含 PIIL3 本地 LLM部分 (Cloud)
中文 PII14 种特有未声明英文英文英文
数据位置全部本地本地本地/Cloud本地Cloud
代理性能~5ms<1ms (Rust)~10ms~15msN/A

性能说明:Argus Gateway 在代理延迟上不如 AISIX(Rust 结构性优势),但差异化在 PII 检测深度 — L1b 证据评分和 L3 本地 LLM 是竞品结构性缺失的能力。

7. 部署

# 最小安装 — L1 正则
pip install argus-redact

# 中文 NER — L1 + L2
pip install argus-redact[zh]

# 完整 — L1 + L2 + L3 + 结构化脱敏
pip install argus-redact[full]

# Docker 一键部署
docker compose up -d
核心开源:argus-redact 和 Argus Gateway 均以 Apache 2.0 开源。 argus-redact · Argus Gateway