构建安全知识图谱：CVE、CWE、CPE、CAPEC与ATTCK数据源整合与实战应用-编程实验室

1. 安全数据源整合的必要性

在网络安全领域，CVE、CWE、CPE、CAPEC和ATT&CK这五大标准数据源就像五本不同领域的专业词典。CVE记录已知漏洞，CWE描述软件弱点类型，CPE标识产品信息，CAPEC归纳攻击模式，ATT&CK则系统化攻击者行为。但单独使用任一本词典都只能看到安全威胁的片面信息，就像盲人摸象。

我曾在某次渗透测试中遇到典型场景：通过扫描发现目标系统存在CVE-2021-44228漏洞（Log4j），但仅知道漏洞编号远远不够。需要查CWE了解其根本原因是输入验证缺陷（CWE-20），通过CPE确认受影响的具体产品版本，参考CAPEC-242理解攻击者如何利用环境变量注入攻击，最后在ATT&CK框架中定位到TA0002执行阶段的技术T1190。这种跨数据源的关联分析才能真正评估风险。

2. 数据获取与预处理实战

2.1 CVE数据下载与解析

NVD提供的CVE数据采用JSON格式，按年份分文件存储。用Python的requests和gzip库可以轻松实现批量下载：

import requests import gzip import json def download_cve(year): url = f"https://nvd.nist.gov/feeds/json/cve/1.1/nvdcve-1.1-{year}.json.gz" response = requests.get(url, stream=True) with open(f"nvd_{year}.json.gz", "wb") as f: for chunk in response.iter_content(chunk_size=128): f.write(chunk) with gzip.open(f"nvd_{year}.json.gz", "rb") as f: return json.loads(f.read().decode("utf-8"))

关键字段提取技巧：

cve.CVE_data_meta.ID获取CVE编号
cve.problemtype.problemtype_data关联的CWE编号
configurations.nodes.cpe_match提取影响的CPE列表
impact.baseMetricV3.cvssV3.vectorString获取CVSS v3评分

2.2 CWE弱点类型数据整合

MITRE提供的CWE数据是XML格式，需要特别处理层级关系：

from xml.etree import ElementTree as ET def parse_cwe(xml_path): tree = ET.parse(xml_path) root = tree.getroot() weaknesses = {} for weakness in root.findall(".//Weakness"): w_id = weakness.get("ID") weaknesses[w_id] = { "name": weakness.get("Name"), "description": weakness.find("Description").text, "related_cwes": [ rel.get("CWE_ID") for rel in weakness.findall(".//Related_Weakness") ] } return weaknesses

实际使用中发现，CWE的Related_Weaknesses字段特别重要，它构建了弱点类型的继承关系。比如CWE-89（SQL注入）是CWE-20（输入验证不充分）的子类，这种层级关系对风险评估至关重要。

3. 构建关联知识图谱

3.1 图数据库建模方案

使用Neo4j构建知识图谱时，我推荐以下数据模型：

(:CVE)-[:HAS_WEAKNESS]->(:CWE) (:CVE)-[:AFFECTS]->(:CPE) (:CAPEC)-[:EXPLOITS]->(:CWE) (:ATTACK_TECHNIQUE)-[:MAPPED_TO]->(:CAPEC)

用Py2neo实现的示例代码：

from py2neo import Graph, Node, Relationship graph = Graph("bolt://localhost:7687", auth=("neo4j", "password")) def create_cve_node(cve_data): cve_node = Node("CVE", id=cve_data["id"], description=cve_data["description"], cvss=cve_data["cvss"] ) graph.create(cve_node) for cwe_id in cve_data["cwe_ids"]: cwe_node = graph.nodes.match("CWE", id=cwe_id).first() if not cwe_node: cwe_node = Node("CWE", id=cwe_id) graph.create(cwe_node) graph.create(Relationship(cve_node, "HAS_WEAKNESS", cwe_node))

3.2 关联关系挖掘技巧

在项目中验证过的实用关联方法：

CVE-CWE权重计算：根据CVSS评分和CWE在攻击链中的关键程度赋予不同权重
CPE版本匹配算法：使用cpe:2.3:a:vendor:product:version格式中的通配符处理版本范围
ATT&CK-CAPEC映射：通过external_references字段中的CAPEC编号建立跨框架关联

曾遇到一个有趣案例：某IoT设备的CVE-2020-10148漏洞，通过知识图谱自动关联到ATT&CK的T1195供应链攻击技术，这是因为其CPE信息显示该设备使用存在后门的第三方组件。

4. 实战应用场景

4.1 自动化风险评估系统

基于知识图谱构建的风险评估流程：

输入目标系统的CPE清单
自动匹配已知CVE漏洞
通过CWE关联评估漏洞可利用性
根据CAPEC和ATT&CK数据预测攻击路径
输出带权重的风险矩阵

def assess_risk(target_cpes): risk_scores = [] for cpe in target_cpes: query = """ MATCH (cpe:CPE {id: $cpe})<-[:AFFECTS]-(cve:CVE)-[:HAS_WEAKNESS]->(cwe:CWE) OPTIONAL MATCH (cwe)<-[:EXPLOITS]-(capec:CAPEC) OPTIONAL MATCH (capec)<-[:MAPPED_TO]-(tech:ATTACK_TECHNIQUE) RETURN cve.id, cve.cvss, collect(DISTINCT cwe.id), count(DISTINCT capec), count(DISTINCT tech) """ results = graph.run(query, cpe=cpe).data() for r in results: score = r["cve.cvss"] * (1 + 0.1*len(r["collect(DISTINCT cwe.id)"])) risk_scores.append({ "cpe": cpe, "cve": r["cve.id"], "risk_score": round(score, 2), "attack_paths": r["count(DISTINCT tech)"] }) return sorted(risk_scores, key=lambda x: x["risk_score"], reverse=True)