news 2026/6/15 15:04:51

2020年中国大陆31省社区级教育水平空间栅格数据(涵盖122126个社区)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2020年中国大陆31省社区级教育水平空间栅格数据(涵盖122126个社区)

2020年中国大陆31省社区级教育水平数据(涵盖122126个社区)

数据介绍

获取:https://mp.weixin.qq.com/s/zWtGJgS_FUKrNDW3m91Kbw

教育水平是个人和社区社会经济地位的关键指标,但中国缺乏细空间分辨率的教育数据—— 现有数据仅能覆盖地级市(年度统计)或县 / 区级(十年一度 census),且互联网企业基于用户行为的估算存在 “黑箱操作、样本非代表性、数据私有化” 等缺陷,限制了精细化社会空间研究。

构建开放获取的社区级教育百分位排名数据集(相比“教育年限” 更能规避学位通胀、跨代可比性问题),为跨学科细粒度社会空间分析提供基础数据。

研究数据与核心方法

1. 核心指标定义

教育百分位排名:衡量个体在同出生队列中教育水平的相对位置(0-100 分),基于各队列教育构成计算,解决了不同年代教育水平绝对值不可比的问题(如 1935 年高中教育与 1995 年高中教育的社会地位差异)。

2. 数据来源

训练样本:6 波中国综合社会调查(CGSS 2010-2021),共 2730 个社区样本,覆盖全国代表性人群。多源建成环境数据:

功能设施:POI(零售、学校、医院等)、路网、建筑密度、植被覆盖(来源:高德、OpenStreetMap、MODIS 等);

街景元素:2081 万张百度街景图像(2013-2021),通过语义分割提取 17 类元素(天空、道路、车辆等);

活力指标:夜间灯光数据(VIIRS)、环境人口密度(LandScan);

物理混乱:手动标注2.3 万张街景图像,通过 YOLOv7 检测垃圾、涂鸦、占道等 3 类乱象;

人类感知:3.2 万张街景图像的财富 / 安全感知评分(40 名城市规划师标注,16 万次 pairwise 比较);

地形数据:NASA ASTER GDEM 的海拔和坡度。

3. 模型与流程

核心模型:XGBoost 回归器(结合贝叶斯超参数优化),通过 10 折交叉验证优化;

数据处理:采用MICE + 贝叶斯岭回归填充 896 个样本的缺失特征,提升模型稳定性;

空间范围:以社区/ 村委会为最小单元,覆盖社区及 1km 缓冲区的建成环境特征(该范围预测精度最优);

验证方案:① 测试集性能验证;② 地级市 / 县级与 census 数据相关性验证;③ 社区级与北京 LBS 数据、广州 census 数据对比验证。

三、主要研究结果

数据集规:2020 年中国社区级教育百分位排名数据集,涵盖 122126 个社区,覆盖中国大陆 31 个省份、326 个地级市、2337 个县级单位,人口覆盖率 85.5%,城市建设用地覆盖率 82.7%。

模型准确性:

测试集:R²=0.918(可解释 91.8% 的变异),MAE=3.808,RMSE=5.203;

宏观层面:地级市/ 县级与 census 教育年限的皮尔逊相关系数分别为 0.87、0.84;

社区层面:北京与LBS 低教育人口比例相关系数 - 0.873(强负相关),广州与 census 教育年限相关系数 0.836。

空间分布特征:核心城区教育百分位排名最高,其次为郊区副中心,远郊区最低;不同城市存在差异(如深圳呈多中心分布,广州呈单中心分布)。

四、数据集特点与应用价值

数据属性:以GeoTIFF格式,支持 ArcGIS、QGIS 及 Python Rasterio 处理,遵循 CC BY4.0协议。

应用场景:

城市社会结构分析(阶层分化、社会不平等、居住隔离);

社会空间现象研究(绅士化、犯罪率、住房市场动态);

政策制定支持(教育资源配置、公共服务优化)。

更新潜力:每3-5 年可通过更新 CGSS 样本和建成环境数据实现迭代。

五、局限与展望

局限:街景数据仅覆盖城市公共街道,封闭社区内部环境无法观测,可能影响部分社区预测精度;

展望:整合社交媒体图像等多渠道视觉数据,扩大空间覆盖范围,进一步提升细粒度预测能力。

数据信息

2020年预测的社区层面教育百分等级数据集以GeoTIFF(.tif)文件形式存储,采用WGS84投影。我们的数据集包含120,301个社区,覆盖中国97.9%的地级行政单位和81.8%的县级行政单位。全国版和省级版本均可下载。我们还发布了一个简化的表格版本(.xlsx),展示每个社区居民的平均教育百分等级。该表格包含社区名称、其质心的经纬度、所在的县级、地级和省级行政单位名称,以及其教育百分等级。

其中以河北省为例,解压获得tif数据

在ArcMap加载如下:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 13:50:43

中文信息抽取新选择:SiameseUIE开箱即用指南

中文信息抽取新选择:SiameseUIE开箱即用指南 想从一段新闻里快速揪出所有人物、公司和时间? 想在电商评论中自动识别“屏幕亮度”“充电速度”这些产品属性,再匹配上“太暗”“超快”这类评价? 想不写一行训练代码、不准备标注数…

作者头像 李华
网站建设 2026/6/10 14:01:28

Z-Image极速引擎实测:Jimeng AI Studio一键生成高清图片

Z-Image极速引擎实测:Jimeng AI Studio一键生成高清图片 1. 为什么这张图只等了3.2秒?——Z-Image Turbo的真实速度体验 你有没有试过在AI绘图工具里输入提示词,然后盯着进度条数到第17秒,心里默念“再快一点”?这次…

作者头像 李华
网站建设 2026/6/15 12:54:41

开题报告 springboot 鞋厂在线定制销售系统

目录 系统背景与意义技术架构核心功能模块创新点预期成果关键技术代码示例(MySQL实体类) 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 系统背景与意义 鞋厂在线定制销售系统基于…

作者头像 李华
网站建设 2026/6/14 11:57:52

小白必看:Qwen3-Reranker-0.6B常见问题解决方案

小白必看:Qwen3-Reranker-0.6B常见问题解决方案 1. 开篇就讲清楚:你遇到的问题,90%都出在这里 你是不是也这样? 刚下载好 Qwen3-Reranker-0.6B 镜像,跑通了 test.py,结果一换自己的 query 和文档&#xf…

作者头像 李华
网站建设 2026/6/9 14:25:28

Git-RSCLIP实战:如何用AI快速识别遥感图像中的河流与城市

Git-RSCLIP实战:如何用AI快速识别遥感图像中的河流与城市 在遥感图像分析领域,传统方法往往依赖人工标注或预设规则,面对海量卫星影像时效率低、泛化差、成本高。当一张覆盖数十平方公里的遥感图摆在面前,你是否曾想过&#xff1…

作者头像 李华
网站建设 2026/6/13 17:56:06

DEFORM-3D仿真中Part旋转中心轴的手动校准技巧

1. 为什么需要手动校准旋转中心轴 在DEFORM-3D仿真中,Part的旋转中心轴是一个关键参数,直接影响着模拟结果的准确性。特别是在搅拌摩擦焊接这类复杂工艺仿真中,搅拌头往往需要以特定角度倾斜进行焊接。软件自带的自动确定功能虽然方便&#…

作者头像 李华