news 2026/5/1 6:53:15

单细胞数据解读与获取示范

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
单细胞数据解读与获取示范

在单细胞测序数据分析中,barcodes、features和matrix是三个最核心的基础文件,它们共同构成了所有分析的基石。

特性维度细胞条形码 (barcodes,BC)表达矩阵 (Matrix)
​核心角色​​细胞身份证​​核心数据账本​
​功能定位​定位数据属于哪个细胞分析每个细胞中基因表达量有多少
​数据结构​表达矩阵的列名​ (Column Names)一个二维表格:行是基因,列是细胞,元素是表达量
​文件表现​通常为 barcodes.tsv文件,每行是一个条形码序列通常为 matrix.mtx文件(稀疏矩阵格式),存储非零表达值
​依赖关系​表达矩阵的列数由有效的细胞条形码数量决定表达矩阵的列标识完全依赖于细胞条形码文件

一、进入GEO官网:https://www.ncbi.nlm.nih.gov/geo/

在GEO(Gene Expression Omnibus)数据库中下载单细胞数据时,最常见的数据存储和提供形式主要有以下四种类型:


  1. 10x Genomics 标准格式(最主流)

在GEO的数据集中,我们通常会找到一个包含以下三个核心文件的文件夹(通常以 *_filtered_feature_bc_matrix.tar.gz或类似名称的压缩包提供):

barcodes.tsv(.gz): 包含所有检测到的细胞条形码(Cell Barcode),每个条形码代表一个可能的细胞。

features.tsv(.gz)​ 或 genes.tsv(.gz): 包含所有被检测的基因(或转录本、抗体标签)的标识符和名称。

matrix.mtx(.gz): 以稀疏矩阵格式存储的基因表达计数矩阵,行对应基因,列对应细胞。


  1. H5 格式(高效二进制格式)

这是一种用于存储大规模数据的二进制文件格式。在单细胞上下文中,它通常是将上述10x标准格式的三个文件整合到了一个单一的 .h5文件中。

典型命名: *_filtered_feature_bc_matrix.h5

优势: 文件单一,便于管理和传输,存储效率高。


  1. R 数据文件(可直接使用的分析对象)

部分数据提交者会将已初步处理好的单细胞数据直接保存为R语言特有的数据文件格式,供其他研究者快速载入。

.rds文件: 存储单个R对象(如一个Seurat对象或表达矩阵)。使用 readRDS()函数读取。

.RData或 .rda文件: 可存储一个或多个R对象。使用 load()函数读取,对象会被载入当前工作环境。

优势: 读取速度极快,且能保留完整的对象结构和中间分析结果。


  1. 压缩文本矩阵(通用表格格式)

这是一种比较传统和通用的数据提供方式,将表达矩阵保存为纯文本表格,并进行压缩以减小体积。

格式: 通常是 .txt.gz或 .csv.gz文件。

内容: 行是基因,列是细胞(或样本),表格内的值为表达量。有时也可能提供转置后的格式(行是细胞,列是基因)。

如何读取: 可以使用 data.table::fread()、read.delim()等函数读取,或在Excel中打开(不推荐用于大型数据)。读取后通常需要转换为矩阵或数据框,才能用于创建Seurat对象。


二、以”GSE234527”为例子:读取一个10× Genomics格式文件

1、搜索“GSE234527”:

2、在补充材料里下载(点击“custom”)


3、在桌面解压缩,分类整理:数据来自五个不同样本,分成五类,每个样本包含多个细胞
修改前:

修改后:


*修改的目的是为了更好地用R语言进行数据处理
详细过程请参考:https://www.bilibili.com/video/BV1Ct421j7X3?spm_id_from=333.788.videopod.sections&p=4
(B站:生信幻想家——单细胞数据分析)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 6:52:58

Z-Image-Turbo与HuggingFace集成:直接加载远程模型权重实战

Z-Image-Turbo与HuggingFace集成:直接加载远程模型权重实战 Z-Image-Turbo 是一款基于扩散模型的图像生成工具,具备强大的本地化部署能力。其核心优势之一在于能够无缝对接 HuggingFace 平台上的公开模型权重,无需手动下载即可在运行时直接加…

作者头像 李华
网站建设 2026/5/1 6:49:47

Z-Image-Turbo文档可视化:用流程图展示启动与访问全过程

Z-Image-Turbo文档可视化:用流程图展示启动与访问全过程 Z-Image-Turbo 是一个专注于图像生成的高效 AI 工具,其 UI 界面设计简洁直观,适合各类用户快速上手。整个操作流程从模型加载到图像生成,再到历史记录管理,都可…

作者头像 李华
网站建设 2026/4/24 18:17:38

TurboDiffusion API封装:构建私有化视频生成服务接口

TurboDiffusion API封装:构建私有化视频生成服务接口 1. TurboDiffusion是什么 TurboDiffusion是由清华大学、生数科技与加州大学伯克利分校联合研发的高效视频生成加速框架。它基于Wan2.1和Wan2.2系列模型,通过SageAttention、SLA(稀疏线性…

作者头像 李华
网站建设 2026/4/18 16:24:20

unet image Face Fusion成本优化:轻量级GPU即可运行部署案例

unet image Face Fusion成本优化:轻量级GPU即可运行部署案例 1. 背景与价值:为什么要做低成本人脸融合部署? 在AI图像处理领域,人脸融合(Face Fusion)一直是热门应用之一。无论是用于创意内容生成、社交娱…

作者头像 李华
网站建设 2026/4/25 16:05:41

学霸同款2026 TOP10 AI论文平台:本科生毕业论文全攻略

学霸同款2026 TOP10 AI论文平台:本科生毕业论文全攻略 2026年学术写作工具测评:为何需要一份权威榜单? 随着AI技术在学术领域的深度渗透,越来越多的本科生开始借助智能写作工具提升论文效率。然而,面对市场上琳琅满目的…

作者头像 李华
网站建设 2026/4/30 12:53:37

获取私有字段不再难,手把手教你用反射实现对象“透视”

第一章:反射机制概述与私有字段访问难题 反射(Reflection)是程序在运行时检查、修改自身结构与行为的能力。它允许代码动态获取类型信息、调用方法、读写字段,甚至绕过编译期可见性约束。在 Go、Java、C# 等静态语言中&#xff0c…

作者头像 李华