常用命令分类目录:pwd、ls、cd、mkdir、rmdir文件:touch、cp、mv、rm -rf查看:cat、more、less、head、tail查找:grep、find进程:ps -ef、kill -9磁盘:df -h、du -sh权限:chmod、chown
grep 作用过滤文本关键字,工作常用于日志筛选报错、排查异常。
tail -f实时跟踪日志文件末尾,线上实时看程序运行日志、排查故障必备。
查看进程、过滤 Java 进程ps -ef 查看全量进程;搭配管道 grep java 过滤 Java 大数据进程。
chmod、chownchmod 修改文件读写执行权限;chown 修改文件所属用户和用户组。
管道 | 作用把前一个命令的输出,作为后一个命令的输入;例子:ps -ef | grep java、ls -l | less。
tar 打包解压-zcvf 打包压缩;-zxvf 解压;常用于日志、项目文件打包迁移。
五、数据仓库理论 国企必考
- 数仓四层分层 ODS/DWD/DWS/ADS
- ODS 原始层:同步业务库原始数据,不做处理
- DWD 明细层:清洗、去重、脏数据过滤,保留明细粒度
- DWS 汇总层:按用户 / 日期 / 业务维度聚合,形成宽表
- ADS 应用层:面向业务报表、看板、指标展示
- 事实表、维度表
- 事实表:存业务度量、数值、行为记录,数据量大、变化快
- 维度表:存描述信息(时间、地区、产品、用户),属性固定
- 星型模型、雪花模型
- 星型:一张事实表直接关联所有维度表,结构简单、查询快,工作最常用
- 雪花:维度表再拆分子维度,层级多、复杂度高,少用
缓慢变化维 SCD维度属性会随时间变化;三种处理:直接覆盖、保留历史新增一行、新增标记有效期。
数仓 与 业务数据库区别
- 业务库:面向交易、实时增删改、支持高并发
- 数仓:面向分析、只读为主、海量离线数据、做统计指标
- 数仓建模核心思想面向主题、分层隔离、维度建模、数据统一口径、清洗加工后供业务分析。