统计和占比分析-编程实验室

## 问题1: 现在有一张 country_populartion 表，包含：id，country，city，popularation 字段，请使用 sql 和 Python 统计每个城市的人口占比，统计指定城市的人口占比？

sql

"SELECT
country,
city,
population,
ROUND(
(population * 100.0) / SUM(population) OVER(), 2
) AS percentage
FROM country_population
ORDER BY population DESC;
"

python

"import pandas as pd

# 假设 df 是从数据库读取的 DataFrame
# df = pd.read_sql("SELECT * FROM country_population", connection)

# 计算总人口
total_pop = df['population'].sum()

# 计算占比
df['percentage'] = (df['population'] / total_pop) * 100
df['percentage'] = df['percentage'].round(2) # 保留两位小数

print(df[['country', 'city', 'population', 'percentage']])

## 问题2.现在有一张 country_populartion 表，包含：id，country，city，popularation 字段，统计指定城市的人口占比？

sql

"-- 方案 A：将指定城市合并为一行计算总占比
SELECT
'Top_Cities' AS group_name,
SUM(population) AS total_pop,
ROUND(
(SUM(population) * 100.0) / (SELECT SUM(population) FROM country_population), 2
) AS percentage
FROM country_population
WHERE city IN ('北京', '上海', '深圳');

-- 方案 B：列出指定城市，并计算它们各自及合计的占比
SELECT
city,
population,
ROUND(
(population * 100.0) / (SELECT SUM(population) FROM country_population), 2
) AS percentage
FROM country_population
WHERE city IN ('北京', '上海', '深圳');

python

import pandas as pd

# 假设 df 是原始数据
# df = pd.read_sql("SELECT * FROM country_population", connection)

# 定义你感兴趣的指定城市列表
target_cities = ['北京', '上海', '深圳']

# 筛选出指定城市的数据
df_target = df[df['city'].isin(target_cities)].copy()

# 计算总人口（用于做分母）
total_population = df['population'].sum()

# 计算每个指定城市的占比
df_target['percentage'] = (df_target['population'] / total_population) * 100
df_target['percentage'] = df_target['percentage'].round(2)

# 如果你想计算这“几个城市”加起来的总占比：
combined_percentage = df_target['population'].sum() / total_population * 100
print(f"指定城市（{target_cities}）总人口占比: {combined_percentage:.2f}%")

# 显示各个城市的占比详情
print(df_target[['city', 'population', 'percentage']])

3.统计每个国家人口总数排名前二的城市

sql

"SELECT
country,
city,
population
FROM (
SELECT
country,
city,
population,
ROW_NUMBER() OVER (PARTITION BY country ORDER BY population DESC) AS rn
FROM country_population
WHERE population IS NOT NULL -- 排除空值
) ranked
WHERE rn <= 2
ORDER BY country, rn;
"

python

"import pandas as pd

# 假设 df 是从数据库读取的数据

# df = pd.read_sql("SELECT * FROM country_population", connection)

# 1. 数据清洗：去除人口为空的行

df = df.dropna(subset=['population'])

# 2. 按国家分组，组内按人口降序排序，并生成排名

df['rank'] = df.groupby('country')['population'].rank(method='first', ascending=False)

# 3. 筛选排名前2的城市

result = df[df['rank'] <= 2]

# 4. 选择需要展示的列并排序

result = result[['country', 'city', 'population', 'rank']].sort_values(['country', 'rank'])

print(result)

从零开始搭建VSCode Fortran开发环境：新手避坑指南

从零开始搭建VSCode Fortran开发环境：新手避坑指南【免费下载链接】vscode-fortran-support Fortran language support for Visual Studio Code 项目地址: https://gitcode.com/gh_mirrors/vs/vscode-fortran-support 你是否曾经在配置Fortran开发环境时感到…

李华

VibeThinker-1.5B部署教程：AIME24高分表现背后的GPU优化

VibeThinker-1.5B部署教程：AIME24高分表现背后的GPU优化 1. 引言 1.1 小参数模型的推理潜力近年来，大语言模型在数学推理与代码生成任务中展现出惊人能力，但其高昂的训练与推理成本限制了广泛应用。在此背景下，VibeThinker-1.…

李华

DeepSeek-R1避坑指南：本地推理常见问题全解

DeepSeek-R1避坑指南：本地推理常见问题全解 1. 引言：为何选择DeepSeek-R1 (1.5B) 进行本地部署？ 随着大模型在逻辑推理、代码生成和数学推导等任务中的广泛应用，越来越多开发者希望将高性能模型部署于本地环境。然而&#xff0c…

李华

FontForge完全指南：从零开始掌握免费字体设计

FontForge完全指南：从零开始掌握免费字体设计【免费下载链接】fontforge Free (libre) font editor for Windows, Mac OS X and GNULinux 项目地址: https://gitcode.com/gh_mirrors/fo/fontforge FontForge作为一款功能强大的开源字体编辑器，为…

李华

SerialPort通信建立：手把手完成第一个串口连接

手把手实现第一个串口连接：从零开始掌握 SerialPort 通信你有没有遇到过这样的场景？手头有一块开发板，连上电脑后却不知道如何读取它发出来的数据；或者想用 JavaScript 写一个简单的传感器监控程序，却发现“串口”这个…

李华

Qwen2.5-7B免费部署方案：社区镜像一键拉取实操教程

Qwen2.5-7B免费部署方案：社区镜像一键拉取实操教程通义千问 2.5-7B-Instruct 是阿里 2024 年 9 月随 Qwen2.5 系列一同发布的 70 亿参数指令微调模型，定位“中等体量、全能型、可商用”。该模型凭借出色的性能表现和广泛的生态支持，迅速成为…

李华