P02:金融数据获取、管理与初步分析

作者

李贤记

发布于

2026年4月8日

本电子书为数据科学与金融课程作业 P02 的分析报告,涵盖 A 股市场 10 只股票的数据获取、清洗、存储、描述统计、可视化与 CAPM 回归分析全流程。

0.1 选股概览

从 A 股市场选取 10 只股票,覆盖银行、汽车、白酒、房地产、能源、通讯、物流共 7 个行业,均为各行业辨识度高、数据完整的龙头公司。

代码 名称 行业 选股理由
600036 招商银行 银行 股份制银行龙头,盈利能力突出
601398 工商银行 银行 全球资产规模最大的银行
002594 比亚迪 汽车 新能源汽车销量龙头
600519 贵州茅台 白酒 A 股市值标杆,消费行业代表
000858 五粮液 白酒 白酒行业第二梯队龙头
000002 万科A 房地产 老牌房企龙头
601857 中国石油 能源 国内最大油气生产商
600028 中国石化 能源 炼化一体龙头
000063 中兴通讯 通讯 5G 设备核心供应商
002352 顺丰控股 物流 快递行业高端市场龙头

0.2 主要发现

  1. 比亚迪年化收益率最高(+30.6%),万科A最低(-32.4%),行业配置是 2020-2026 年收益的主要驱动力
  2. 所有股票的收益率分布均呈尖峰厚尾特征,正态分布假设不成立
  3. 同行业内相关性显著高于跨行业,支持行业分散化配置策略
  4. CAPM Beta 与周期性 vs 防御性行业分类高度吻合
  5. 仅比亚迪(正 Alpha)和万科A(负 Alpha)存在统计显著的异常收益

0.3 数据来源

数据类型 来源 接口 说明
股票行情 baostock query_history_k_data_plus() 后复权日度数据,2020-01 至 2026-04
市场指数 baostock query_history_k_data_plus() 沪深 300 + 中证 500
CPI 同比 akshare macro_china_cpi_yearly() 月度,70 条记录
M2 同比 akshare macro_china_money_supply() 月度,74 条记录
财务指标 baostock query_profit_data() ROE 和净利润率,10×5 年

0.4 如何运行

git clone https://github.com/599625523-sketch/ex_p02.git
cd ex_p02/dshw-p02
pip install -r requirements.txt

依次运行三个 Notebook:01_download.ipynb02_clean.ipynb03_analysis.ipynb