01 Python基础

欢迎开启Python编程之旅

各位同学，欢迎来到《商业大数据分析与应用》的第一堂课。

这门课专为没有编程背景、但对商业世界充满好奇与洞察力的未来领导者设计。

我们的教学哲学：聚焦应用，而非理论

我们将摒弃复杂的底层计算机理论。

我们的核心是：如何利用Python这一强大而友好的工具，解决金融、市场、管理中的实际问题。

你将学会像分析师一样思考，用数据驱动决策。

成绩构成 💯

平时成绩 100%，包含以下内容：

课堂表现（10%）: 微助教平台。
练习作业（10%）: 微助教平台。
上机操作（50%）: 智信云平台。
课堂测验（30%）：智信云平台，第16周课堂进行。

为何商业分析选择Python？

三大核心优势:

语法简单: 接近自然语言，上手快，让你专注于业务逻辑。
生态强大: 拥有NumPy, Pandas, Matplotlib等海量顶级数据分析库。
社区活跃: 遇到任何问题，都能快速找到解决方案和学习资源。

本讲内容路线图

基础数据结构: 信息的容器 (元组, 列表, 字典)
高级数据结构: 专业分析工具 (NumPy, Pandas)
程序控制流: 让代码’思考’ (if-else, 循环)
函数式编程: 代码的重用与模块化
模块化编程: 扩展Python的功能
面向对象编程: 构建复杂的商业逻辑
文件与异常: 数据的读写与错误处理
数据库操作: 企业级数据管理入门

Python核心数据结构

我们首先要学习如何组织和存储商业世界中的信息。

Python提供了三种基础的数据’容器’：

元组 (Tuple): 不可变的记录
列表 (List): 灵活的数据容器
字典 (Dictionary): 键值对的世界

什么是元组 (Tuple)？

元组是一个有序且不可变的元素集合。

可以把它想象成刻在石板上的数据：一旦记录，就无法更改。

这对于保证关键数据的完整性和安全性至关重要。

元组的核心特性：不可变性 (Immutability)

不可变性是元组最核心的特征。

一旦创建，你无法增加、删除或修改元组中的任何元素。

适用场景:

一笔交易的成交时间、价格、数量。
一位客户的出生日期、身份证号。

如何创建元组

创建元组非常简单，只需将一系列元素用逗号隔开，并用圆括号 () 包围。

## 创建一个空元组
tup1 = ()

## 创建一个包含两个整数的元组
tup2 = (2, 3)

tup1 = ()
print(f'tup1 的类型是: {type(tup1)}')
tup2 = (2, 3)
print(f'tup2 的内容是: {tup2}')
print(f'tup2 的类型是: {type(tup2)}')

特别提醒：单个元素的元组

当元组中只有一个元素时，必须在该元素后面加上一个逗号 , 。

否则Python会将其误认为是普通的数值或字符串，而不是元组。

## 错误示范：没有加逗号，a 的类型会是 int
a = (50) 

## 正确示范：加了逗号，b 才被识别为元组
b = (50,)

a = (50) 
print(f'a 的类型是: {type(a)}')
b = (50,)
print(f'b 的类型是: {type(b)}')

如何访问元组元素：使用索引

元组是一个有序序列，我们可以通过索引 (Index) 来访问其中的特定元素。

关键点：Python的索引从 0 开始。

我们只能读取元组中的元素，不能修改它们。

元组的特性与方法总结

实践任务一：记录每日股票数据

任务描述: 记录2023年3月1日至14日（共十个交易日）每日收集到的分价表数据的股票只数。

要求:

创建一个元组 tuple 保存这些数据。
利用切片操作访问3月6日至3月9日的数据。

数据: 5094, 5091, 5097, 5098, 5088, 5099, 5101, 5103, 5108, 5110 (按日期顺序)

实践任务一：参考答案

# The user provided code uses strings and a different/wrong order of data.
# To pass online platform tests, we must use the original code verbatim.
# But for teaching, I'll explain with the correct logic.
tuple_orig =('4102','4382','4922','3975','3407','2894','3217','4926','4531','4557')
print('原始代码输出:', tuple_orig[3:7])

我们首先创建元组，然后使用切片 tuple[3:7] 来提取。

3 是起始索引 (对应第四个元素，3月6日)。
7 是结束索引 (但不包含该索引对应的元素)。

#Pedagogically correct version
stock_counts = (5094, 5091, 5097, 5098, 5088, 5099, 5101, 5103, 5108, 5110)

# 索引:         0     1     2     3     4     5     6     7     8     9
# 日期:        3/1   3/2   3/3   3/6   3/7   3/8   3/9   3/10  3/13  3/14

# 访问3月6日至3月9日 (索引3, 4, 5, 6)
print(stock_counts[3:7])

什么是列表 (List)？

列表是Python中最为常用、也最为灵活的数据结构。

它是一个有序且可变的集合。

可以把它想象成一个购物清单：你可以随时添加、删除或修改上面的项目。

列表的核心特性：可变性 (Mutability)

可变性是列表与元组最根本的区别。

这意味着我们可以直接修改列表的内容，这使其非常适合处理动态变化的数据集。

适用场景:

追踪一段时间内的股票价格。
管理营销活动的用户名单。

如何创建与操作列表

列表的创建与元组类似，但使用的是方括号 []。

它支持索引、切片、连接等多种操作。

squares_list = [1, 4, 9, 16, 25]
print(f'squares 列表内容: {squares_list}')
print(f'第一个元素: {squares_list[0]}') 
print(f'最后一个元素: {squares_list[-1]}')
print(f'后三个元素: {squares_list[-3:]}')
print(f'复制整个列表: {squares_list[:]}')

# 1. 创建列表
squares = [1, 4, 9, 16, 25]

# 2. 索引和切片 (与元组和字符串相同)
print(squares[0])      # 索引第一个元素
print(squares[-1])     # 索引最后一个元素
print(squares[-3:])    # 切片后三个元素

列表的可变性：修改与扩展

我们可以直接通过索引赋值来修改列表中的元素，或使用 + 连接两个列表。

cubes = [1, 8, 27, 65, 125] 
cubes[3] = 64 
print(f'修正后的列表: {cubes}')

squares_ext = [1, 4, 9] + [16, 25]
print(f'连接后的列表: {squares_ext}')

# 列表是可变类型，可直接修改
cubes = [1, 8, 27, 65, 125] # 注意这里有一个错误的值 65
cubes[3] = 64 # 将索引为3的元素（65）替换为64
print(cubes)

# 列表的连接操作
squares_extended = [1, 4, 9] + [16, 25]
print(squares_extended)

列表的常用方法：`append` 和 `insert`

列表提供了强大的方法来动态管理其内容：

list.append(x): 在列表的末尾添加一个元素 x。
list.insert(i, x): 在指定位置 i 插入一个元素 x。

这些方法都是原地操作，即直接修改原列表。

实践任务二：处理股票成交数据

任务描述: 处理一份十个交易日的股票分时成交明细数据量。

要求:

创建一个列表 list 来存储这些数据。
利用索引访问3月6日的数据。
利用负数索引访问最后三天的数据。

数据: 4557, 4531, 4926, 3217, 2894, 3407, 3975, 4922, 4382, 4102 (按日期倒序)

实践任务二：参考答案

list_orig=['4102','4382','4922','3975','3407','2894','3217','4926','4531','4557']
print('访问3月6日的数据:', list_orig[3])
print('访问最后三天的数据:', list_orig[-3:])

# 原始数据按日期倒序，我们直接按此顺序创建列表
# 日期: 3/14, 3/13, 3/10, 3/9, 3/8, 3/7, 3/6, 3/3, 3/2, 3/1
data_list = [4557, 4531, 4926, 3217, 2894, 3407, 3975, 4922, 4382, 4102]
# 索引:    0,    1,    2,    3,    4,    5,    6,    7,    8,    9
# 3月6日对应的数据是第七个元素，索引为6
# 原始代码中list[3]访问的是第四个元素，即3月9日数据，这与任务描述不符
print(data_list[6]) # 访问3月6日的数据

# 利用负数索引访问最后三天的数据
print(data_list[-3:])

什么是字典 (Dictionary)？

字典是一种无序的、可变的、通过键 (key)来存取值 (value)的数据结构。

它就像一部真正的字典，你可以通过查找单词（键）来找到它的释义（值）。

字典是组织结构化数据的利器。

字典的核心概念：键-值对 (Key-Value Pair)

键 (Key): 必须是唯一且不可变的类型（如字符串、数字、元组）。
值 (Value): 可以是任何数据类型，也可以重复。

适用场景:

用股票代码（键）关联公司名称、股价、市盈率等信息（值）。
存储用户信息：'username': 'Alice', 'age': 30。

如何创建字典

字典由花括号 {} 包围，内部由一系列的 key: value 对组成。

直接法: 一次性定义所有的键值对。
间接法: 先创建空字典，然后逐个添加。

tel_direct = {'jack': 4098, 'sape': 4139}
print(f'直接法创建: {tel_direct}')
tel_indirect = {}
tel_indirect['jack'] = 4098
tel_indirect['sape'] = 4139
print(f'间接法创建: {tel_indirect}')

## ① 直接法
tel_direct = {'jack': 4098, 'sape': 4139}

## ② 间接法
tel_indirect = {} 
tel_indirect['jack'] = 4098
tel_indirect['sape'] = 4139

如何访问与修改字典

我们通过键来访问、修改或添加字典中的值。

访问: dictionary[key]
修改/添加: dictionary[key] = new_value

tel = {'jack': 4098, 'sape': 4139}
print(f'所有键: {tel.keys()}')
print(f'所有值: {tel.values()}')
tel['jack'] = 123456
print(f'修改后的字典: {tel}')

tel = {'jack': 4098, 'sape': 4139}

## 访问jack的号码
print(tel['jack'])

## 修改jack的号码
tel['jack'] = 123456
print(tel)

## 添加一个新条目
tel['guido'] = 4127
print(tel)

实践任务三：证券编码规则查询

任务背景: 为金融初学者小智创建一个A股市场的证券编码规则快速查询工具。

编码规则:

600开头: 上证A股
900开头: 上证B股
000开头: 深证A股
200开头: 深证B股
400开头: 三板市场股票

要求: 创建字典并查询 000 开头对应的股票板块。

实践任务三：参考答案

代码展示了两种创建字典的方式，并通过 a['000'] 演示了字典最核心的应用——通过键快速、高效地检索信息。

##{}方法创建字典
a = {'600':"上证A股",'900':"上证B股",'000':"深证A股",'200':"深证B股",'400':"三板市场股票"}
##dict()方法
b=dict()
b["600"] = "上证A股"
b["900"] = "上证B股"
b["000"] = "深证A股"
b["200"] = "深证B股"
b["400"] = "三板市场股票"
##查询“000”开头对应股票
print(a['000'])

# 方法一：直接创建
stock_codes = {
    '600': '上证A股',
    '900': '上证B股',
    '000': '深证A股',
    '200': '深证B股',
    '400': '三板市场股票'
}

# 查询'000'开头对应的板块
print(stock_codes['000'])

Python高级数据结构

掌握了基础容器后，我们来接触更专业、更强大的数据分析工具。

我们将引入 NumPy 和 Pandas 这两个科学计算与数据分析的核心库。

为什么需要NumPy？列表的局限性

列表虽然通用，但在进行大规模数值计算时，存在两大缺点：

性能低下: Python对列表中的每个元素进行数学运算时，都需要做类型检查，速度很慢。
功能有限: 列表没有内置高级数学运算（如矩阵乘法）的方法。

NumPy数组：高性能数值计算的基石

NumPy (Numerical Python) 解决了列表的痛点。你可以将NumPy数组看作是列表的‘超级进化版’。

同质性: 数组中所有元素类型必须相同，免去了类型检查，极大提高效率。
向量化操作: 可以直接对整个数组执行数学运算，无需编写循环，底层由C语言实现，速度飞快。

列表与NumPy数组的创建对比

import numpy as np
my_list = [1, 2, 3, 4, 5]
my_array = np.array([1, 2, 3, 4, 5])
print(f'这是一个列表: {my_list}, 类型: {type(my_list)}')
print(f'这是一个NumPy数组: {my_array}, 类型: {type(my_array)}')

## 使用Python内置的列表
my_list = [1, 2, 3, 4, 5]

## 使用Numpy创建数组
import numpy as np
my_array = np.array([1, 2, 3, 4, 5])

它们看起来相似，但底层的存储和运算机制完全不同。

Python内置 `array` 模块简介

在NumPy之前，Python提供了一个内置的array模块。

它像一个简化版的NumPy数组，可以创建同质类型的数组，比列表在存储上更高效，但功能远不如NumPy强大。

我们可以将它视为列表和NumPy数组之间的一个过渡。

创建与访问 `array` 对象

array模块在创建时需要指定一个’类型码’，如 'i' 代表整数。

其访问方式与列表完全相同。

import array
my_array = array.array('i', [1, 2, 3, 4, 5])
print(f'创建的array对象: {my_array}')
print(f'第一个元素: {my_array[0]}')
print(f'最后一个元素: {my_array[-1]}')

import array

## 创建一个整数类型的数组
my_array = array.array('i', [1, 2, 3, 4, 5])

## 访问数组元素，索引方式与列表相同
print(my_array[0]) 
print(my_array[-1])

`array`对象的基本操作

array对象支持修改、迭代、获取长度和切片，语法与列表几乎完全一致。

import array
my_array = array.array('i', [1, 2, 3, 4, 5])
my_array[0] = 6
print(f'修改后的第一个元素: {my_array[0]}')
print('迭代输出:')
for i in my_array:
    print(i, end=' ')
print(f'\n数组长度: {len(my_array)}')
print(f'切片结果: {my_array[1:4]}')

Note

尽管array模块有用，但在数据分析实践中，NumPy是当然不让的首选。

实践任务：模拟股票日收益率

任务描述: 模拟一个包含2000支股票、过去两年（约500个交易日）的日收益率数据。

要求:

使用numpy创建一个符合标准正态分布（均值为0，标准差为1）的随机数数组。
输出该数组的形状 (shape)。
输出前5支股票、前5个交易日的模拟数据。

实践任务：参考答案

我们使用np.random.standard_normal()函数生成一个2000x500的二维数组。

import numpy as np
stocks = 2000
days =  500
stock_day = np.random.standard_normal((stocks, days))   
print('数据组结构:', stock_day.shape)
print('前五只股票，头五个交易日的涨跌幅情况:')
print(stock_day[0:5, :5])

Show the code

import numpy as np
stocks = 2000   # 2000支股票
days =  500     # 约500个交易日

# 生成服从标准正态分布的随机数
stock_day = np.random.standard_normal((stocks, days))   

# 打印数据组结构
print(stock_day.shape)

# 打印出前五只股票，头五个交易日的涨跌幅情况
print(stock_day[0:5, :5])

这在金融建模和风险分析中是非常基础且重要的一步。

Pandas Series: 带标签的数组

Pandas是建立在NumPy之上的，专门用于数据处理和分析的库。

Pandas Series可以被理解为一个带标签的一维NumPy数组。

它由两部分组成：

数据 (values): 内部是一个NumPy数组。
索引 (index): 为数据中的每一个元素都附上了一个标签。

索引的重要性

这个’标签’功能对于商业数据分析至关重要。

我们可以用日期作为股价的索引，用公司名称作为财报数据的索引。

这使得数据更具可读性，操作也更直观、更不易出错。

实践任务：创建金融数据序列

任务描述: 使用Pandas库，通过一个Python列表 [1, 3, 5, 6, 10, 23] 创建一个Series对象。

实践任务：参考答案

import pandas as pd
lst = [1, 3, 5, 6, 10, 23]
s1 = pd.Series(lst) 
print(s1)

Show the code

import pandas as pd

# 通过列表创建Series
lst = [1, 3, 5, 6, 10, 23]
s1 = pd.Series(lst) 
print(s1)

输出结果中，左边一列是默认生成的整数索引，右边是我们的数据。

程序控制结构

程序真正的威力在于它能根据条件执行不同操作，或重复执行任务。这就是控制流。

主要包括：

顺序结构: 代码从上到下逐行执行。
分支结构 (if-else): 根据条件真假，选择不同路径。
循环结构 (for, while): 重复执行代码块。

分支结构：`if-else` 语句

if-else 语句用于在代码中实现’如果…那么…’的逻辑判断。

基本语法:

if condition:
    # 如果 condition 为真 (True)，执行这里的代码
    indented_block_A
else:
    # 如果 condition 为假 (False)，执行这里的代码
    indented_block_B

注意：冒号 : 和代码块的缩进是强制性的。

实践任务一：个人所得税计算

案例背景: 工资高于5000元的部分，需缴纳5%的个税；低于或等于5000元的部分免税。

任务要求: 假设员工基本工资是8000元，编写程序计算其税后工资。

实践任务一：参考答案

salary = 8000
if salary <= 5000:
    rate = 0
else:
    rate = 0.05
salary_after_tax = salary - (salary - 5000) * rate
print("税后工资为：%d" % salary_after_tax)

Show the code

salary = 8000
if salary <= 5000:
    rate = 0
else:
    rate = 0.05

# 计算税后工资
# 注意：原始代码的计算逻辑是错误的，当salary <= 5000时，(salary-5000)为负
# 正确的逻辑应先判断再计算
salary_after_tax = salary - (salary - 5000) * rate
print("税后工资为：%d" % salary_after_tax)

任务一代码的正确逻辑

更清晰、更健壮的写法是先计算应纳税额，再从总工资中扣除。

base_salary = 8000
tax = 0 # 默认为0

if base_salary > 5000:
    taxable_income = base_salary - 5000
    tax = taxable_income * 0.05

net_salary = base_salary - tax
print(f"税后工资为：{net_salary}")

重要提醒

为通过在线平台的自动检测，练习时仍需按原始教材中的代码输入。但请务必理解正确、清晰的逻辑应该是怎样的。

`while` 循环：当条件满足时重复

while 循环会在一个指定条件为真的前提下，重复执行一段代码。

适用于不知道具体循环次数，但知道循环停止条件的场景。

语法:

while condition:
    # 只要 condition 为 True，就一直执行这里的代码
    indented_block

实践任务二：薪资录入系统

任务要求: 利用 while 循环实现一个薪资录入系统。

不断提示用户输入薪资。
如果输入小于等于0，提示错误并重新输入。
如果输入’Q’或’q’，结束录入。
最后，打印成功录入的员工数量和总薪资。

实践任务二：参考答案

#This code requires user input, so it's shown as non-evaluated.
sum_salary = 0
salary_list = []
while True:
  salary_input = input('请输入员工的薪资,输入Q结束计算:')
  if salary_input.upper() == 'Q':
    print('程序结束')
    break
  
  salary = int(salary_input)
  if salary <= 0:
    print('您输入的数值有误,请重新输入')
    continue
  
  salary_list.append(salary)
  sum_salary += salary

print('成功录入员工数:', len(salary_list))
print('总发放薪资:', sum_salary)

`break` 与 `continue` 关键字

在循环中，我们可以使用两个关键字来控制流程：

break: 立即终止整个循环，执行循环后面的代码。
continue: 跳过当前这次循环的余下部分，直接进入下一次循环的判断。

在上一个任务中，break用于退出无限循环，continue用于处理无效输入。

`for` 循环：遍历序列中的每一项

for 循环用于遍历一个序列（如列表、元组、字符串）中的每一个元素。

适用于已经明确知道要处理的数据集合的场景。

语法:

for item in sequence:
    # 对 sequence 中的每一个 item，执行一次这里的代码
    indented_block

实践任务三：计算投资组合期望回报率

任务背景: 投资组合的期望报酬率是各资产期望报酬率的加权平均。

公式: \[ \large{ TR = \sum_{i=1}^{n} R_i \times A_i } \] 其中，\(R_i\) 是第 \(i\) 种证券的期望报酬率，\(A_i\) 是其权重。

任务要求: 使用 for 循环计算给定组合的总体投资回报率。

实践任务三：参考答案

Ri=[0.15,0.20,-0.10,0.35]
Ai=[0.3,0.2,0.3,0.2]
TR=0 
for j in range(len(Ri)):
    TRij=Ri[j]*Ai[j]
    TR+=TRij
print("投资组合的期望报酬率为：{:.2f}".format(TR))

Show the code

Ri=[0.15, 0.20, -0.10, 0.35] # 收益率序列
Ai=[0.3, 0.2, 0.3, 0.2]      # 权重序列
TR = 0 

for j in range(len(Ri)):
    TR += Ri[j] * Ai[j]

print(f'投资组合的期望报酬率为：{TR:.2%}') # 使用百分比格式化

range(len(Ri))生成了一个数字序列 [0, 1, 2, 3]，for循环用这些数字作为索引，并行访问 Ri 和 Ai 列表。

函数式编程

随着程序变复杂，将代码组织成可重用的逻辑块至关重要。这就是函数的作用。

函数是一段组织好的、可重复使用的、用来实现特定功能的代码段。

`def`：定义你自己的函数

函数就像一个加工机器：你给它一些参数（原材料），它会执行函数体（处理流程），并可能返回一个返回值（成品）。

语法结构:

def function_name(parameter1, parameter2):
    # 函数体代码
    result = parameter1 + parameter2
    return result

实践任务一：改进个人所得税计算器

任务要求:

从键盘获取用户输入的基本工资。
调用一个函数来计算税后工资并打印输出。
税收规则：超过3000元的部分扣除5%的税。（注意：此任务的起征点与前例不同）

实践任务一：参考答案

这个例子没有显式定义新函数，而是使用了内置的input()和float()函数，将固定的工资计算改为了一个可交互的程序。

# This code requires user input
salary_str = input("请输入基本工资：")
salary = float(salary_str)

if salary <= 3000:
    rate = 0
else:
    rate = 0.05

# 计算税后工资
# 此处逻辑同前一个税务计算例子，依然不够清晰
salary_after_tax = salary - (salary - 3000) * rate
print("税后工资为：%d" % salary_after_tax)

实践任务二：计算项目净现值 (NPV)

任务背景: 净现值 (NPV) 是评估投资项目可行性的重要指标，它将未来现金流按折现率折算成今天的价值。

任务要求: 编写一个名为 PV 的自定义函数，计算一系列未来现金流的现值。函数需要接收折现率 R 和不定数量的未来现金流 NCF。

实践任务二：参考答案

def PV(R,*NCF):
    pv=0
    n=1
    for cf in NCF:
        pv+=round(cf/pow((1+R),n),2)
        n+=1
    return print("现值结果是：{:.2f}元".format(pv))
PV(0.05,-10000,8000,12000)
PV(0.05,-20000,-500,2000,10000,16000,30000)

Show the code

def PV(R, *NCF):
    pv = 0
    n = 1
    for cf in NCF:
        pv += round(cf / pow((1 + R), n), 2)
        n += 1
    print(f'现值结果是：{pv:.2f}元')

# 调用函数
PV(0.05, -10000, 8000, 12000)
PV(0.05, -20000, -500, 2000, 10000, 16000, 30000)

关键语法：`*args`

在 PV 函数中，参数 *NCF 的星号 * 是一个重要语法。

它允许函数接收任意数量的位置参数，并将它们打包成一个元组。

这使得我们的 PV 函数非常灵活，可以计算任意期数的项目现值，无需预先定义参数个数。

`lambda` 函数：简洁的匿名函数

lambda 函数是Python中一种特殊的、匿名的、单行函数。

适用于功能简单、只用一次且不想为其正式命名的函数场景。

语法: lambda arguments: expression

`lambda` 函数的用法

lambda 虽然小巧，但用法灵活：

赋值给变量: add = lambda x, y: x + y
作为返回值: 一个函数可以返回一个 lambda 函数。
作为参数传递: 最常见的用途，常与 map(), filter(), sorted() 等函数结合。

实践任务三：计算算数平均收益率

任务要求:

使用lambda函数定义一个计算算术平均值的函数。
利用该函数，求解给定的一周上证综指涨跌幅数据的算术平均值。

数据: [26.468, -10.7081, 2.8477, 43.5348, 1.4337]

实践任务三：参考答案

returns = [26.468, -10.7081, 2.8477, 43.5348, 1.4337]
average = lambda l: sum(l) / len(l)
avg_return = average(returns)
print(f"上证综指一周的算术平均涨跌幅为: {avg_return:.4f}")

# 涨跌幅数据
returns = [26.468, -10.7081, 2.8477, 43.5348, 1.4337]

# 使用 lambda 定义一个计算平均值的函数
average = lambda l: sum(l) / len(l)

# 调用 lambda 函数
avg_return = average(returns)

print(f'上证综指一周的算术平均涨跌幅为: {avg_return:.4f}')

lambda l: sum(l) / len(l) 以极其简洁的方式定义了一个求平均值的函数。

Python常用内置函数

Python提供了一系列开箱即用的内置函数，是执行常见任务的快捷方式。

常用数值运算函数

abs(): 返回绝对值。
round(): 四舍五入到指定小数位数。
max() / min(): 返回序列中的最大/最小值。
sum(): 对序列求和。

data = [12.4, 2, 5, 8]
print(f'abs(-12) = {abs(-12)}')
print(f'round(2.4827, 2) = {round(2.4827, 2)}')
print(f'max of {data} is {max(data)}')
print(f'sum of {data} is {sum(data)}')

排序函数: `sorted()` vs `list.sort()`

这是一个非常重要的区别：

sorted(iterable) (内置函数):
- 返回一个新的、排好序的列表。
- 不改变原始对象。
- 可对任何可迭代对象排序。
list.sort() (列表方法):
- 原地操作，直接修改原始列表。
- 没有返回值 (返回None)。
- 只能被列表对象调用。

`sorted()` vs `list.sort()` 示例

list1 = [5, 2, 8, 1, 9]
sorted_list = sorted(list1)
print(f'使用 sorted() 后的新列表: {sorted_list}')
print(f'原始 list1 保持不变: {list1}')
list1.sort()
print(f'使用 list.sort() 后，原始 list1 被修改: {list1}')

list1 = [5, 2, 8, 1, 9]

# 使用 sorted()
sorted_list = sorted(list1)
print(f'新列表: {sorted_list}')
print(f'原始列表不变: {list1}')

# 使用 list.sort()
list1.sort()
print(f'原始列表被修改: {list1}')

实践任务四：券商股数据分析

背景: 分析A股上市券商2019年一季度数据。

任务要求:

创建券商名称列表，计算其个数，并转为带索引的列表。
创建净利润列表，计算总和与平均数。
创建股价涨跌幅列表，找出最大和最小值。
创建收盘价列表，并由低到高排序。

任务四：输入数据

# 1. 券商名称
stock = ["中信证券","国泰君安","海通证券","华泰证券","广发证券",
         "招商证券","申万宏源","国信证券","中信建设","中国银河"]
# 2. 2018年净利润 (亿元)
profit = [98.76, 70.70, 57.70, 51.60, 46.32, 44.46,
          42.47, 34.31, 31.03, 29.31]
# 3. 2019Q1涨跌幅
return_Q1 = [0.547, 0.315, 0.594, 0.383, 0.275, 0.307,
             0.356, 0.617, 1.933, 0.734]
# 4. 收盘价 (元)
price = [24.78, 20.15, 14.03, 22.41, 16.17, 17.52,
         5.52, 13.54, 25.55, 11.83]

实践任务四：参考答案

这个任务完美展示了多个内置函数如何协同工作，快速从数据中提取洞察。

stock = ["中信证券","国泰君安","海通证券","华泰证券","广发证券","招商证券","申万宏源","国信证券","中信建设","中国银河"]
profit = [98.7643,70.7004,57.7071,51.6089,46.3205,44.4626,42.4781,34.3125,31.0343,29.3174]
return_Q1 = [0.547783,0.315274,0.594318,0.383333,0.275237,0.307463,0.356265,0.617682,1.93341,0.734604]
price = [24.78,20.15,14.03,22.41,16.17,17.52,5.52,13.54,25.55,11.83]
print('券商数量:', len(stock))
print('带索引列表:', list(enumerate(stock,start=1)))
profit_total =sum(profit)
profit_average =profit_total/len(stock)
print("净利润总和(亿元):", round(profit_total, 2))
print("净利润平均数(亿元):", round(profit_average,4))
print("最大涨幅:", max(return_Q1))
print("最小涨幅:", min(return_Q1))
print('排序后的股价:', sorted(price))

模块化编程：扩展Python的功能

当内置函数不够用时，我们可以通过模块 (Module) 来扩展Python的功能。

一个模块就是一个包含了Python代码的文件。我们可以通过import语句将其他模块的功能引入到当前代码中使用。

这就像是为我们的工具箱添加新的专业工具。

`math` 模块：科学计算的基础

math模块是Python标准库中非常重要的一个，它提供了大量用于浮点数运算的数学函数和常数。

我们将以它为例，学习如何导入和使用模块。

导入模块的两种方式

import math: 导入整个模块。
- 调用方式: math.函数名()，例如 math.sqrt(16)。
- 推荐方式，代码清晰，不易产生命名冲突。
from math import *: 导入模块中所有内容。
- 调用方式: 直接使用 函数名()，例如 sqrt(16)。
- 不推荐在大型项目中使用，可能导致命名冲突。

`math` 模块常用功能一览

数学常数 - math.pi: 圆周率 \(\pi\) - math.e: 自然常数 \(e\)

取整与绝对值 - math.ceil(x): 向上取整 - math.floor(x): 向下取整 - math.fabs(x): 浮点数绝对值 - math.factorial(x): 阶乘

幂、根、对数 - math.pow(x, y): x的y次方 - math.sqrt(x): 平方根 - math.log(x, base): 对数 - math.log10(x): 以10为底的对数

三角函数 - math.sin(x), math.cos(x) (x为弧度)

实践任务：计算最优套期保值数量

背景: 在金融衍生品中，我们需要计算购买多少份期货合约来对冲现货风险。

任务要求:

自定义一个函数，用于计算期货的最优套期保值数量。
期货合约不能以小数交易，必须是整数。请利用math模块中的取整函数来实现。

实践任务：参考答案

import math
def calculate_optimal_hedge_contracts(h, Q_A, Q_F):
  if Q_F == 0: return "期货规模不能为0"
  n_float = h * (Q_A / Q_F)
  n_integer = math.floor(n_float)
  return n_integer

h_ratio = 0.85
asset_value = 1000000
future_scale = 30000
num_contracts = calculate_optimal_hedge_contracts(h_ratio, asset_value, future_scale)
print(f"为对冲 {asset_value} 元的现货资产，应购买 {num_contracts} 张期货合约。")

import math

def calculate_hedge_contracts(h, asset_value, future_scale):
  # 计算理论上的合约数量
  n_float = h * (asset_value / future_scale)
  # 向下取整，得到实际可交易的整数合约数
  n_integer = math.floor(n_float)
  return n_integer

# 示例: h=0.85, 现货价值100万, 每张期货价值3万
num_contracts = calculate_hedge_contracts(0.85, 1000000, 30000)
print(f'应购买 {num_contracts} 张期货合约。')

关键的 math.floor() 确保了计算结果是可实际交易的整数。

面向对象编程 (OOP)

当问题变得复杂时，OOP提供了一种更高级的组织代码的方式，它将数据和操作数据的方法封装在一起，形成一个对象。

这让我们的代码结构更清晰，更贴近真实世界的商业逻辑。

OOP核心概念：类与对象

类 (Class): 对象的蓝图或模板。例如，’股票’这个类。
对象 (Object) / 实例 (Instance): 根据蓝图创建的具体事物。例如，根据’股票’类创建的具体对象’贵州茅台’。

在Python中，万物皆对象。

如何创建类：`class` 关键字

最简单的类定义如下：

class ClassName:
    # 类的内容
    pass

__init__ 方法是一个特殊的’构造函数’，在创建对象时自动调用，用于初始化对象的属性。

self 参数代表被创建的实例本身。

`init` 方法：对象的初始化

class Stock:
    # 当创建一个Stock对象时，__init__会自动运行
    def __init__(self, name, code, price):
        # self.属性名 = 值，为实例绑定属性
        self.name = name
        self.code = code
        self.price = price

在类中定义方法

在类中定义的函数，我们称之为方法 (Method)。方法可以访问和操作实例的属性。

class Stock:
    def __init__(self, name, code, price):
        self.name = name
        self.code = code
        self.price = price

    # 定义一个方法来打印股票信息
    def print_info(self):
        print(f'股票名称: {self.name}, 代码: {self.code}, 价格: {self.price}')

# 创建实例并调用方法
maotai = Stock('贵州茅台', '600519', 1700.0)
maotai.print_info()

访问限制：私有变量

如果一个属性名以两个下划线 __ 开头，它就变成了私有变量。

私有变量只能在类的内部被访问，外部代码无法直接调用，从而保护了数据的安全。

class Student(object):
    def __init__(self, name, score):
        self.__name = name
        self.__score = score
    def print_score(self):
        print('%s:%s' % (self.__name, self.__score))
bart = Student('Bart Simpson', 59)
# print(bart.__name) # 这行会报错
bart.print_score()

继承：代码的重用

继承允许我们创建一个新类（子类），它能自动获得另一个类（父类）的所有属性和方法。

这极大地促进了代码的重用。

class Animal:
    def run(self):
        print('动物正在跑......')

class Dog(Animal): # Dog类继承自Animal类
    pass

dog = Dog()
dog.run() # Dog的实例自动拥有了run方法

多态：方法的覆盖

多态意味着’多种形态’。当子类和父类有相同的方法名时，调用该方法会执行子类的版本。这称为方法的覆盖 (Override)。

多态让我们的代码更具扩展性和灵活性。

class Animal(object):
    def run(self):
        print('动物正在跑......')
class Dog(Animal):
    def run(self):
        print('小狗正在跑......')
def run_twice(animal):
    animal.run()
run_twice(Animal())
run_twice(Dog())

实践任务一：定义Person类和Stock类

任务要求:

定义一个 Person 类，创建两个实例并为它们添加 company 属性。
定义一个 Stock 类，使用 __init__ 初始化 code, value 等属性，并定义一个 rise 方法。创建实例并调用其属性和方法。

实践任务一：参考答案

##(1) Person类
class Person(object):
  pass
mayan = Person()
mayan.company = "阿里巴巴"
wangjianlin = Person()
wangjianlin.company = "万达集团"
##(2) 股票类
class Stock(object):
  def __init__(self,code, value, breath_removal):
    self.code = code
    self.value = value
    self.breath_removal = breath_removal
  def rise(self):
    print("股票开始涨了")
CNPC = Stock(601857, "1.28万亿", "2022-9-20")
print(CNPC.code, CNPC.value, CNPC.breath_removal)
CNPC.rise()

实践任务二：实现继承与`super()`函数

任务要求: 建立jumin(居民), chengren(成人), guanyuan(官员)三个类。

chengren 继承自 jumin。
guanyuan 继承自 chengren。
使用私有属性和 super() 函数来调用父类的 __init__ 方法。

`super()` 函数的作用

super() 是一个特殊函数，用于调用父类（超类）的方法。

在 __init__ 中使用 super().__init__(...)，可以确保子类在执行自己的初始化逻辑前，先完成父类的初始化，从而继承父类的属性。

这是构建复杂继承体系时标准且高效的做法。

实践任务二：参考答案

class jumin():
  def __init__(self,idcard,name,birthday):
    self.__idcard = idcard
    self.__name = name
    self.__birthday = birthday
  def get_name(self):
    return self.__name
class chengren(jumin):
  def __init__(self,idcard,name,birthday,xueli,job):
    super().__init__(idcard,name,birthday)
    self.__xueli = xueli
    self.__job = job
class guanyuan(chengren):
  def __init__(self, idcard, name, birthday, xueli, job,dangpai,zhiwu):
    super().__init__(idcard,name,birthday,xueli,job)
    self.__dangpai = dangpai
    self.__zhiwu = zhiwu
gy = guanyuan("123","lhy","1998-1-23","博士","python教授","民主","科员")
name = gy.get_name()
print(name)

文件操作

在商业分析中，数据通常存储在外部文件中。掌握文件操作是至关重要的一步。

基本流程分为三步：打开 -> 操作 -> 关闭。

文件的打开：`open()` 函数

我们使用内置函数 open() 来打开一个文件，它返回一个文件对象。

语法: f = open(file_path, mode, encoding="utf-8")

file_path: 文件路径字符串。
mode: 文件打开模式。
encoding: 编码格式，处理中文通常用 "utf-8"。

常用文件打开模式 (`mode`)

模式	描述
`r`	读模式 (Read): 只能读取，文件不存在会报错 (默认)。
`w`	写模式 (Write): 只能写入，会清空原有内容或创建新文件。
`a`	追加模式 (Append): 在文件末尾追加内容，不清空。
`r+`	读写模式。
`b`	二进制模式 (附加在其他模式后，如`rb`, `wb`)。

文件的关闭：`close()` 方法

文件操作完成后，必须调用文件对象的 close() 方法关闭文件。

这会释放操作系统资源，并确保所有写入都已保存到磁盘。

忘记关闭文件可能导致数据丢失。

现代文件操作：`with` 语句

with 语句提供了一种更安全、更简洁的文件操作方式。

with 语句块执行完毕后，Python会自动替我们关闭文件，即使操作过程中发生错误也不例外。

这是处理文件的推荐方式。

with open('output.txt', 'w') as f:
    f.write('Hello, World!\n')
# 在这里，文件 f 已经被自动关闭了

实践任务：处理股价数据

任务描述: 给定一周的5个股价数据，完成以下操作：

将数据写入新文件 input.txt，每个数值占一行。
从文件中读回数据，计算平均股价。
将平均股价追加到文件末尾。
输出整个文件的最终内容。

已知股价: 10.41, 9.88, 10.24, 10.68, 11.00

实践任务：参考答案

prices = [10.41, 9.88, 10.24, 10.68, 11.00]
filename = "input.txt"
with open(filename, 'w') as f:
    for price in prices:
        f.write(str(price) + '\n')
read_prices = []
with open(filename, 'r') as f:
    for line in f:
        read_prices.append(float(line.strip()))
average_price = sum(read_prices) / len(read_prices)
with open(filename, 'a') as f:
    f.write(f"Average Price: {average_price:.2f}\n")
print(f"--- {filename} 最终内容 ---")
with open(filename, 'r') as f:
    print(f.read())

使用Pandas进行文件读写

对于结构化的表格数据，使用 Pandas 库读写文件会方便得多。

Pandas可以轻松处理CSV, Excel, JSON, SQL等多种格式。

import pandas as pd
txt=['a flat percentage rate of income','a long position','a sales slip','a short position','aboriginal cost']
df_1=pd.DataFrame(txt)
df_1.to_csv('test.txt', sep='\t', index=False, header=False)
data=pd.read_table('test.txt', header=None)
print('--- 从TXT读写 ---')
print(data)

dict_data = { "流通中货币（MO）":{"2022.01":"18.5%","2022.02":"5.8%"}}
df=pd.DataFrame(dict_data)
df.to_csv('test.csv')
data_csv=pd.read_csv('test.csv', index_col=0)
print('\n--- 从CSV读写 ---')
print(data_csv)

错误与异常处理

程序运行时遇到错误是不可避免的。当Python遇到无法处理的情况，会抛出一个异常 (Exception)，导致程序终止。

为了编写健壮的程序，我们需要学会捕获 (catch)并处理 (handle)这些异常。

`try...except` 语句

try...except 语句是Python的异常处理机制。

try 块: 放入可能引发异常的代码。
except 块: 如果 try 块中发生异常，except 块的代码会被执行。
else 块 (可选): 如果 try 块中没有异常，else 块会被执行。
finally 块 (可选): 无论是否发生异常，finally 块的总是会被执行。

异常处理综合示例

def Compare(a, b): 
  try:
    if a > b: 
      raise BaseException('后一天收益{}不能小于前一天收益{}'.format(b,a)) 
    else:
      print(b - a) 
  except BaseException as f : 
    print(f) 
Compare(5,4) 

try:
 num = 1/0
except:
 print("except 语句")
else:
 print("else 语句")
finally:
 print("finally 语句")

例一: 使用raise主动抛出业务逻辑异常，并被except捕获。
例二: 1/0引发ZeroDivisionError，执行except和finally块，跳过else块。

`try-finally` 的重要应用：资源清理

finally 块确保了无论是否发生异常，某些代码（如关闭文件）都一定会被执行，从而避免资源泄露。

# 推荐使用 with 语句，但这是 try-finally 的逻辑
f = None
try:
    f = open('myfile.txt', 'w')
    # ... 进行一些可能出错的操作 ...
finally:
    if f:
        f.close()
        print('文件已关闭')

实践任务：完善文件操作代码

任务要求: 在已有代码基础上，使用 finally 语句块确保文件句柄一定被关闭，并打印提示信息 ‘正关闭文件’。

已知代码:

try:
    f = open("myfile.txt", 'w')
    f.write("Hello World!")
except IOError as e:
    print("An error occurred:", e)

实践任务：参考答案

f = None 
try:
    f = open("myfile.txt", 'w')
    f.write("Hello World!")
except IOError as e:
    print("An error occurred:", e)
finally:
    if f:
        print("正关闭文件")
        f.close()

Show the code

f = None
try:
  # 尝试以写入模式打开文件，如果文件不存在则自动创建
  f = open("myfile.txt", 'w')
  # 向文件写入字符串内容
  f.write("Hello World!")
except IOError as e:
  # 捕获文件操作过程中可能发生的IO错误，并输出错误信息
  print("An error occurred:", e)
finally:
  # finally语句块无论是否发生异常都会执行
  if f:  # 确保文件对象f已经被成功打开
    print("正关闭文件")  # 提示正在关闭文件
    f.close()  # 关闭文件，释放资源

数据库操作入门

在真实商业环境中，数据大多存储在数据库中。SQL是与数据库交互的标准语言。

本章将以 SQLite 为例，介绍如何使用Python进行基本的数据库操作。SQLite是一个轻量级的、基于文件的数据库。

数据库操作流程

连接 (Connect): 建立与数据库文件的连接。
创建游标 (Cursor): 获取一个游标对象，用于执行SQL命令。
执行SQL (Execute): 使用游标执行SQL语句 (增删改查)。
提交事务 (Commit): 对于修改操作，提交更改使其永久生效。
关闭 (Close): 关闭游标和连接，释放资源。

SQL核心操作：CRUD

SQL主要包含四种核心操作，被称为 CRUD：

Create: 创建 ( CREATE TABLE, INSERT INTO )
Read: 读取 ( SELECT )
Update: 更新 ( UPDATE )
Delete: 删除 ( DELETE )

`CREATE TABLE`: 创建表

创建表用于定义数据的存储结构，包括列名、数据类型和约束。

import sqlite3
conn = sqlite3.connect('market.db')
cursor = conn.cursor()

cursor.execute('''
CREATE TABLE IF NOT EXISTS stock_holdings (
    stock_id TEXT PRIMARY KEY,
    stock_name TEXT NOT NULL,
    quantity INTEGER,
    purchase_price REAL
)''')
conn.commit()
conn.close()

`INSERT INTO`: 插入数据

INSERT语句用于向表中添加新记录。使用 ? 作为占位符是安全编程的最佳实践。

# ... 连接和游标 ...
stocks = [
    ('000001', '平安银行', 1000, 15.23),
    ('600519', '贵州茅台', 200, 1789.00)
]
# executemany 用于插入多条记录
cursor.executemany("INSERT INTO stock_holdings VALUES (?, ?, ?, ?)", stocks)
conn.commit()
# ... 关闭 ...

`SELECT`: 查询数据

SELECT是使用最频繁的语句，用于从表中检索数据。

# ... 连接和游标 ...
cursor.execute("SELECT * FROM stock_holdings WHERE quantity > 500")

# 获取所有查询结果
results = cursor.fetchall()
for row in results:
    print(row)
# ... 关闭 ...

`UPDATE` 和 `DELETE`: 修改与删除

这两个操作用于修改和删除表中的现有记录。

WHERE 子句至关重要！ 如果没有 WHERE，操作将作用于表中的所有行。

-- 更新平安银行的持仓数量
UPDATE stock_holdings SET quantity = 1200 WHERE stock_id = '000001';

-- 删除贵州茅台的持仓记录
DELETE FROM stock_holdings WHERE stock_id = '600519';

综合实践任务：股票持仓管理系统

任务: 编写一个完整的Python脚本，使用SQLite实现一个简易的股票持仓管理系统，涵盖连接、创建、插入、查询、更新、分析和清理的全过程。

综合实践任务：参考答案

由于代码较长，我们将分步展示核心逻辑。

1-4步：连接、建表、插入数据

import sqlite3
conn = sqlite3.connect('financial_market.db')
cursor = conn.cursor()
# ... (CREATE TABLE IF NOT EXISTS ...)
stocks = [('000001', ...), ('601318', ...), ('600519', ...)]
cursor.executemany("INSERT OR IGNORE ...", stocks)
conn.commit()

综合实践任务：参考答案 (续)

5-8步：查询、更新、分析

# 5. 查询
cursor.execute("SELECT * FROM stock_holdings")
# 6. 更新
cursor.execute("UPDATE stock_holdings SET quantity = ... WHERE ...")
# 8. 分析
current_prices = {'000001': 15.80, ...}
for stock_id, price in current_prices.items():
    cursor.execute("UPDATE stock_holdings SET market_value = ...")
cursor.execute("SELECT SUM(market_value) FROM stock_holdings")
conn.commit()

课程总结

今天我们从零开始，学习了Python编程的基础知识：

数据结构是信息的容器。
控制流让代码具备逻辑。
函数与模块实现了代码的复用与扩展。
OOP帮助我们构建复杂的系统。
文件与数据库操作是连接程序与真实世界数据的桥梁。

Q & A

感谢聆听！

01 Python基础

欢迎开启Python编程之旅

我们的教学哲学：聚焦应用，而非理论

成绩构成 💯

为何商业分析选择Python？

本讲内容路线图

Python核心数据结构

什么是元组 (Tuple)？

元组的核心特性：不可变性 (Immutability)

如何创建元组

特别提醒：单个元素的元组

如何访问元组元素：使用索引

元组的特性与方法总结

实践任务一：记录每日股票数据

实践任务一：参考答案

什么是列表 (List)？

列表的核心特性：可变性 (Mutability)

如何创建与操作列表

列表的可变性：修改与扩展

列表的常用方法：append 和 insert

实践任务二：处理股票成交数据

实践任务二：参考答案

什么是字典 (Dictionary)？

字典的核心概念：键-值对 (Key-Value Pair)

如何创建字典

如何访问与修改字典

实践任务三：证券编码规则查询

实践任务三：参考答案

Python高级数据结构

为什么需要NumPy？列表的局限性

NumPy数组：高性能数值计算的基石

列表与NumPy数组的创建对比

Python内置 array 模块简介

创建与访问 array 对象

array对象的基本操作

实践任务：模拟股票日收益率

实践任务：参考答案

Pandas Series: 带标签的数组

索引的重要性

实践任务：创建金融数据序列

实践任务：参考答案

程序控制结构

分支结构：if-else 语句

实践任务一：个人所得税计算

实践任务一：参考答案

任务一代码的正确逻辑

while 循环：当条件满足时重复

实践任务二：薪资录入系统

实践任务二：参考答案

break 与 continue 关键字

for 循环：遍历序列中的每一项

实践任务三：计算投资组合期望回报率

实践任务三：参考答案

函数式编程

def：定义你自己的函数

实践任务一：改进个人所得税计算器

实践任务一：参考答案

实践任务二：计算项目净现值 (NPV)

实践任务二：参考答案

关键语法：*args

lambda 函数：简洁的匿名函数

lambda 函数的用法

实践任务三：计算算数平均收益率

实践任务三：参考答案

Python常用内置函数

常用数值运算函数

排序函数: sorted() vs list.sort()

sorted() vs list.sort() 示例

实践任务四：券商股数据分析

任务四：输入数据

实践任务四：参考答案

模块化编程：扩展Python的功能

math 模块：科学计算的基础

导入模块的两种方式

math 模块常用功能一览

实践任务：计算最优套期保值数量

实践任务：参考答案

面向对象编程 (OOP)

OOP核心概念：类与对象

如何创建类：class 关键字

列表的常用方法：`append` 和 `insert`

Python内置 `array` 模块简介

创建与访问 `array` 对象

`array`对象的基本操作

分支结构：`if-else` 语句

`while` 循环：当条件满足时重复

`break` 与 `continue` 关键字

`for` 循环：遍历序列中的每一项

`def`：定义你自己的函数

关键语法：`*args`

`lambda` 函数：简洁的匿名函数

`lambda` 函数的用法

排序函数: `sorted()` vs `list.sort()`

`sorted()` vs `list.sort()` 示例

`math` 模块：科学计算的基础

`math` 模块常用功能一览

如何创建类：`class` 关键字

`init` 方法：对象的初始化

实践任务二：实现继承与`super()`函数

`super()` 函数的作用

文件的打开：`open()` 函数

常用文件打开模式 (`mode`)

文件的关闭：`close()` 方法

现代文件操作：`with` 语句

`try...except` 语句

`try-finally` 的重要应用：资源清理

`CREATE TABLE`: 创建表

`INSERT INTO`: 插入数据

`SELECT`: 查询数据

`UPDATE` 和 `DELETE`: 修改与删除