Fork me on GitHub

林轩田机器学习每章要点

0. 符号假设

1. When Can Machine Learn?

1.1

1.2 Learning to Answer Yes-­No

本节主要介绍了感知机算法,它在一定条件下可以使得 $\textbf{E}_{in} \approx 0$ (在数据集上的误差近似为0)。

感知机学习算法 $\mathcal{A}$ 通过线性可分的数据 $\mathcal{D}$ 以及感知机 $\mathcal{H}$ 获得假设 $g$

  • 感知机的假设空间:定义在 $\mathbb{R}^d$ 上的一条直线或超平面
  • 感知机算法可以不断纠正错误并改进
  • 感知机的分类正确性保证:数据是线性可分的
  • 无法分类的数据:存储效果最好的直线

1.3 Types of Learning

本节主要介绍机器学习的分类

  • 按输出空间 $\mathcal{Y}$ 分类:分类、回归、结构化学习
  • 按数据标签 $y_n$ 分类:监督学习、半监督学习、无监督学习、强化学习
  • 按不同的学习方式分类:批量学习、在线学习、主动学习
  • 按输入空间 $\mathcal{X}$ 分类:具体意义的数据、原始数据、抽象数据

1.4 Feasibility of Learning

本节主要介绍机器学习的可能性

  • NFL定理:面对所有的问题,没有一种算法能说比另一种算法更好
  • 验证一个固定假设 $h$ 的 $E_{in}$ 和 $E_{out}$ 是否PAC

    • 机器能够学习的必要条件:样本满足独立同分布假设 (每次抽样之间相互独立,样本服从同一分布)

    • $E_{in}$ 为抽样样本(数据集)内所有数据中 $h(\vec{x}) = f(\vec{x})$ 的概率,
      $E_{out}$ 为抽样样本外所有数据中 $h(\vec{x}) = f(\vec{x})$ 的概率

      ($E_{in}(h) = \frac{1}{N} \sum\limits_{n=1}^{N} \mathbb{I}[h(\vec{x}) \neq y_n]$、
      $E_{out} = \mathop{\varepsilon}\limits_{\vec{x} \sim{P}} \mathbb{I}[h(\vec{x}) \neq f(\vec{x})]$)

    • Hoeffding 不等式:$P[\lvert E_{in} - E_{out} \rvert > \epsilon] \leq 2exp(-2 \epsilon^2 N)$

      (说明了只要样本数 $N$ 够大,$E_{in}$ 和 $E_{out}$ 相差的很大概率会很小,也就可以用 $E_{in}$ 来估计 $E_{out}$)

    • 上述 Hoeffding 不等式说明了 $E_{in}$ 和 $E_{out}$ 是 PAC(概率近似相等) 的
  • 在 $E_{in}(h)$ 足够小且 $\lvert \mathcal{H} \rvert$ 有限的情况下,学习有可能能实现了

    • 坏数据集 (BAD $\mathcal{D}$):使得假设 $h$ 的 $E_{in}$ 和 $E_{out}$ 相差很大的数据集
    • $P_{\mathcal{D}}(BAD \; \mathcal{D}) \leq P(BAD \; \mathcal{D} \; for \; h_1) + … + P(BAD \; \mathcal{D} \; for \; h_M)$

      $P_{\mathcal{D}}(BAD \; \mathcal{D}) \leq 2exp(-2 \epsilon^2 N) + … + 2exp(-2 \epsilon^2 N)$

      $P_{\mathcal{D}}(BAD \; \mathcal{D}) \leq 2Mexp(-2 \epsilon^2 N)$

      也就是说只要 $N$ 足够大,$\lvert \mathcal{H} \rvert$ 有限的情况下。
      不管使用什么算法 $\mathcal{A}$ 都能够使得 $E_{in}$ 和 $E_{out}$ PAC,

      如果 $\mathcal{A}$ 可以找到 $g$ 使 $E_{in}(g) \approx 0$ 那么PAC可以保证 $E_{out}(g) \approx 0$

2. Why Can Machines Learn?

2.1 Training VS Testing

本节主要介绍假设数量 $M = \infty$ 时,机器学习是否有可能性

  • $M$ 过小 $E_{in}(g) \approx 0$ 难以实现(选择过少),$M$ 过大出现坏样本的概率又显著增加,
    导致 $E_{in}(g)$ 和 $E_{out}(g)$ 无法PAC
  • 按照对数据集中样本点的分类结果可以将无穷种假设分成 $effective(N)$ 种,
    如果 $effective(N) << 2^N$ ,机器学习是有可能的
  • 成长函数 $m_{\mathcal{H}}(N)$ 是含N个数据点的数据集最多的假设种类数
    ($m_{\mathcal{H}}(N) = \mathop{max}\limits_{\vec{x_1},…,\vec{x_N} \in \mathcal{X}} \lvert \mathcal{H}(x_1,…,x_N) \rvert$)
  • $m_{\mathcal{H}}(N) = O(N^{k-1})$ ($k$ 是break point,也就是 $k$ 个样本点类别的 $2^k$ 种情况
    都能被 $\mathcal{H}$ 中其中一个假设全部正确分类)

2.2 Theory of Generalization

  • $N > k$ 时,$m_{\mathcal{H}}(N)$ 会比 $2^N$ 小的多
  • Bounding Function $B(N,k)$ 是 $m_{\mathcal{H}}(N)$ 的上限,以下是它的一些性质:

    • $k = 1$ 时,$B(N,1) = 1$

    • $N < k$ 时,$B(N,k) = 2^N$ (相当于没有限制)

    • $N = k$ 时,$B(N,k) = 2^k - 1$ (刚出现不能被覆盖的分类情况)

  • 通过递推得到 $B(N,k)$ 其他情况下的一些性质:

    • 把 $N$ 个样本可以被覆盖的二分情况再分为两类:第一类每两种情况的 $x_1$ 到 $x_{k-1}$ 的类别完全相同,$x_k$ 的类别不同且成对,其他为第二类

    • 第一类情况个数记为 $\alpha$,第二类为 $\beta$,存在以下关系:$B(N,k) = 2\alpha + \beta$、
      $\alpha + \beta \leq B(N-1,k)$、$\alpha \leq B(N-1,k-1)$

    • 因此可以得到 $B(N,k) = B(N-1,k) + B(N-1,k-1)$ (取等证明略)

    • 因此 $B(N,k) = \sum\limits_{i=0}^{k-1} C_i^N$,最高次项为 $N^{k-1}$,所以成长函数 $m_{\mathcal{H}}(N)$ 是 $poly(N)$ 的

  • 用成长函数 $m_{\mathcal{H}}(N)$ 替代 $M$ 证明 $E_{in}$ 和 $E_{out}$ 是PAC的

    • 证明略

    • VC bound:$P_{\mathcal{D}}(\lvert E_{in} - E_{out} \rvert > \epsilon) \leq 4m_{\mathcal{H}}(N)exp(-\frac{1}{8} \epsilon^2 N)$

2.3 The VC Dimension

本节介绍VC维的意义及其与泛化能力的关系

  • VC维的定义:使得 $m_{\mathcal{H}}(N) = 2^N$ 成立的最大N,记为 $d_{VC}$

    • 机器学习的条件:1、$m_{\mathcal{H}}(N)$ 有间断点k;2、样本数N足够大(这两点保证 $E_{out}$ 和 $E_{in}$ PAC);
      3、合适的算法 $\mathcal{A}$ (保证 $E_{in} \approx 0$)

    • $d_{VC}$ 有限时,$E_{out}$ 和 $E_{in}$ 是PAC的

  • $d_{VC} = d+1$

    • 先证明 $d_{VC} \geq d+1$,由于 $X\vec{w}_{d+1} = \vec{y}_{d+1}$ 可得 $\vec{w} = X^{-1}\vec{y}$
      (X有 $d+1$ 个维度和 $d+1$ 个样本).

      因此对每一种 $\vec{y}$,$\vec{w}$ 唯一确定. $\vec{w}$ 的所有情况也就可以覆盖 $\vec{y}$ 的所有情况

    • 再证明 $d_{VC} \leq d+1$,也就是对 $d+2$ 个样本 $\vec{w}$ 的所有情况不可以覆盖 $\vec{y}$ 的所有情况

      由于 $\vec{x}_{d+2}$ (第 $d+2$ 个样本) 能被表示成前 $d+1$ 个样本的线性组合.

      也就是:$\vec{x}_{d+2} = a_1\vec{x}_{1} + … + a_{d+1}\vec{x}_{d+1}$

      因此存在 $\vec{w}$ 使得 $\vec{x}_{d+2}\vec{w} = a_1\vec{x}_{1}\vec{w} + … + a_{d+1}\vec{x}_{d+1}*\vec{w}>0$

      这种情况下 $\vec{x}_{d+2}$ 一定是正类. $\vec{w}$ 的所有情况不能覆盖 $\vec{y}$ 的所有情况

  • $d_{VC}$ 的物理意义:假设空间的自由度。所以 $M$ 和 $d_{VC}$ 是成正比的
  • $d_{VC}$ 和泛化能力、样本复杂度以及模型复杂度的关系

    • $E_{out}(g) \leq E_{in}(g) + \sqrt{\dfrac{8}{N} \ln{\dfrac{4(2N)^{d_{VC}}}{\delta}}}$

    • $\Omega(N,\mathcal{H},\delta) = \sqrt{\dfrac{8}{N} \ln{\dfrac{4(2N)^{d_{VC}}}{\delta}}}$ 称为模型复杂度的惩罚项

    • 随着 $d_{VC}$ 增加,$E_{in}$ 下降,但是 $\Omega$ 上升。所以 $E_{out}$ 随 $d_{VC}$ 先下降后上升

    • 样本复杂度:$d_{VC}$ 固定的情况下,$N$ 的合理取值(理论上 $N \approx 10000d_{VC}$ 实际上只需要 $N \approx 10d_{VC}$)

2.4 Noise and Error

本节主要说了在数据集有噪声的情况下,VC维依然是成立的,机器学习依然是可能的

  • 样本由 $P(y|\vec{x})$ (也就是 $f(\vec{x}) + noise$ ) 产生
    • 只要 $\vec{x} \stackrel{\text{i.i.d}}{\sim}{P(\vec{x})}$ 和 $y \stackrel{\text{i.i.d}}{\sim}{P(y)}$,VC维理论依然成立
  • 误差的度量方式

    • 误差度量的特点:1、只考虑样本外的未知数据,2、分别考虑每个数据点的误差(不一定满足,但本课程只考虑这个)

    • 常用误差有:0-1误差和平均平方误差(MSE),前者用于分类,后者用于回归

    • 0-1误差下的 $f(\vec{x}) = \mathop{\arg\max}\limits_{y \in \mathcal{Y}} P(y|\vec{x})$,使得翻转噪声最小

    • MSE下的 $f(\vec{x}) = \sum\limits_{y \in \mathcal{Y}} yP(y|\vec{x})$,使得高斯噪声最小

  • 错误衡量设计的两种方式:有意义的或者易于设计算法
  • 通过”虚拟复制”某类错误对应的标签的样本w次的方法,可以计算 $E_{in}^w$ (w为某类错误的权重)

3. How Can Machines Learn?

3.1 Linear Regression

  • 线性回归使用超平面 $h(\vec{x}) = \vec{w}^T\vec{x}$ 估计真实值
  • 线性回归存在用伪逆表示的解析解 $\vec{w}_{LIN} = X^{\dagger}\vec{y}$

    • MSE误差最小等价于:$\min\limits_{\vec{w}} E_{in}(\vec{w}) = \frac{1}{N} \Vert X\vec{w} - \vec{y} \Vert^2$

    • 因为MSE损失函数为凸函数,所以 $\nabla E_{in}(\vec{w}) = 0$ 处即为最小值点

  • 线性回归相当于使 $\vec{y}$ 投影到由 $X$ 的特征张成的平面内,其中 $y - \hat{y}$ 是误差

    • $trace(I - H) = N-(d+1)$ 表示$\vec{y}$ 投影到由 $X$ 的特征张成的平面内损失的自由度

    • 如果有真实值来自于$f(X) \in span{X}$,那么对 noise 进行投影即 $I-H$ 操作可得:

      $\overline{E_{in}} = \frac{1}{N}\Vert y - \hat{y} \Vert^2 = \frac{1}{N}\Vert (I-H)\textbf{noise} \Vert^2 =
      \textbf{noise} (1-\frac{d+1}{N})$

    • $\overline{E_{out}} = \textbf{noise} (1+\frac{d+1}{N})$,随着 $N$ 逐渐增大 $\overline{E_{in}} \approx \overline{E_{out}}$

  • 用回归器进行分类的代价是更松的上界,因为 $err_{0/1} \leq err_{sqr}$,所以 $E_{out} \leq 分类E_{in} + 复杂度 \leq 回归E_{in} + 复杂度$

3.2 Logistic Regression

  • Logistic 回归的目标函数是 $P(+1|x)$,其假设为 $h(x) = \theta(\vec{w}^T x)$(其中 $\theta = \dfrac{1}{1+e^{-s}}$)
  • Logistic 回归的损失函数是交叉熵函数(似然函数的负对数 $L(\vec{w}) = \frac{1}{N}\sum\limits_{n=1}^{N} -\ln \theta(y_n \vec{w}^T \vec{x}_n)$)
  • Logistic 回归的损失函数是凸函数,因此其最小值在
    $\nabla E_{in}(\vec{w}) = \frac{1}{N} \sum\limits_{n=1}^{N} \theta(-y_n \vec{w}^T \vec{x}_n) (-y_n \vec{x}_n) = 0$ 处取得
  • Logistic 回归可以用梯度下降法求得 $L(\vec{w})$ 最小值
    • $\vec{w}$ 更新方式:$\vec{w}_{t+1} = \vec{w}_{t} + \eta \vec{v}$
    • $\eta$ 很小的时候可以泰勒展开近似,$E_{in}(\vec{w}_{t+1}) \approx E_{in}(\vec{w}_{t} + \eta \vec{v}^T \nabla E_{in}(\vec{w}_t))$
    • 当 $\vec{v}$ 与 $\nabla E_{in}(\vec{w}_t)$ 方向相反时(即 $\vec{v} = -\dfrac{\nabla E_{in}(\vec{w}_t)}{\Vert \nabla E_{in}(\vec{w}_t) \Vert}$)
      $E_{in}$ 下降最快
    • 我们希望 $\eta$ 与 $\Vert \nabla E_{in}(\vec{w}_t) \Vert$ 正相关,因此更新的式子可以改为:
      $\vec{w}_{t+1} = \vec{w}_{t} - \eta \nabla E_{in}(\vec{w}_t)$

3.3 Linear Models for Classification

  • 线性回归和Logistic 回归都可以解决线性分类问题
  • 随机梯度下降(SGD)可以简化更新操作到 $\mathcal{O}(1)$ 复杂度
    简化后的更新操作:$\vec{w}_{t+1} = \vec{w}_{t} - \eta \theta(-y_n \vec{w}_t^T \vec{x}_n) (-y_n \vec{x}_n)$
  • 多分类问题
    • OVA:对每一类和所有其他类别数据做二分类,分别计算 $P(k|\vec{x})$
      • 优点:高效,可以和所有类似Logistic 回归的算法结合
      • 缺点:K较大时容易类别不平衡
    • OVO:对每一类和每种其他类别数据做二分类
      • 优点:可以和所有二分类算法结合
      • 缺点:时空复杂度高,预测速度慢

3.4 Nonlinear Transformation

  • 可以用一非线性函数 $\Phi$ 将非线性函数映射到线性空间中,实现x域到z域特征转换
  • z域特征维度 $\tilde{d} = C_{Q+d}^{Q} = C_{Q+d}^{d} = \mathcal{O}(Q^d)$ 较大,
    会导致模型泛化能力差,时空复杂度高
  • 优先选择 $Q$ 较小的假设,如果 $E_{in}$ 太高在考虑复杂假设

4. How Can Machines Learn Better?

4.1 Hazard of Overfitting

  • 过拟合:$E_{in}$ 变小但是 $E_{out}$ 变大的过程。以下是过拟合常见原因:
    • VC Dimension太大
    • 随机噪声或系统性噪声过强
    • 训练样本数 $N$ 不够
  • 避免过拟合的措施:
    • 从简单的模型开始
    • 数据清理(修正明显错误的label或者删除错误样本点)
    • 数据增强(注意新增的数据可能和原来数据不是 $i.i.d.$ 的,尽量保证新数据内的样本是 $i.i.d.$ 的)
    • 正则化
    • 验证

4.2 Regularization

  • 正则化约束条件:$\Vert \vec{w} \Vert^2 \leq C$,$H_n \subset H(C) \subset H_m$ ($n<m$)
  • 最优解需要满足 $-\nabla E_{in}(w_{reg})$ 与 $w^Tw = C$ 的法向量平行,
    即 $\nabla E_{in}(w_{reg}) + \frac{2\lambda}{N}w_{reg}=0$
    • 求解 $w_{reg}$ 等价于最小化 $E_{aug} = E_{in} + \frac{\lambda}{N} w_{reg}^Tw_{reg}$
    • 多项式变换除了可以用朴素的 $x^n$,也可以用勒让德多项式
  • $E_{aug}$ 可以看成 $E_{out}$ 的代理
    • $E_{aug} = E_{in} + \frac{\lambda}{N} w^Tw$ 中的 $w^Tw$ 是单个假设的复杂度,记为 $\Omega(w)$。
      整个 $H$ 的复杂度为 $\Omega(H)$,$\Omega(w)$ 包含在 $\Omega(H)$ 中
    • 整个 $H$ 的VC维是 $d_{VC} = \tilde{d} + 1$,引入正则化限定条件 $H(C)$ 后的VC维记为 $d_{EFF}(H,A)$.
      则有 $d_{EFF}(H,A) \leq d_{VC}$
  • 正则化项选择方法
    • 基于目标特性,比如目标具有对称性则考虑用 $\sum\mathbb{I}(q \% 2==0)w^2_q$ 作为正则化项
    • 接近真实(曲线平滑、简单),如L1正则化 $\sum \vert w_q \vert$
    • 易于实现,如L2正则化 $\sum w^2_q$
    • 噪音越大,$\lambda$ 也要越大

4.3 Validation

模型选择指的是在 $M$ 个假设空间 $H_m$ 对应 $M$ 种算法 $A_m$ 中选择最优假设空间 $H_{m^*}$

使得 $g_{m^} = A_{m^}(D)$,$E_{out}(g_{m^*})$ 最小

  • 用验证集选择模型
    • 用 $E_{in}$ 选择模型是危险的(因为即用 $D$ 训练模型又用它选择模型)
    • 用 $E_{test}$ 选择模型是作弊且无法实现的(难以获得测试数据)
  • 验证集模型选择原理:$E_{out}(g) \mathop{\approx}\limits_{small K} E_{out}(g^-) \mathop{\approx}\limits_{large K} E_{val}(g^-)$
    • 验证集大小 $K$ 越大,$g^-$ 越不如 $g$,但是 $E_{val}$ 越接近 $E_{out}$ (学习曲线)
    • 验证集大小 $K$ 越小,$g^-$ 越接近 $g$,但是 $E_{val}$ 越不如 $E_{out}$ (学习曲线)
  • 留一法交叉验证(LOOCV) 的期望 $\mathop{\varepsilon}\limits_{D} E_{LOOCV}(H,A) = \overline{E_{out}}(N-1)$
    是对 $\overline{E_{out}}$的近似无偏估计
    • $E_{LOOCV} = \frac{1}{N} \sum\limits_{n=1}^{N} err(g_m^-(\vec{x}_n),y_n)$ ($K = 1$ 的特殊情况)
    • LOOCV的缺点:计算量大、结果不稳定
  • V折交叉验证公式:$E_{CV} = \frac{1}{V} \sum\limits_{v=1}^{V} E_{val}^{(v)}(g_v^-)$

4.4 Three Learning Principles

  • 奥卡姆剃刀原则:适合数据的最简单的模型是最合适的
  • 抽样误差:数据要匹配测试环境
  • 偷窥数据:容易造成过拟合。应当避免通过数据进行决策,并且对别人的研究成果保持警惕
  • power of three
    • 机器学习相关的三个领域:数据挖掘、机器学习、统计
    • 三个理论保证:霍夫丁不等式、多假设霍夫丁不等式、VC维
    • 三种线性模型:感知机、线性回归、Logistic回归
    • 三种重要的工具:特征转换、正则化、验证
    • 三个锦囊妙计:奥卡姆剃刀、防止抽样误差、谨慎偷窥数据
    • 机器学习未来方向:更多转换、更多正则化、更少标签

chap3 KNN模型简洁总结

由于KNN是一种基于实例学习的算法,不需要训练过程。

只需要确定了数据集、距离度量、k值以及分类规则,某个样本的类别就能被唯一确定。

因此下文不介绍学习策略和学习算法。

1、KNN模型

输入空间:$\mathcal{X} \in \mathbb{R}^n$

输出空间:$\mathcal{y} \in \{c_1,c_2,…,c_K\}$

特征空间:不显式学习

2、距离度量

一般采用 $L_p$ 距离(闵可夫斯基距离,Minkowski distance).

$L_p$ 的表达式:$L_p(\vec{x_i},\vec{x_j}) = (\sum\limits_{l=1}^n \lvert x_i^{(l)} - x_j^{(l)} \rvert ^p)^{\frac{1}{p}}$ $\quad$ ($p \geq 1$)

$p = 2$ 时就是欧氏距离:$L_2(\vec{x_i},\vec{x_j}) = \sqrt{\sum\limits_{l=1}^n (x_i^{(l)} - x_j^{(l)})^2}$

$p = 1$ 时称为曼哈顿距离:$L_1(\vec{x_i},\vec{x_j}) = \sum\limits_{l=1}^n \lvert x_i^{(l)} - x_j^{(l)} \rvert$

$p = \infty$ 时,它是各个维度坐标距离的最大值:$L_{\infty} = \max\limits_{l} \lvert x_i^{(l)} - x_j^{(l)} \rvert$

3、k值选择

k值过小,模型容易受到噪声点影响导致过拟合;k值过大则容易欠拟合.

k值一般通过交叉验证选取。

4、分类决策规则

一般考虑让经验风险最小,也就是误分类率 $\frac{1}{K} \sum\limits_{\vec{x_i} \in N_K(\vec{x})} \mathbb{I}(y_i \neq c_k)$ 最小

也就是要让 $\frac{1}{K} \sum\limits_{\vec{x_i} \in N_K(\vec{x})}\mathbb{I}(y_i = c_j) = 1 - \frac{1}{K} \sum\limits_{\vec{x_i} \in N_K(\vec{x})} \mathbb{I}(y_i \neq c_k)$ 最大

当损失函数为0-1损失很熟时,多数表决规则分类函数为:$y = \mathop{\arg\max}\limits_{c_j} \sum\limits_{\vec{x_i} \in N_K(\vec{x})}\mathbb{I}(y_i = c_j)$

所以多数表决规则等价于经验风险最小

chap2 感知机模型简洁总结

1、感知机模型

输入空间:$\mathcal{X} \in \mathbb{R}^n$

输出空间:$\mathcal{Y} = \{+1,-1\}$

特征空间:$\{f|f(\vec{x}) = sign(\vec{w} \cdot \vec{x} + b)\}$
($sign$ 为符号函数)

2、学习策略

$x_0$到超平面的距离:$\frac{1}{\Vert \vec{w} \Vert} \lvert \vec{w} \cdot \vec{x_0} + b \rvert$
($\Vert \vec{w} \Vert$ 是 $\vec{w}$ 的 $L_2$ 范数)

由于误分类点实际类别$y_i$与预测类别$f(\vec{x_i}) = sign(\vec{w} \cdot \vec{x_i} + b)$正负相反

因此误分类点到超平面的距离是:$-\frac{1}{\Vert \vec{w} \Vert} y_i (\vec{w} \cdot \vec{x_i} + b)$

为了便于求导,损失函数可以定义为:$L(\vec{w},b) = -\sum\limits_{x_i \in M} y_i (\vec{w} \cdot \vec{x_i} + b)$

3、学习算法

随机梯度下降:一次随机选取一个误分类点进行梯度下降

损失函数$L$ 分别对 $\vec{w}$ 和 $b$ 求梯度得:
$\nabla_{\vec{w}} L(\vec{w},b) = -\sum\limits_{x_i \in M} y_i \vec{x_i}$、
$\nabla_{b} L(\vec{w},b) = -\sum\limits_{x_i \in M} y_i$

参数更新方式:$\vec{w} = \vec{w} + \eta y_i x_i$、$b = b + \eta y_i$
($\eta \in (0,1]$ 为学习率)

参数一直更新,直到样本点中没有误分类点为止。

4、对偶问题

由上文的学习算法可得,$\vec{w}$ 和 $b$ 是通过逐次随机选取一个误分类点更新而来

因此可以设 $\vec{w}$ 的每个元素和 $b$ 都为0,参数总共更新 $n$ 次;

最终学习到的 $\vec{w}$ 和 $b$ 可以表示为:
$\vec{w} = \sum\limits_{i=1}\limits^{N} \alpha_i y_i x_i$、
$b = \sum\limits_{i=1}\limits^{N} \alpha_i y_i$
($\alpha_i = n_i \eta$,其中 $n_i$ 为点i被选中用于更新的次数)

由第三节中提到的 $\vec{w}$ 和 $b$ 的更新方式,可以反推出 $\alpha$ 和 $b$ 的更新方式:

$\alpha_i = \alpha_i + \eta$、$b = b + \eta y_i$

粗糙度定标公式整理

1 公式形式

\begin{equation}\tag{1}
L_{opt1}(rms,\theta,pp) = \alpha rms^{\beta}
\end{equation}

2 公式

2.1 在HH极化下的公式

latex 测试

高斯粗糙面的均方根斜率可以表示为均方根高度和相关长度的函数:

matlab编码规范学习

命名约定

变量

变量名应该记录它们的含义或用途。

1
wage = hourlyRate * nHours

从小写开始用混合大小写命名变量名

以大写开头的名称通常是为类型或者结构体保留的。

很短的变量名可以是大写的,如果它们在常规用法中是大写的,并且不太可能成为复合变量名的一部分。

例如在特定领域,杨氏模量的E,可能会被误导为e。

有些程序员喜欢用下划线来分隔复合变量名的各个部分。

这种方式虽然易于阅读,但在其他语言中并不常用来命名变量。

在图形标题、标签和图例的变量名中使用下划线的另一个考虑因素是,MATLAB中的Tex解释器将把下划线转换为下标来读取,因此需要为每个文本字符串应用参数/值对进行设置,即‘Interpreter’,’none’。

具有大作用域的变量应该具有有意义的命名,作用域小的变量可以有简短的命名

在实践中,大多数变量都应该具有有意义的名字。

在某些条件下,应保留使用简短的命名,以澄清陈述的结构或与预期的通用性相一致。

python风格规范学习

分号

规则

不要在行尾加分号, 也不要用分号将两条命令放在同一行.

行长度

规则

每行不超过80个字符,但有几个例外:

1.长的导入模块语句

2.注释里的URL,路径以及其他的一些长标记

3.不便于换行,不包含空格的模块级字符串常量,比如url或者路径

除非是在 with 语句需要三个以上的上下文管理器的情况下,否则不要使用反斜杠连接行.

Python会将 圆括号, 中括号和花括号中的行隐式的连接起来 , 你可以利用这个特点.

如果需要, 你可以在表达式外围增加一对额外的圆括号.

1
2
if (width == 0 and height == 0 and
color == 'red' and emphasis == 'strong'):

如果一个文本字符串在一行放不下, 可以使用圆括号来实现隐式行连接:

1
2
x = ('This will build a very long long '
'long long long long long long string')

在注释中,如果必要,将长的URL放在一行上。
正确样例:(可以Ctrl+鼠标左键打开网址)

1
2
# See details at
# http://www.example.com/us/developer/documentation/api/content/v2.0/csv_file_name_extension_full_specification.html

错误样例:(网址不连续直接打不开)

1
2
3
# See details at
# http://www.example.com/us/developer/documentation/api/content/\
# v2.0/csv_file_name_extension_full_specification.html

当 with 表达式需要使用三个及其以上的上下文管理器时,可以使用反斜杠换行.

若只需要两个,请使用嵌套的with.
正确样例1:

1
2
3
4
5
6
# 注意三个上下文管理器都要采取相同缩进
# place_order比with多一个缩进(不和前几行对齐)
with very_long_first_expression_function() as spam, \
very_long_second_expression_function() as beans, \
third_thing() as eggs:
place_order(eggs, beans, spam, beans)

正确样例2:

1
2
3
4
# 每个嵌套多一个缩进
with very_long_first_expression_function() as spam:
with very_long_second_expression_function() as beans:
place_order(beans, spam)

错误样例2:

1
2
3
with VeryLongFirstExpressionFunction() as spam, \
VeryLongSecondExpressionFunction() as beans:
PlaceOrder(eggs, beans, spam, beans)

括号

规则

宁缺毋滥的使用括号

除非是用于实现行连接, 否则不要在返回语句或条件语句中使用括号.

不过在元组两边使用括号是可以的.

正确样例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
if foo:
bar()
while x:
x = bar()
if x and y:
bar()
if not x:
bar()
# 对一个单元素元组可以(x,)的形式强调它的元组属性
onesie=(foo,)
return foo
return spam,beans
return (spam,beans) # 注意这边返回的是元组,所以用括号
for (x,y) in dict.items():
bar()

错误样例:

1
2
3
4
5
6
# 容易误以为是函数
if (x):
bar()
if not(x):
bar()
return (foo)

但我个人认为在做数值计算的时候,如果必须要使用比较长的表达式时,

可以适当增加括号防止运算顺序出问题。

缩进

规则

用4个空格来缩进代码

绝对不要用tab, 也不要tab和空格混用.

对于行连接的情况, 你应该要么垂直对齐换行的元素(见 行长度 部分的示例),

或者使用4空格的悬挂式缩进(这时第一行不应该有参数):

正确样例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 使用分隔符对齐
foo = long_function_name(var1, var2,
var3, var4)

# 在字典中使用分隔符对齐
foo = {
long_dictionary_key: value1 +
value2,
}

# 四空格悬挂式缩进
foo = long_function_name(
var1,var2,var3,
var4)

# 字典中的四空格悬挂式缩进
foo = {
long_dictionary_key:
long_dictionary_value,
}

错误样例:

1
2
3
4
5
6
7
8
9
10
11
12
# 不对齐
foo = long_function_name(var1, var2,
var3, var4)
# 两格的缩进
foo = long_function_name(
var1, var2, var3,
var4
)
# 字典中不使用悬挂式缩进
foo = {long_dictionary_key:
long_dictionary_value,
}

序列元素尾部逗号

规则

仅当 ], ), } 和末位元素不在同一行时,推荐使用序列元素尾部逗号

正确示例:

1
2
3
4
5
6
7
golomb3 = [0, 1, 3]
golomb4 = [
0,
1,
4,
6,
]

空行

规则

顶级定义之间空两行, 比如函数或者类定义. 方法定义, 类定义与第一个方法之间, 都应该空一行.

函数或方法中, 某些地方要是你觉得合适, 就空一行.

空格

规则

括号内不要有空格.

正确样例:

1
spam(ham[1], {eggs: 2}, [])

错误样例:

1
spam( ham[ 1 ], { eggs: 2 }, [ ] )

不要在逗号, 分号, 冒号前面加空格, 但应该在它们后面加(除了在行尾).

正确样例:

1
2
3
if x == 4:
print(x, y)
x, y = y, x

错误样例:

1
2
3
if x == 4 :
print(x , y)
x , y = y , x

参数列表, 索引或切片的左括号前不应加空格.

正确样例:

1
2
spam(1)
dict['key'] = list[index]

错误样例:

1
2
spam (1)
dict ['key'] = list [index]

在二元操作符两边都加上一个空格, 比如赋值(=), 比较(==, <, >, !=, <>, <=, >=, in, not in, is, is not), 布尔(and, or, not).

至于算术操作符两边的空格该如何使用, 需要你自己好好判断.

不过两侧务必要保持一致.

正确样例:

1
2
3
x == 1
x = x + 1
x = x+1

错误样例:

1
2
x<1
x =x +1

当 = 用于指示关键字参数或默认参数值时, 不要在其两侧使用空格.

但若存在类型注释的时候,需要在 = 周围使用空格.

正确样例:

1
2
3
4
5
def complex(real, imag=0.0):
return magic(r=real,i=imag)

def complex(real, imag: float = 0.0):
return magic(r=real,i=imag)

错误样例:

1
2
3
4
def complex(real, imag = 0.0): 
return magic(r = real, i = imag)
def complex(real, imag: float=0.0):
return Magic(r = real, i = imag)

不要用空格来垂直对齐多行间的标记, 因为这会成为维护的负担(适用于:, #, =等):

正确样例:

1
2
3
4
5
6
7
foo = 1000  # comment
long_name = 2 # comment that should not be aligned

dictionary = {
"foo": 1,
"long_name": 2,
}

错误样例:

1
2
3
4
5
6
7
foo       = 1000  # comment
long_name = 2 # comment that should not be aligned

dictionary = {
"foo" : 1,
"long_name": 2,
}

Shebang

规则

! 先用于帮助内核找到Python解释器, 但是在导入模块时, 将会被忽略.

因此只有被直接执行的文件中才有必要加入 #! .

注释

文档字符串

Python有一种独一无二的的注释方式: 使用文档字符串.

文档字符串是包、模块、类或函数里的第一个语句.

这些字符串可以通过对象的 doc 成员被自动提取, 并且被pydoc所用.

我们对文档字符串的惯例是使用三重双引号”””( PEP-257 ).

一个文档字符串应该这样组织: 首先是一行以句号, 问号或惊叹号结尾的概述(或者该文档字符串单纯只有一行).

接着是一个空行. 再接着是文档字符串剩下的部分, 它应该与文档字符串的第一行的第一个引号对齐.

模块

每个文件应该包含一个许可样板.

根据项目使用的许可(例如, Apache 2.0, BSD, LGPL, GPL), 选择合适的样板.

其开头应是对模块内容和用法的描述.

正确样例:

1
2
3
4
5
6
7
8
9
10
11
12
"""A one line summary of the module or program, terminated by a period.

Leave one blank line. The rest of this docstring should contain an
overall description of the module or program. Optionally, it may also
contain a brief description of exported classes and functions and/or usage
examples.

Typical usage example:

foo = ClassFoo()
bar = foo.FunctionBar()
"""

函数和方法

下文所指的函数,包括函数, 方法, 以及生成器.

一个函数必须要有文档字符串, 除非它满足以下条件:

1.外部不可见;2.非常短小;3.简单明了;

文档字符串应该包含函数做什么, 以及输入和输出的详细描述. 通常, 不应该描述”怎么做”, 除非是一些复杂的算法. 文档字符串应该提供足够的信息, 当别人编写代码调用该函数时, 他不需要看一行代码, 只要看文档字符串就可以了. 对于复杂的代码, 在代码旁边加注释会比使用文档字符串更有意义. 覆盖基类的子类方法应有一个类似 See base class 的简单注释来指引读者到基类方法的文档注释.若重载的子类方法和基类方法有很大不同,那么注释中应该指明这些信息.

关于函数的几个方面应该在特定的小节中进行描述记录,这几个方面如下文所述.

每节应该以一个标题行开始. 标题行以冒号结尾.

除标题行外, 节的其他内容应被缩进2个空格.

Args:

列出每个参数的名字, 并在名字后使用一个冒号和一个空格, 分隔对该参数的描述.
如果描述太长超过了单行80字符,使用2或者4个空格的悬挂缩进(与文件其他部分保持一致). 
描述应该包括所需的类型和含义. 如果一个函数接受*foo(可变长度参数列表)或者**bar (任意关键字参数), 应该详细列出*foo和**bar.

Returns: (或者 Yields: 用于生成器):

描述返回值的类型和语义. 如果函数返回None, 这一部分可以省略.

Raises:

列出与接口有关的所有异常.

正确样例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
def fetch_smalltable_rows(table_handle: smalltable.Table,
keys: Sequence[Union[bytes, str]],
require_all_keys: bool = False,
) -> Mapping[bytes, Tuple[str]]:
"""Fetches rows from a Smalltable.

Retrieves rows pertaining to the given keys from the Table instance
represented by table_handle. String keys will be UTF-8 encoded.

Args:
table_handle: An open smalltable.Table instance.
keys: A sequence of strings representing the key of each table
row to fetch. String keys will be UTF-8 encoded.
require_all_keys: Optional; If require_all_keys is True only
rows with values set for all keys will be returned.

Returns:
A dict mapping keys to the corresponding table row data
fetched. Each row is represented as a tuple of strings. For
example:

{b'Serak': ('Rigel VII', 'Preparer'),
b'Zim': ('Irk', 'Invader'),
b'Lrrr': ('Omicron Persei 8', 'Emperor')}

Returned keys are always bytes. If a key from the keys argument is
missing from the dictionary, then that row was not found in the
table (and require_all_keys must have been False).

Raises:
IOError: An error occurred accessing the smalltable.
"""

在 Args: 上进行换行也是可以的:

正确样例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
def fetch_smalltable_rows(table_handle: smalltable.Table,
keys: Sequence[Union[bytes, str]],
require_all_keys: bool = False,
) -> Mapping[bytes, Tuple[str]]:
"""Fetches rows from a Smalltable.

Retrieves rows pertaining to the given keys from the Table instance
represented by table_handle. String keys will be UTF-8 encoded.

Args:
table_handle:
An open smalltable.Table instance.
keys:
A sequence of strings representing the key of each table row to
fetch. String keys will be UTF-8 encoded.
require_all_keys:
Optional; If require_all_keys is True only rows with values set
for all keys will be returned.

Returns:
A dict mapping keys to the corresponding table row data
fetched. Each row is represented as a tuple of strings. For
example:

{b'Serak': ('Rigel VII', 'Preparer'),
b'Zim': ('Irk', 'Invader'),
b'Lrrr': ('Omicron Persei 8', 'Emperor')}

Returned keys are always bytes. If a key from the keys argument is
missing from the dictionary, then that row was not found in the
table (and require_all_keys must have been False).

Raises:
IOError: An error occurred accessing the smalltable.
"""

类的注释

类应该在其定义下有一个用于描述该类的文档字符串.

如果你的类有公共属性(Attributes), 那么文档中应该有一个属性(Attributes)段.

并且应该遵守和函数参数相同的格式.

正确样例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
class SampleClass(object):
"""Summary of class here.

Longer class information....
Longer class information....

Attributes:
likes_spam: A boolean indicating if we like SPAM or not.
eggs: An integer count of the eggs we have laid.
"""

def __init__(self, likes_spam=False):
"""Inits SampleClass with blah."""
self.likes_spam = likes_spam
self.eggs = 0

def public_method(self):
"""Performs operation blah."""

块注释和行注释

最需要写注释的是代码中那些技巧性的部分.

如果你在下次 代码审查 的时候必须解释一下, 那么你应该现在就给它写注释.

对于复杂的操作, 应该在其操作开始前写上若干行注释.

对于不是一目了然的代码, 应在其行尾添加注释.

正确样例:

1
2
3
4
5
6
# We use a weighted dictionary search to find out where i is in
# the array. We extrapolate position based on the largest num
# in the array and the array size and then do binary search to
# get the exact number.

if i & (i-1) == 0: # True if i is 0 or a power of 2.

为了提高可读性, 注释应该至少离开代码2个空格.

另一方面, 绝不要描述代码. 假设阅读代码的人比你更懂Python, 他只是不知道你的代码要做什么.

错误样例:

1
2
# BAD COMMENT: Now go through the b array and make sure whenever i occurs
# the next element is i+1

标点符号,拼写和语法

规则

注意标点符号,拼写和语法

注释应有适当的大写和标点,句子应该尽量完整.对于诸如在行尾上的较短注释,可以不那么正式,但是也应该尽量保持风格一致.

规则

如果一个类不继承自其它类, 就显式的从object继承. 嵌套类也一样.(除非是为了和 python2 兼容)

正确样例:

1
2
3
4
5
6
7
8
9
10
11
12
class SampleClass(object):
pass


class OuterClass(object):

class InnerClass(object):
pass


class ChildClass(ParentClass):
"""已从另一个类显式继承。"""

错误样例:

1
2
3
4
5
6
7
8
class SampleClass:
pass


class OuterClass:

class InnerClass:
pass

继承自 object 是为了使属性(properties)正常工作, 并且这样可以保护你的代码, 使其不受 PEP-3000 的一个特殊的潜在不兼容性影响.

字符串

规则

即使参数都是字符串, 使用%操作符或者格式化方法格式化字符串.

不过也不能一概而论, 你需要在+和%之间好好判定.

正确样例:

1
2
3
4
5
x = a + b
x = '%s, %s!' % (imperative, expletive)
x = '{},{}!'.format(name, n)
x = 'name: %s; score: %d' % (name, n)
x = 'name: {}; score: {}'.format(name, n)

错误样例:

1
2
3
4
x = '%s%s' % (a, b)  # use + in this case
x = '{}{}'.format(a, b) # use + in this case
x = imperative + ', ' + expletive + '!'
x = 'name: ' + name + '; score: ' + str(n)

避免在循环中用+和+=操作符来累加字符串. 由于字符串是不可变的, 这样做会创建不必要的临时对象, 并且导致二次方而不是线性的运行时间.

作为替代方案, 你可以将每个子串加入列表, 然后在循环结束后用 .join 连接列表. (也可以将每个子串写入一个 cStringIO.StringIO 缓存中.)

正确样例:

1
2
3
4
5
items = ['<table>']
for last_name, first_name in employee_list:
item.append('<tr><td>%s, %s<td></tr>' % (last_name, first_name))
item.append('</table>')
employee_table = ''.join(items)

错误样例:

1
2
3
4
employee_table = '<table>'
for last_name, first_name in employee_list:
employee_table += '<tr><td>%s, %s</td></tr>' % (last_name, first_name)
employee_table += '</table>'

在同一个文件中, 保持使用字符串引号的一致性.

使用单引号’或者双引号”之一用以引用字符串, 并在同一文件中沿用.

在字符串内可以使用另外一种引号, 以避免在字符串中使用.

正确样例:

1
2
3
Python('Why are you hiding your eyes?')
Gollum("I'm scared of lint errors.")
Narrator('"Good!" thought a happy Python reviewer.')

错误样例:

1
2
3
Python("Why are you hiding your eyes?")
Gollum('The lint. It burns. It burns us.')
Gollum("Always the great lint. Watching. Watching.")

为多行字符串使用三重双引号”””而非三重单引号’’’.

当且仅当项目中使用单引号’来引用字符串时, 才可能会使用三重’’’为非文档字符串的多行字符串来标识引用. 文档字符串必须使用三重双引号”””.

多行字符串不应随着代码其他部分缩进的调整而发生位置移动.

如果需要避免在字符串中嵌入额外的空间,可以使用串联的单行字符串或者使用 textwrap.dedent() 来删除每行多余的空间.

错误样例:

1
2
3
long_string = """This is pretty ugly.
Don't do this.
"""

正确样例1:

1
2
3
4
5
6
7
8
long_string = """This is fine if your use case can accept
extraneous leading spaces."""

long_string = ("And this is fine if you cannot accept\n" +
"extraneous leading spaces.")

long_string = ("And this too is fine if you cannot accept\n"
"extraneous leading spaces.")

正确样例2:

1
2
3
4
5
import textwrap

long_string = textwrap.dedent("""\
This is also fine, because textwrap.dedent()
will collapse common leading spaces in each line.""")

文件和sockets

规则

在文件和sockets结束时, 显式的关闭它.

除文件外, sockets或其他类似文件的对象在没有必要的情况下打开, 会有许多副作用

推荐使用 “with”语句 以管理文件:

正确样例:

1
2
3
with open('hello.txt') as hello_file:
for line in hello_file:
print(line)

对于不支持使用”with”语句的类似文件的对象,使用 contextlib.closing():
正确样例:

1
2
3
4
5
import contextlib

with contextlib.closing(urllib.urlopen("http://www.python.org/")) as front_page:
for line in front_page:
print(line)

TODO注释

规则

为临时代码使用TODO注释, 它是一种短期解决方案.

TODO注释应该在所有开头处包含”TODO”字符串, 紧跟着是用括号括起来的你的名字, email地址或其它标识符.

然后是一个可选的冒号. 接着必须有一行注释, 解释要做什么.

主要目的是为了有一个统一的TODO格式, 这样添加注释的人就可以搜索到(并可以按需提供更多细节).

写了TODO注释并不保证写的人会亲自解决问题.

当你写了一个TODO, 请注上你的名字.

如果你的TODO是”将来做某事”的形式, 那么请确保你包含了一个指定的日期(“2009年11月解决”)或者一个特定的事件(“等到所有的客户都可以处理XML请求就移除这些代码”).

1
2
# TODO(kl@gmail.com): Use a "*" here for string repetition.
# TODO(Zeke) Change this to use relations.

导入格式

每个导入应该独占一行, typing 的导入除外

导入总应该放在文件顶部, 位于模块注释和文档字符串之后, 模块全局变量和常量之前. 导入应该按照从最通用到最不通用的顺序分组:

future导入

future“目的是把下一个版本的特性导入到当前版本

future语句必须在靠近模块开头的位置出现。只有以下内容可以放在future语句之前。

1、模块的文档字符串

2、注释

3、空行

4、其他future语句

1
2
3
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

标准库导入

1
import sys

第三方库导入

1
import tensorflow as tf

本地代码子包导入

1
from otherproject.ai import mind

示例

每种分组中, 应该根据每个模块的完整包路径按字典序排序, 忽略大小写.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
# __future__导入
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

# 标准库
import collections
import queue
import sys

# 第三方库
from absl import app
from absl import flags
import bs4
import cryptography
import tensorflow as tf

# 本地代码子包导入
from book.genres import scifi
from myproject.backend import huxley
from myproject.backend.hgwells import time_machine
from myproject.backend.state_machine import main_loop
from otherproject.ai import body
from otherproject.ai import mind
from otherproject.ai import soul

# Older style code may have these imports down here instead:
#from myproject.backend.hgwells import time_machine
#from myproject.backend.state_machine import main_loop

语句

规则

通常每个语句应该独占一行.不过, 如果测试结果与测试语句在一行放得下, 你也可以将它们放在同一行.

如果是if语句, 只有在没有else时才能这样做.

特别地, 绝不要对 try/except 这样做, 因为try和except不能放在同一行.

正确样例:

1
if foo: bar(foo)

错误样例:

1
2
3
4
5
6
7
8
9
if foo: bar(foo)
else: baz(foo)

try: bar(foo)
except ValueError: baz(foo)

try:
bar(foo)
except ValueError: baz(foo)

访问控制

规则

在Python中, 对于琐碎又不太重要的访问函数, 你应该直接使用公有变量来取代它们, 这样可以避免额外的函数调用开销.

当添加更多功能时, 你可以用属性(property)来保持语法的一致性.

另一方面, 如果访问更复杂, 或者变量的访问开销很显著, 那么你应该使用像 get_foo() 和 set_foo() 这样的函数调用.

如果之前的代码行为允许通过属性(property)访问, 那么就不要将新的访问函数与属性绑定.

这样, 任何试图通过老方法访问变量的代码就没法运行, 使用者也就会意识到复杂性发生了变化.

命名

规则

模块名写法: module_name ;包名写法: package_name ;类名: ClassName ;方法名: method_name ;异常名: ExceptionName ;函数名: function_name ;全局常量名: GLOBAL_CONSTANT_NAME ;全局变量名: global_var_name ;实例名: instance_var_name ;函数参数名: function_parameter_name ;局部变量名: local_var_name .

函数名,变量名和文件名应该是描述性的,尽量避免缩写,特别要避免使用非项目人员不清楚难以理解的缩写,不要通过删除单词中的字母来进行缩写.

始终使用 .py 作为文件后缀名,不要用破折号.

应该避免的名称

1.单字符名称, 除了计数器和迭代器,作为 try/except 中异常声明的 e,作为 with 语句中文件句柄的 f.

2.包/模块名中的连字符(-)

3.双下划线开头并结尾的名称(Python保留, 例如init)

命名约定

1.所谓”内部(Internal)”表示仅模块内可用, 或者, 在类内是保护或私有的.

2.用单下划线(_)开头表示模块变量或函数是protected的(使用from module import *时不会包含).

3.用双下划线(__)开头的实例变量或方法表示类内私有.

4.将相关的类和顶级函数放在同一个模块里. 不像Java, 没必要限制一个类一个模块.

5.对类名使用大写字母开头的单词(如CapWords, 即Pascal风格), 但是模块名应该用小写加下划线的方式(如lower_with_under.py).

尽管已经有很多现存的模块使用类似于CapWords.py这样的命名, 但现在已经不鼓励这样做, 因为如果模块名碰巧和类名一致, 这会让人困扰.

文件名

所有python脚本文件都应该以 .py 为后缀名且不包含 -.若是需要一个无后缀名的可执行文件,可以使用软联接或者包含 exec “$0.py” “$@” 的bash脚本.

Python之父Guido推荐的规范

详见https://zh-google-styleguide.readthedocs.io/en/stable/google-python-styleguide/python_style_rules/#section-1

Main

规则

即使是一个打算被用作脚本的文件, 也应该是可导入的. 并且简单的导入不应该导致这个脚本的主功能(main functionality)被执行, 这是一种副作用. 主功能应该放在一个main()函数中.

1
2
在Python中, pydoc以及单元测试要求模块必须是可导入的. 
你的代码应该在执行主程序前总是检查 if __name__ == '__main__' , 这样当模块被导入时主程序就不会被执行.

若使用 absl, 请使用 app.run :

1
2
3
4
5
6
7
8
from absl import app

def main(argv):
# process non-flag arguments
...

if __name__ == '__main__':
app.run(main)

否则使用:

1
2
3
4
5
def main():
...

if __name__ == '__main__':
main()

函数长度

规则

推荐函数功能尽量集中,简单,小巧

不对函数长度做硬性限制.但是若一个函数超过了40行,推荐考虑一下是否可以在不损害程序结构的情况下对其进行分解.

因为即使现在长函数运行良好,但几个月后可能会有人修改它并添加一些新的行为,这容易产生难以发现的bug.保持函数的简练,使其更加容易阅读和修改.

当遇到一些很长的函数时,若发现调试比较困难或是想在其他地方使用函数的一部分功能,不妨考虑将这个长函数进行拆分.

类型注释

通用规则

1.请先熟悉下 ‘PEP-484 https://www.python.org/dev/peps/pep-0484/

2.对于方法,仅在必要时才对 self 或 cls 注释

3.若对类型没有任何显示,请使用 Any

4.无需注释模块中的所有函数

python语言规范学习

导入

规则

仅对包和模块使用导入,而不单独导入函数或者类。’typing’模块例外。

导入时不要使用相对名称. 即使模块在同一个包中, 也要使用完整包名.

这能帮助你避免无意间导入一个包两次.

优点

命名空间管理约定十分简单. 每个标识符的源都用一种一致的方式指示.

x.Obj表示Obj对象定义在模块x中.

缺点

模块名仍可能冲突. 有些模块名太长, 不太方便.

实现方式

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 1.使用 import x 来导入包和模块.
# python自带的包一般使用这种方式
import math

# 2.使用 from x import y
# 其中x是包前缀, y是不带前缀的模块名.
from mpl_toolkits.basemap import Basemap

# 3.使用 from x import y as z
# 如果两个要导入的模块都叫做y或者y太长了.
from matplotlib import pyplot as plt
# 其实plt用第二种方式导入更多

# 4.仅当缩写 z 是通用缩写时才可使用 import y as z.
import numpy as np

规则

使用模块的全路径名来导入每个模块

所有的新代码都应该用完整包名来导入每个模块.

优点

避免模块名冲突或是因非预期的模块搜索路径导致导入错误. 查找包更容易.

缺点

部署代码变难, 因为你必须复制包层次.

实现样例

正确样例1:

1
2
3
4
5
# 在代码中引用完整名称 absl.flags (详细情况).
import absl.flags
from doctor.who import jodie

FLAGS = absl.flags.FLAGS

正确样例2:

1
2
3
4
5
# 在代码中仅引用模块名 flags (常见情况).
from absl import flags
from doctor.who import jodie

FLAGS = flags.FLAGS

错误样例:

1
2
3
# 没能清晰指示出作者想要导入的模块和最终被导入的模块.
# 实际导入的模块将取决于 sys.path.
import jodie

不应假定主入口脚本所在的目录就在 sys.path 中,虽然这种情况是存在的。

当主入口脚本所在目录不在 sys.path 中时,代码将假设 import jodie 是

导入的一个第三方库或者是一个名为 jodie 的顶层包,而不是本地的 jodie.py

异常

规则

异常是一种跳出代码块的正常控制流来处理错误或者其它异常条件的方式.

允许使用异常, 但必须小心

  • Copyrights © 2022-2026 CPY
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信