Skip to content

Commit

Permalink
[dataset] Simplifying country code mapping (#107)
Browse files Browse the repository at this point in the history
* [dataset] Simplifying country code mapping

* update a small bug in prob_dist
  • Loading branch information
HumphreyYang authored Oct 25, 2024
1 parent b820590 commit fce886a
Show file tree
Hide file tree
Showing 2 changed files with 12 additions and 147 deletions.
145 changes: 1 addition & 144 deletions lectures/datasets/country_code_cn.csv
Original file line number Diff line number Diff line change
@@ -1,171 +1,28 @@
code,name,name_chinese
AFG,Afghanistan,阿富汗
AGO,Angola,安哥拉
ALB,Albania,阿尔巴尼亚
ARE,United Arab Emirates,阿拉伯联合酋长国
ARG,Argentina,阿根廷
ARM,Armenia,亚美尼亚
AUS,Australia,澳大利亚
AUT,Austria,奥地利
AZE,Azerbaijan,阿塞拜疆
BDI,Burundi,布隆迪
BEL,Belgium,比利时
BEN,Benin,贝宁
BFA,Burkina Faso,布基纳法索
BGD,Bangladesh,孟加拉国
BGR,Bulgaria,保加利亚
BHR,Bahrain,巴林
BIH,Bosnia and Herzegovina,波斯尼亚和黑塞哥维那
BLR,Belarus,白俄罗斯
BOL,Bolivia (Plurinational State of),玻利维亚
BEM,British Empire,大英帝国
BRA,Brazil,巴西
BRB,Barbados,巴巴多斯
BWA,Botswana,博茨瓦纳
CAF,Central African Republic,中非共和国
CAN,Canada,加拿大
CHE,Switzerland,瑞士
CHL,Chile,智利
CHN,China,中国
CIV,Côte d'Ivoire,科特迪瓦
CMR,Cameroon,喀麦隆
COD,D.R. of the Congo,刚果民主共和国
COG,Congo,刚果共和国
COL,Colombia,哥伦比亚
COM,Comoros,科摩罗
CPV,Cabo Verde,佛得角
CRI,Costa Rica,哥斯达黎加
CSK,Czechoslovakia,捷克斯洛伐克
CUB,Cuba,古巴
CYP,Cyprus,塞浦路斯
CZE,Czech Republic,捷克共和国
DEU,Germany,德国
DJI,Djibouti,吉布提
DMA,Dominica,多米尼克
DNK,Denmark,丹麦
DOM,Dominican Republic,多米尼加共和国
DZA,Algeria,阿尔及利亚
ECU,Ecuador,厄瓜多尔
EGY,Egypt,埃及
ESP,Spain,西班牙
EST,Estonia,爱沙尼亚
ETH,Ethiopia,埃塞俄比亚
FIN,Finland,芬兰
FRA,France,法国
GAB,Gabon,加蓬
GBR,United Kingdom,英国
GEO,Georgia,格鲁吉亚
GHA,Ghana,加纳
GIN,Guinea,几内亚
GMB,Gambia,冈比亚
GNB,Guinea-Bissau,几内亚比绍
GNQ,Equatorial Guinea,赤道几内亚
GRC,Greece,希腊
GTM,Guatemala,危地马拉
HKG,"China, Hong Kong SAR",中国香港特别行政区
HND,Honduras,洪都拉斯
HRV,Croatia,克罗地亚
HTI,Haiti,海地
HUN,Hungary,匈牙利
IDN,Indonesia,印度尼西亚
IND,India,印度
IRL,Ireland,爱尔兰
IRN,Iran (Islamic Republic of),伊朗
IRQ,Iraq,伊拉克
ISL,Iceland,冰岛
ISR,Israel,以色列
ITA,Italy,意大利
JAM,Jamaica,牙买加
JOR,Jordan,约旦
JPN,Japan,日本
KAZ,Kazakhstan,哈萨克斯坦
KEN,Kenya,肯尼亚
KGZ,Kyrgyzstan,吉尔吉斯斯坦
KHM,Cambodia,柬埔寨
KOR,Republic of Korea,大韩民国
KWT,Kuwait,科威特
LAO,Lao People's DR,老挝人民民主共和国
LBN,Lebanon,黎巴嫩
LBR,Liberia,利比里亚
LBY,Libya,利比亚
LCA,Saint Lucia,圣卢西亚
LKA,Sri Lanka,斯里兰卡
LSO,Lesotho,莱索托
LTU,Lithuania,立陶宛
LUX,Luxembourg,卢森堡
LVA,Latvia,拉脱维亚
MAR,Morocco,摩洛哥
MDA,Republic of Moldova,摩尔多瓦共和国
MDG,Madagascar,马达加斯加
MEX,Mexico,墨西哥
MKD,TFYR of Macedonia,前南斯拉夫马其顿共和国
MLI,Mali,马里
MLT,Malta,马耳他
MMR,Myanmar,缅甸
MNE,Montenegro,黑山
MNG,Mongolia,蒙古
MOZ,Mozambique,莫桑比克
MRT,Mauritania,毛里塔尼亚
MUS,Mauritius,毛里求斯
MWI,Malawi,马拉维
MYS,Malaysia,马来西亚
NAM,Namibia,纳米比亚
NER,Niger,尼日尔
NGA,Nigeria,尼日利亚
NIC,Nicaragua,尼加拉瓜
NLD,Netherlands,荷兰
NOR,Norway,挪威
NPL,Nepal,尼泊尔
NZL,New Zealand,新西兰
OMN,Oman,阿曼
PAK,Pakistan,巴基斯坦
PAN,Panama,巴拿马
PER,Peru,秘鲁
PHL,Philippines,菲律宾
POL,Poland,波兰
PRI,Puerto Rico,波多黎各
PRK,D.P.R. of Korea,朝鲜民主主义人民共和国
PRT,Portugal,葡萄牙
PRY,Paraguay,巴拉圭
PSE,State of Palestine,巴勒斯坦国
QAT,Qatar,卡塔尔
ROU,Romania,罗马尼亚
RUS,Russian Federation,俄罗斯联邦
RWA,Rwanda,卢旺达
SAU,Saudi Arabia,沙特阿拉伯
SDN,Sudan (Former),苏丹(前)
SEN,Senegal,塞内加尔
SGP,Singapore,新加坡
SLE,Sierra Leone,塞拉利昂
SLV,El Salvador,萨尔瓦多
SRB,Serbia,塞尔维亚
STP,Sao Tome and Principe,圣多美和普林西比
SUN,Former USSR,前苏联
SVK,Slovakia,斯洛伐克
SVN,Slovenia,斯洛文尼亚
SWE,Sweden,瑞典
SWZ,Swaziland,斯威士兰
SYC,Seychelles,塞舌尔
SYR,Syrian Arab Republic,阿拉伯叙利亚共和国
TCD,Chad,乍得
TGO,Togo,多哥
THA,Thailand,泰国
TJK,Tajikistan,塔吉克斯坦
TKM,Turkmenistan,土库曼斯坦
TTO,Trinidad and Tobago,特立尼达和多巴哥
TUN,Tunisia,突尼斯
TUR,Turkey,土耳其
TWN,"Taiwan, Province of China",台湾,中国的省份
TZA,U.R. of Tanzania: Mainland,坦桑尼亚联合共和国:大陆
UGA,Uganda,乌干达
UKR,Ukraine,乌克兰
URY,Uruguay,乌拉圭
USA,United States,美国
UZB,Uzbekistan,乌兹别克斯坦
VEN,Venezuela (Bolivarian Republic of),委内瑞拉
VNM,Viet Nam,越南
YEM,Yemen,也门
YUG,Former Yugoslavia,前南斯拉夫
ZAF,South Africa,南非
ZMB,Zambia,赞比亚
ZWE,Zimbabwe,津巴布韦
BEM,British Empire,大英帝国
14 changes: 11 additions & 3 deletions lectures/prob_dist.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,7 +4,7 @@ jupytext:
extension: .md
format_name: myst
format_version: 0.13
jupytext_version: 1.16.1
jupytext_version: 1.16.4
kernelspec:
display_name: Python 3 (ipykernel)
language: python
Expand All @@ -25,6 +25,7 @@ kernelspec:
!pip install --upgrade yfinance
```

```{code-cell} ipython3
import matplotlib.pyplot as plt
import matplotlib as mpl
Expand All @@ -38,6 +39,7 @@ FONTPATH = "fonts/SourceHanSerifSC-SemiBold.otf"
mpl.font_manager.fontManager.addfont(FONTPATH)
plt.rcParams['font.family'] = ['Source Han Serif SC']
```

## 常见分布

在本节中,我们回顾一些众所周知的分布的定义,并探讨如何使用 SciPy 来操作它们。
Expand Down Expand Up @@ -114,6 +116,7 @@ u.mean(), u.var()
```{code-cell} ipython3
u.pmf(1)
```

```{code-cell} ipython3
u.pmf(2)
```
Expand All @@ -130,6 +133,7 @@ ax.set_xlabel('S')
ax.set_ylabel('PMF')
plt.show()
```

这里是 CDF 的图:

```{code-cell} ipython3
Expand Down Expand Up @@ -177,16 +181,19 @@ $$
θ = 0.4
u = scipy.stats.bernoulli(θ)
```

这是 $\theta=0.4$ 时的均值和方差:

```{code-cell} ipython3
u.mean(), u.var()
```

我们可以评估 PMF 如下:

```{code-cell} ipython3
u.pmf(0), u.pmf(1)
```

#### 二项分布

另一个有用(而且更有趣)的分布是 $S=\{0, \ldots, n\}$ 上的**二项分布**,其 PMF 为:
Expand Down Expand Up @@ -216,6 +223,7 @@ u = scipy.stats.binom(n, θ)
```{code-cell} ipython3
n * θ, n * θ * (1 - θ)
```

让我们看看SciPy是否给出了相同的结果:

```{code-cell} ipython3
Expand Down Expand Up @@ -861,7 +869,7 @@ x_costco = prices.pct_change()[1:] * 100

```{code-cell} ipython3
fig, ax = plt.subplots()
ax.violinplot([x_amazon, x_costco])
ax.violinplot([x_amazon['AMZN'], x_costco['COST']])
ax.set_ylabel('月度回报率(百分比变化)')
ax.set_xlabel('零售商')
Expand Down Expand Up @@ -928,4 +936,4 @@ plt.show()

请注意,如果你不断增加 $N$,即观测数量,拟合效果会越来越好。

这种收敛是“大数定律”的一个版本,我们将在{ref}`以后<lln_mr>`讨论。
这种收敛是“大数定律”的一个版本,我们将在{ref}`以后<lln_mr>`讨论。

0 comments on commit fce886a

Please sign in to comment.