Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

重新整理公司清單 #76

Open
1 of 3 tasks
chengh42 opened this issue Jan 20, 2022 · 4 comments · Fixed by #77 or #79 · May be fixed by #171
Open
1 of 3 tasks

重新整理公司清單 #76

chengh42 opened this issue Jan 20, 2022 · 4 comments · Fixed by #77 or #79 · May be fixed by #171
Assignees

Comments

@chengh42
Copy link
Member

chengh42 commented Jan 20, 2022

Tasks

  • 加上最後更新年份欄位
  • 擴大公司清單,以經濟部的「公司登記資料」 財政部的「全國營業(稅籍)登記資料集」為資料來源
  • 更新前端網站的資料 reference

資料來源:https://data.gcis.nat.gov.tw/od/datacategory;jsessionid=45ABE71DAB6FBDCCA9DC04C8E038010C#sortCount2
資料來源:https://data.gov.tw/dataset/9400

範例

year stock_code name name_abbr tax_code industry_code company_type industry
2020 1301 台灣塑膠工業股份有限公司 台塑 75708007 3 上市公司 塑膠工業

說明

目前資料爬蟲的公司清單,僅包含上市、上櫃、公開發行的公司,資料來源是金管會:

class CompanySpider(CSVFeedSpider):
name = 'company'
start_urls = [
'https://mopsfin.twse.com.tw/opendata/t187ap03_L.csv', # 上市公司 https://data.gov.tw/dataset/18419
'https://mopsfin.twse.com.tw/opendata/t187ap03_R.csv', # 興櫃公司 https://data.gov.tw/dataset/28568
'https://mopsfin.twse.com.tw/opendata/t187ap03_P.csv', # 公開發行公司 https://data.gov.tw/dataset/28567
]

前端網站使用的公司清單則是以 「公司登記資料-C製造業」 「全國營業(稅籍)登記資料集」為基礎,資料來源是 經濟部商業司 財政部

const LIST_URL = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vRzr0lFprPJzQvjsEHhbaCrxjwYsNqwd53iUzkf3A9kSHSxoJFiQ5Lt1ukSuREu8A/pub?gid=1322020199&single=true&output=csv'

@qyke
Copy link
Contributor

qyke commented Jul 29, 2022

擴大資料範圍的部分,先暫不處理。優先處理上市櫃公司清單的完整性問題。
先前如程心所說,金管會的公司清單僅包含上市、上櫃、公開發行的公司,這邊缺了興櫃公司的清單。所以在基礎的公司清單的部分,要重新爬一輪資料。
資料集位置如下:
上市公司基本資料
上櫃股票基本資料
興櫃公司基本資料
公開發行公司基本資料

由於溫室氣體年排放量的資料包含了不在金管會的公司清單,因此需要額外讀一份調整為上市櫃公司產業別的公司排放清單。
這邊是暫時的做法,之後還是要討論公司清單跟產業別怎麼處理

@qyke
Copy link
Contributor

qyke commented Aug 8, 2022

@ddio 修正後的公司清單提供如下
公司清單_20220808_再整理

內容調整說明:

  • 此份公司清單包含五個資料集(上市、上櫃、興櫃、公開發行、溫室氣體盤查)
  • 溫室氣體盤查的資料,僅收錄依法盤查,自願申報不收(但並未排除電力供應業)
  • 公司簡稱,溫室氣體盤查的部分取「股份」之前的文字,若公司名不包含股份,則使用完整名稱
  • 產業別歸類,以上市櫃公司資料為準,調整公開發行、溫室氣體盤查的產業別分類
  • 前台產業別調整為依據 industry(純文字) 的內容放置(塑膠工業一樣改名為石化業)
  • [已確認]個別公司頁面的網址使用統一編號,股票代號若為空值不影響

@ddio
Copy link
Contributor

ddio commented Aug 11, 2022

@qyke ,

新的公司清單有幾個問題:

  1. 信昌化學工業股份有限公司、台硝股份有限公司缺了 stock_code ,已經從舊的清單複製過來
  2. 找不到「福盈科技化學股份有限公司」,統編 12207266
  3. [data/income.csv](https://github.com/gcaa-org-tw/thaubing-esg/blob/main/data/income.csv) 缺了蠻多公司的,像是
    • 臺銀綜合證券股份有限公司、日盛證券股份有限公司、亞東證券股份有限公司、中國人造纖維股份有限公司
    • 年度包含 2018-2020
    • 欄位包含 total_operating_revenue、total_operating_costs
    • 有些是完全沒資料,像「臺銀綜合證券股份有限公司」
    • 有些是缺欄位,像「合作金庫金融控股股份有限公司」

建議至少檢查前兩項發生的原因,確定沒有漏掉股票代號。
第三項可能要檢查,當初抓 income.csv 時,時候沒包含所有公司~

因為資料有點問題,我先不更新公司清單,若有任何決定,再跟我說,感謝~

@qyke
Copy link
Contributor

qyke commented Aug 11, 2022

回覆如下

1.信昌化、台硝都已經下市,所以在新資料中不會有股票代號。但在資料串接上應該還是要留著才能接既有的公開資訊觀測站資料。這個部分先麻煩ddio以舊資料補過去。
2.福盈科是被併購後下櫃,等於公司實質消失,沒有資料是正確的。
3.看起來應該是興櫃的公司沒有被收到,需要重新抓一次公開資訊觀測站的網站資料。

針對遺漏股票代號的部分,因為新資料如果出現公司下市或整併,就會導致該公司從金管會的公司清單中移除,這部分先以舊名單的數值來做。

@anitaliu922 anitaliu922 linked a pull request Sep 11, 2022 that will close this issue
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
3 participants