議題已結束

議題提供單位


臺北醫學大學為台灣歷史悠久的醫學教育高等學府,創立於1960年,於2018QS亞洲大學排名蟬聯國內私校及醫學大學第一,並進榜世界大學排名Clinical, preclinical, and health領域。北醫以培育具人文關懷、創新能力及國際觀的生醫人才為目標,鏈結產官學研共創價值,建構全方位醫療養護服務體系,打造永續經營的生醫平台生態系,邁向教學、研究、產學、醫療一體化發展的國際一流大學。

簡介


共病症係病人在接受治療或研究的主診斷之外,其他已經存在、且會對這次的主診斷疾病產生影響的疾病狀況。鑒於全民健康保險研究資料庫已成為醫療服務研究重要之資料來源,如何適當地應用次級資料進行衍生應用研究亦為時下熱潮。本次邀請各界資料科學家共同參與活動,針對所盤點與提供的共病測量資料,來預測特定性別在特定年齡層的共病案例數,藉以提升透過數據科學來探索醫病關聯的掌握程度。

活動時間


活動開始於台灣時間(UTC+8小時)2017/12/28,結束於2018/03/28午夜11時59分,於2018/03/29公佈結果。

評估標準

參與本議題研究者在提供疾病共病組合的預測案例數後,系統將依評估方式計算分數與排名。本議題評估方式採用計算上傳值與實際值的方均根差 (Root-Mean-Square Error, RMSE),公式如下:$$RMSE = \sqrt{{1 \over n} \sum_{j=1}^{n} (y_i - \hat{y}_i) ^ 2}$$

資料說明


本協作議題所提供的資料集,為篩選國人連續三年期間,所登錄在全民健康保險研究資料庫(NHIRD)中的疾病就診資料,並經由臺北醫學大學進一步彙整後所計算「共病」的統計資料。其中,就診疾病項目以ICD-9編碼國際標準作為基準,而同一病患在同一年度內所發生過的疾病視為「共病」,並依年齡層及性別區分共病案例的統計資訊。本次Testing data皆為Private fold形式,資料內容為女性在40-49年齡的共病案例數≧100之數據;而Training data則是排除Testing data外,所有年齡層及性別組合總共19個區段的共病統計數據。

training_data.zip(解壓縮後為training_data.csv)

  • ID: 共病組合流水編號
  • Gender: 男性為M、女性為F
  • Age: 每10歲分割成一個區段, 如0-9, 10-19, 20-29, …, 90-99共10個區段
  • Code1: 依ICD-9國際標準編碼轉換為3~5碼文字, 如0010, 00589等
  • Code2: 同上, 但為同一年度發生的另一種疾病代碼
  • Code1_Count: 第一種疾病在資料期間內的案例數
  • Code2_Count: 第二種疾病在資料期間內的案例數
  • Co_occ: 兩種疾病在資料期間同一年度內同時發生的案例總數。(但其中女性於40-49歲共病案例數≧100為未知)
  • 上傳格式說明


    upload_sample.zip(解壓縮後為upload_sample.csv)

    上傳檔案的格式請以csv格式(逗號分隔)儲存於單一檔案,內容須對應upload_sample.csv的ID欄位值序號順序,並提供包含以下欄位資料:

  • ID: 共病組合流水編號
  • Co_occ: 兩種共病疾病在資料期間發生的案例數
  • 如:
    ID,Co_occ
    173,3545
    462,34
    600,3
    672,343
    697,33234

    將於 12/26 ~ 01/13 開放上傳
    將於 12/26 ~ 12/29 開放挑選

    規則

  • 若比賽發生舞弊行為,則舞弊之隊伍將被取消參賽資格,並由他隊依排名遞補。
  • 比賽評估結果以最後上傳的結果為基準,若評估分數一致時,以上傳時間優先為主。
  • 除主辦單位提供之參考資料,比賽中不得使用其他外部或私有之輔助資料。
  • 參賽者可基於學術研究目的發表解題之研究成果,但需加註說明資料來源,並書面通知主辦單位。
  • gloria2018/03/01 16:30
    2

    1樓

    大家好, 本議題活動時間已進入倒數階段囉, 大家在資料使用上有沒有什麼問題呢? 都可以提出來討論喔. 目前此議題沒有設定上傳次數限制, 歡迎大家踴躍嘗試。

    DavisonHu2018/03/08 11:23
    0

    2樓

    各位好,我想請問說code_1 跟code_1_count的意義是說這個id生了這個病在這個三年內生了code1病的總次數嗎?

    如果是這樣的話,因為count有超過490000,所以有人會在三年生那麼多次這個病嗎?

    還是這個數據是模擬的,並非真實資料?

    ckchiang2018/03/08 13:15
    0

    3樓

    請問作出的結果,在裡邊可以上傳?

    gloria2018/03/08 21:34
    0

    4樓

    Hi DavisonHu 

    您好, 

    Code1指的是 某個病依ICD-9國際標準編碼轉換為3~5碼文字的代號, 如0010, 00589等

    Code1_Count: 第一種疾病在資料期間內的案例數, 生這種病的人有多少個的意思啦

    gloria2018/03/08 21:37
    1

    6樓

    Hi ckchiang, 

     請到 "上傳" 頁面就可以 submit 結果喔 

    avain2018/03/09 13:33
    1

    7樓

    To ckchiang:下載資料後,上傳頁面就會出現上傳的選項。

    WenHsiuYang2018/03/18 16:50
    1

    8樓

    大家好,請問code1和code1_count是指這三年內生過這個病的總數,還是這一年的總數,因為我發現同一個code會有不同的count數,謝謝

    gloria2018/03/19 10:45
    0

    9樓

    Hi WenHsiuYang, 因為 code1, code1_count 會因 Gender, Age 而不同, 請問您遇到的狀況是 Gender+Age+code1 一樣卻有不同的 code1_count 嗎?

    WenHsiuYang2018/03/21 23:07
    0

    10樓

    不好意思,我想再問一個問題,就是id(流水病號編碼).這個準確的定義是甚麼?id是指人還是指說這兩種病在這個年齡這個性別的資料?

    gloria2018/03/22 16:15
    0

    11樓

    Hi WenHsiuYang, id 其實就是一個流水號, 每個 id 會對應到一個 性別+年齡+code1+code2 的組合唷

    ChenJH2018/03/25 17:49
    0

    12樓

    大家好 目前 發現這個資料有2個問題:
    1.疾病編碼的小數點不應該去掉,開頭的0也要保留,不然會造成完全不同疾病的編碼卻相同
    2.將女性40-49大於100的資料全部移除作為題目,就很像是把雨天資料全部移除,只給晴天資料然後問哪天會下雨一樣

    gloria2018/03/26 21:40
    0

    13樓

    Hi  ChenJH, 簡單說明一下, 1. 資料中的 ICD9 code, 為廠商提供的資料, 未再加工處理喔

    2. 40~49歲女性的共病關係, 說不定 可以從同年齡男性, 或 前後年齡階段的男女性資料關聯求得唷

    gloria2018/03/26 22:58
    0

    14樓

    Hi ChenJH,  再補充一下, 目前的 ICD9 編碼, 應該是不會重複的喔, 

    ChenJH2018/03/27 15:41
    1

    15樓

    Hi gloria, 舉例來說 ID 952449 在40-49女性編號對應為1120,7890,但是1120,7890這個組合在30-39女性 40-49女性 50-59女性都有2筆資料 實際上1120原本編碼可能是112.0以及011.20 這其實是兩種完全不同的疾病

    gloria2018/03/28 11:30
    0

    16樓

    Hi ChenJH, 感謝您的提問, 再次確認後, 資料處理上確實出了狀況. 抱歉造成您的困擾了. 這個議題在今日 23.59 會進行排名結算, 之後會將資料更新並保留下來讓大家繼續使用.  還是歡迎您先將手上的結果進行 submit 喔.  謝謝