811 / 531

participants / team

Topic provider

IKMLab,智慧型知識管理實驗室 (Intelligent Knowledge Management Lab),成立於 2004 年,指導教授為高宏宇教授,目前有 7 位博士生,以及 14 位碩士生。實驗室研究方向以自然語言處理 (Natural Language Processing),資料探勘 (Data Mining) 以及機器學習 (Machine Learning) 為主,利用智慧運算方法進行非結構化資料的分析與理解,使文字與語言應用能夠更智慧化更實用化。
主要研究議題包含自然語言處理與理解,醫學資訊分析,使用者生成資料分析,情緒分析與意見探勘,對話機器人以及假資訊偵測等。

國立成功大學創校於西元1931年,原名為「臺南高等工業學校」,在1971年8月,改制為「國立成功大學」。成功大學共有9個學院,由相互緊鄰的八大校區組成,同時擁有安南校區、歸仁校區與斗六校區,其中共有40個學系、82個研究所、1所教育中心及54個獨立研究中心,是高等教育中歷年全國學術排名頂尖的大學之一,在理工、醫學及規劃設計領域上最為出眾,培育出眾多頂尖的學者與優秀人才,是台灣最具有影響力的學校之一。
成大資訊工程學系是南台灣第一個純以資訊及計算機工程為重心的高級學術單位,於1987年成立碩士班、1992年成立博士班、並在1997年成立大學部,擁有醫學資訊研究所和製造資訊與系統研究所,以一系三所的模式成長。
本系致力提升南台灣地區資訊人才質與量的競爭力,結合國內產官學研之各項資源,將本系與國際接軌,目前已有多位教授獲得學術榮譽如國科會傑出研究獎等獎項,預計在五年內學生總數將達到一千名,師資將增至四十名以上,並擴建教學教室、實驗室等空間,建立南台灣最佳及最具規模的資訊工程教育環境。

2020/12/31 競賽後測通知

各位好,主辦方在此提醒各組參賽者一件事情: 此次競賽的後測表單出爐,請各組參賽者們協助填寫,供主辦方了解各位的學習狀況。 後測表單:https://reurl.cc/5q0Qzv

2020/12/29 上傳報告提醒

各位好,主辦方在此提醒各組參賽者: 報告上傳截止時間為 12:31 (四) 23:59,需要上傳完成才會有完賽證明,請各組參賽者務必準時上傳。

2020/12/23 延期問題

各位好,這裡是主辦方: 關於之前上傳資料期限延後一週,主因是由於 AI Cup 競賽時程會盡量配合學校的學期時程,由於因應老師教學上的期望,以及眾多隊伍的需求,主辦方也在徵求計畫辦公室的同意下將上傳日期延後一週, 報告上傳時間照舊,因此若造成參賽隊伍的不便,主辦方在此致歉,也請各位參賽者多多見諒。

2020/12/18 競賽時程更動

各位好,主辦方在此提醒各組參賽者: 由於因應眾多隊伍需求,以及配合大多學校的課程,此次競賽上傳時間將有異動如下: 最後上傳時間由 12/21(一) 延後至 12/28(一) 公布系統分數由 12/25(五) 延後至 12/30(三) 報告上船截止時間照舊為 12/31(四) 請各位參賽者注意,謝謝。

2020/12/11 報名截止及測試集公布

各位好,主辦方在此提醒各組參賽者幾件事情: 1. 主辦方會在 12/14(一)10:00 釋出測試集並開放上傳功能 2. 12/13(日) 23:59 報名及組隊將停止,屆時也將清空排行榜

2020/12/09 最終報告上傳

各位好,主辦方在此提醒各組參賽者一件事情: 關於最終報告上傳,需要繳交的內容大致如下 1. 隊名、隊員(學校/科系)、指導教授(學校/科系) 2. 演算法說明 3. 工具說明 4. 流程說明 5. 組態說明 (e.g.環境設定、參數設定) 6. 外部資源與參考文獻

2020/11/23 巡迴課程

各位好,主辦方在此提供各位參賽者巡迴課程的資料 內含:三份簡報以及上課影片,提供給未參加的參賽者們參考 課程影片:https://youtu.be/jIEKUtI32OM 連結網址:https://reurl.cc/GrYn2y

2020/11/09 訓練集及建構集釋出

各位好,主辦方在此提醒各組參賽者幾件事情: 1. 主辦方會在 11/10(二) 釋出第二波訓練集及建構集,第二波釋出均包含之前所釋出的資料 2. 排行榜計分會運作至 11/9(一) 23:59,此時將暫停算分至隔日釋出新的資料,屆時也將清空排行榜 3. 從 11/10(二) 開始,排行榜將會是第二波建構集的計分,請大家踴躍上傳

2020/11/01 競賽前測通知

各位好,主辦方在此提醒各組參賽者一件事情: 此次競賽的前測表單出爐,請各組參賽者們協助填寫,供主辦方了解各位的學習狀況。 前測表單:https://reurl.cc/r8X1RZ

2020/10/16 檔案上傳問題

各位好,主辦方在此提醒各組參賽者幾件事情: 我們發現當「答案全錯」或「答案結果不合理」會出現無法上傳的狀況,預計會於下周一修正完畢,屆時可正常上傳。

2020/10/15 排行榜問題與巡迴課程

各位好,主辦方在此提醒各組參賽者幾件事情: 1. 主辦方並不會參與任何排行榜,因此排行榜上的均為其他參賽隊伍 2. 政大場巡迴課程即將開始,報名表單:https://reurl.cc/9Xn45Y,歡迎踴躍報名

2020/10/07 排名事宜與說明勘誤

各位好,主辦方在此提醒各組參賽者幾件事情: 1. 最終若有同分狀況,會由評審委員根據答案內容以及報告進行決議 2. 上傳格式說明有誤,end_position 正確為「標記結果的最後一個字 + 1」的位置,主辦方會於稍後更正格式說明文件

Introduction

根據 Health Insurance Portability and Accountability Act (HIPAA) 規定,在臨床醫療端的文字紀錄中,有關病人隱私資料的內容 (Protected Health Information, PHI) 都要被清除掉或是修改掉。而在門診醫病對話資料中,含有許多求診民眾的隱私內容,如此大量的資料,需要有自動化的方式去辨識出這些隱私內容,方便醫療人員的作業也加速醫療大數據的建立。

本競賽提供從成大醫院合作之門診所收錄而來的門診對話及相關訪談的看診對話資料,由人工標註出對話資料中的隱私內容及其類型。並將資料分為訓練集、建構集(開發集) 與測試集。

本競賽主要目標為從醫生與看診民眾對話中辨識和提取含有隱私資訊的內容,並分類出該內容屬於何種隱私類型。以 F1-Score 評估參賽者在測試語料集上預測結果的正確率。

本競賽要識別出的隱私類型有:

  1. 名字(name):所有的姓名、綽號、社群/通訊軟體使用者名稱、個人於團體中的代號等。
  2. 地點(location):所有地址、商店名、建築物名稱、景點等。
  3. 時間(time):所有日期、時間、年齡等,例如:出生年月日、看診時間。
  4. 聯絡方式(contact):所有電話號碼、傳真號碼、信箱、IP 位址、網址、網站名稱(例如成大醫院掛號系統)等。
  5. 編號(id):所有跟個人有關的編號,例如:身分證號碼、證件號碼、卡號、病歷號等。
  6. 職業(profession):所有任職公司名稱、任職單位等。
  7. 個人生物標誌(biomarker):所有個人的特殊身體或生理特徵,例如:胎記/疤痕/刺青部位或形狀、植入物(例如人工髖關節、心導管)等。
  8. 家庭成員(family):所有個人的家庭成員關係,例如:爸爸、姊姊、兒子等。
  9. 有名的臨床事件(clinical_event):所有廣為人知的臨床事件,例如:八仙塵爆、COVID-19。
  10. 特殊專業或技能(special_skills):所有個人獨特的專業或技能,例如:手繪電影看板。
  11. 獨家或聞名的治療方法(unique_treatment):所有特別或廣為人知的治療方法,例如:台大醫院葉克膜、長庚醫院甲狀腺射頻消融手術。
  12. 帳號(account):所有帳號,例如:社群/通訊軟體帳號或 ID、郵局銀行帳號。
  13. 所屬團體(organization):所有個人參與的組織、團體、社團等等的名稱,例如:歡樂無法黨、成大教職男籃隊。
  14. 就學經歷或學歷(education):所有個人的就學經歷或學歷,如系所、程度,例如:讀成大資工、成大資工所碩士畢業。
  15. 金額(money):所有金額,例如:看診金額、個人負擔金額、自費金額。
  16. 所屬品的特殊標誌(belonging_mark):所有個人的所屬品特殊標誌,例如:汽車貼膜圖案、產品序列號、手機殼圖案、顏色。
  17. 報告數值(med_exam):醫療檢查報告、影像報告的數值,例如:肝功能 67、紅血球值 5.8、超音波影像的脾藏 10.67 公分、體溫 36.7 度。
  18. 其他(others):其他跟個人隱私有關,可以關聯到當事人的內容。

相關問題諮詢,請洽:ikm.ncku@gmail.com


參賽對象

全國各大專院校在學生(含研究生),業界亦可參加,但不列入敘獎排名。


競賽方式及評選辦法

本競賽「醫病訊息決策與對話語料分析競賽 - 秋季賽:醫病資料去識別化」係依據主辦單位所提供之語料集,並經由主辦單位聘僱之生物及醫學領域專家所標註的結果,以 F1-Score 來評比各參賽隊伍的系統效能和名次,詳細辦法說明如下:本競賽有三種語料集,分別為訓練集(Training Data)、開發集(Development Data)及測試集(Test Data)。

  • 第一階段:主辦單位提供約 20 篇經生物及醫學領域專家標註之範例資料。
  • 第二階段:秋季賽分三次提供訓練集與開發集: 第一次提供部分訓練集,並於兩週後(第二次)提供部分開發集,第三次提供全部訓練集與全部開發集。並提供線上評分排名系統,使用 F1-Score 指標評分。須注意每次公布新的資料集,都會清空排名系統,重新進行評分排名。參賽隊伍需從「訓練集」中訓練模型,並以該模型對「開發集」進行預測,並上傳「開發集」之預測結果至線上評分排名系統,來進一步調校系統效能。
  • 第三階段:主辦單位公布完整的測試集(Test Data)。參賽隊伍需在截止時間前,至平台上傳「完整測試集」的預測結果。
  • 第四階段:競賽時間截止,系統會以最後一筆上傳的結果計算測試集的評估分數,並以此測試集的結果為最終排名依據。
  • 參賽者必須在分數公布後,於規範時程內上傳系統報告說明文件以及原始程式碼,以茲證明無任何作弊或抄襲之可能。委員們將在此階段一一進行嚴格的文件審查,未上傳隊伍將不列入最後名次與獎項評選名單。
  • 評分:最後用 F1-Score 來評估參賽隊伍的系統效能,並公布於 Private Leaderboard,委員將以此成績高低為依據評估最後獎金賽名次。

Prize

敘獎對象須為報名時具中華民國各大專校院之在學生,敘獎時需檢附相關證明。

在「醫病訊息決策與對話語料分析競賽 - 秋季賽」項目前 15 名的優勝隊伍將分別獲得競賽獎金,秋季賽獎金共 30 萬:

名次獎金
第一名8 萬元
第二名5 萬元
第三名3 萬元
優等兩名各 2 萬元
佳作十名各 1 萬元
  • 獲獎隊伍經評審委員審定後將獲得教育部獎狀乙紙。
  • 各項獎勵名額得視參賽件數及成績酌予調整,參賽作品未達水準時,得由決選評審委員決定從缺,或不足額入選。

Activity time

活動開始於台灣時間(UTC+8小時)2020/09/03,結束於 2020/12/31 午夜 11 時 59 分,於 2021/01/08 公布結果。。

醫病資料之去識別化系統 - 秋季賽
時間事件
2020/09/03開放報名及組隊(提供 Sample data)
2020/09/10公布訓練集資料 Part 1,開放下載
2020/09/15公布 Baseline 與演算法等參數
2020/10/05公布建構集資料 Part 1,開放下載及上傳檔案
2020/10/12-10/23校園巡迴講座(確切時間待公布)
2020/11/10公布建構集 Part 2 及訓練集資料 Part 2
開放下載及上傳答案
2020/12/13 23:59:59報名及組隊截止
2020/12/14公布測試集,開放下載及上傳答案
2020/12/25開始上傳報告及原始程式碼
2020/12/28 23:59:59比賽截止,關閉測試集的資料上傳答案算分功能
算分方式採用 F1-Score
2020/12/30公佈系統分數
2020/12/31 23:59:59上傳報告截止
2021/01/01-01/07評估(系統+報告)
2021/01/08公布最後成績(系統+報告)(頒獎時間待公布)

Evaluation Criteria

評估方式採用 F1-Score,其公式如下:
$$ F1= 2 \times {Precision \times Recall \over Precision + Recall } $$ $$ Precision={True\ Positive \over {True\ Positive + False\ Positive}} $$ $$ Recall ={True\ Positive \over {True\ Positive + False\ Negative}} $$

Rules

  1. 參賽隊伍不得使用多重帳號參加同一項競賽,違者喪失競賽資格;參賽隊伍若個別成員自行以個人帳號上傳者,視同使用多重帳號參賽。
  2. 每人限報名一隊,加入隊伍後便無法換隊,但能繼續添加隊伍人數到上限五人。
  3. 線上評分排名系統每日有上傳次數限制,每個參賽隊伍最多上傳五次。
  4. 每次公布新的資料集,都會清空排名系統,並重新進行評分排名。
  5. 參賽隊伍可使用開源且不需另外申請之額外資源及套件等來增進模型訓練結果,但禁止使用人工方式手動標註測試集(Test Data)。
  6. 參賽作品所使用之資料、技術、程式碼,均屬參賽隊伍之原創或已取得合法授權,若有任何第三者侵害智慧財產權或其他違法情事,均由參賽隊伍自行出面處理 ; 若有侵害他人智慧財產權之情事者,主辦單位將取消競賽及得獎資格,參賽隊伍應自行負責相關法律責任。
  7. 為確保競賽的公平性,主辦單位有權要求參賽隊伍提供程式碼與相關資料進行驗證,如有造假、抄襲或詐欺之情事,主辦單位得取消其參賽與得獎資格並追回獎金,參賽隊伍需自行負擔相關法律責任。
  8. 主辦單位會要求敘獎隊伍提交模型演算法之原始程式碼與最終報告,以驗證結果。
  9. 本競賽教育部獎金與獎狀之敘獎對象為全學生之隊伍,隊伍內成員於報名時需全員符合學生身份才可擁有教育部獎金與獎狀之資格;業界得獎者可獲得計畫辦公室獎狀,獎金則視各舉辦競賽團隊而定。
  10. 本競賽獎金敘獎對象為全學生之隊伍,隊伍內成員於報名時需全員符合學生身份才可擁有獲獎資格,指導教授不得與學生一同報名,請於最終報告內填寫指導教授名稱即可。
  11. 參賽成果之智慧財產權歸屬參賽隊伍所有,其著作授權、專利申請、技術移轉及權益分配等相關事宜,應依相關法令辦理。
  12. 得獎隊伍獲得獎金應配合中華民國稅法繳交相關所得稅。
  13. 參賽隊伍如違反本競賽辦法之相關規定,將取消其參賽資格,如已獲獎,則撤銷得到之獎項,並追回獎金及獎狀。
  14. 如有以上未盡事宜,視當時狀況由主辦單位商議之。
  15. 凡參加報名者,視為已閱讀並完全同意遵守本活動之一切規定。
  16. 若遇爭議,主辦單位保有活動最終解釋權。
  17. 如有下列情事,主辦單位得無需告知參賽者,逕行取消參賽者資格或領獎資格:
    • 已有具體事證,所屬隊伍有任何抄襲、作弊、或詐欺等行為。
    • 已有具體事證,所屬隊伍有侵害他人智慧財產權之情事。
    • 已有具體事證,所屬隊伍有對 Leaderboard 系統進行攻擊。
    • 已有具體事證,所屬隊伍影響其他參賽隊伍導致不公平事例發生。