Topic provider

中央研究院是台灣最高的學術研究機構。目前在廖俊智博士領導之下,致力於數理科學、生命科學及人文與社會科學三方面之基礎科學研究。資訊科學研究所於 1977 年開始設立籌備處,歷經五年籌備,於 1982 年 9 月正式成立研究所,是中央研究院數理組十個單位之一。本所除了從事資訊科學領域的基礎研究之外,亦以開發具前瞻性之尖端技術與發展以應用為導向的最先進系統為職志。身處學術重鎮,本所有責任在國內資訊領域肩負起學術領導地位,提升本國資訊科技水準,並躋身國際一流學術研究單位。「件件工作,反映自我,凡經我手,必為佳作」是全體同仁一致秉持的工作信念,重視工作之卓越品質,發揮最佳綜效之團隊精神。

Introduction

近年來隨著人工智慧技術的蓬勃發展,人工智慧的應用逐漸落實在日常生活周遭。全球性的市場調查諮詢公司 Markets & Markets 預估人工智慧應用的市場將從 2017 年的 160.6 億美元成長到 2025 年的 1,906.1 億美元,年均複合增長率達到 36%。獲益於人工智慧技術的產業包括製造業、金融科技、醫療領域等。這一波人工智慧的發展預期將會在 2022 年為醫療領域帶來79 億 880 萬美金的產值 。主要應用的人工智慧技術包括機器學習、自然語言處理、情境感知以及電腦視覺。其中自然語言處理技術更是在促成智慧醫療領域中扮演最重要的推手,依此技術所開發的各種醫療決策分析系統,如 IBM Watson 等,已經開始蓬勃發展與應用。

臺灣醫療技術在世界上頗負盛名,這波的人工智慧技術更是掀起了產官學界一股智慧醫療的風潮。本計畫期望能夠藉由此計畫的推動,在這股即將到來的熱潮中扮演領頭羊的腳色,引領學子在學習人工智慧技術的同時,將其應用到跨領域的生物醫學智慧計算領域。本計畫將以自然語言處理技術為核心,開放競賽語料讓學子能夠將人工智慧技術應用於基礎的臨床醫療病歷資料分析到進階的生物資訊文獻語料,據此培養具備人工智慧、機器學習、自然語言處理與倫理道德素養的專業人才,並期待在本競賽中發展的技術成為臺灣健康資料加值應用中最重要的一環。參與本競賽的學子將可實務的了解分析生物醫學資料的流程與技術,並體現轉譯醫學思維,讓學子能夠了解利用自然語言處理技術將基礎醫學、生物資訊研究,和臨床治療連結的大思維。

生物命名實體間的關聯擷取為文獻探勘研究的一大重點,本正式賽會提供人工標註的生醫文件(主要來源:PubMed 文獻摘要),並將資料分為訓練集 Part1、Part 2、建構集(開發集)Part1、Part2 與測試集。正式賽的資料來源以 PubMed 摘要為主,競賽的主要目標為從 PubMed 的生物醫學文獻摘要中辨識和提取具有蛋白質交互作用(Protein-protein Interaction,PPI)資訊之描述句子,並針對所擷取出來具有 PPI 的句子進行評估,確認關聯性的類型(例如:target/regulate/post-translation)。本競賽採用 F1-measure 來評估參賽者在測試語料集上預測結果的正確率。主辦單位將在報名規章公布中包含於釋出競賽相關細則並明訂關聯性類型之規範。

參賽對象

全國各大專院校在學生(含研究生)。

競賽方式及評選辦法

本競賽「生醫論文自動分析正式賽」係依據主辦單位所提供之語料集,並經由主辦單位聘僱之生醫領域專家所標註的結果,以 F1-measure 來評比各參賽隊伍的系統效能和名次,詳細辦法說明如下:

本競賽有兩種語料集,分別為訓練集(Training Data)及開發集(Development Data)。訓練語料集包括 1. 基因名稱(Gene) 2. 基因對應至 Entrez Gene 資料庫中的編號(Gene ID) 3. 基因與基因之間的關聯類型;而開發集及測試集都是只有標註基因名稱及其編號,並未包含關聯類型。其中訓練集及開發集又分為兩個階段釋出,第一階段僅釋出部分訓練集,第二階釋出完整訓練集。另外,開發集也分為兩階段釋出。

1. 第一階段:主辦單位提供約 150 篇經生醫專家標註具有基因名稱、編號及關聯資訊之範例資料集。

2. 第二階段:主辦單位將提供 1. 部分訓練集 2. 部分開發集(共約 2,000 篇)及線上評分排名系統(使用 F1-measure 指標評分)。課程學員需從「部分訓練集」中訓練基因交互作用關聯類別分類模型,並以該模型對「部分開發集」進行預測,並上傳「部分開發集」之預測結果至線上評分排名系統,來進一步調校系統效能。參與課程之教師可以依據該分數做為學生學期分數之評估。

3. 系統評分:最後仍用 F1-measure 來評估參賽隊伍的系統效能,並公布於 Private Leader Board,委員將以此成績高低為依據評估最後獎金賽名次。

Activity time

時間事件
2019/03/27開放報名及組隊(提供註冊及 Sample Data)(第 1 階段資料)
2019/03/01-2019/08/20校園巡迴
2019/05/25公布建構集 Part 1 及訓練集資料 Part 1(第 2 階段資料)
開放下載
2019/05/31開放資料上傳算分
2019/07/01公布建構集 Part 2 及訓練集資料 Part 2(第 3 階段資料)
開放下載及資料上傳算分
2019/08/19報名及組隊截止
2019/08/26公布測試集(第 4 階段資料)
開放下載及測試集上傳(不算分)
2019/08/29 23:59:59比賽截止,關閉測試集的資料上傳功能
2019/08/30 00:00:00公布系統分數
開始上傳報告
2019/09/13 23:59:59上傳報告截止
2019/09/14評估(系統+報告)
2019/09/21 00:00:00公布最後成績(系統+報告)(頒獎時間待公布)

競賽相關資料提供:https://drive.google.com/drive/folders/1r-AgaOfDecMNB1FPhqasqoEVUrosRa84?usp=sharing

Evaluation Criteria

評估方式採用 ${F1 \text{-} measure}$(又稱 ${F1 \text{-} score}$),其公式如下:

$$Precision = {系統辨識之正確關聯類型基因組的總數 \over 系統辨識之關聯類型基因組的總數}$$

$$Recall = {系統辨識之正確關聯類型基因組的總數 \over 語料庫中關聯類型基因組的總數}$$

$$F1\text{-}measure = {{2 \times Precision \times Recall} \over {Precision + Recall}}$$

詳細說明可參考 https://en.wikipedia.org/wiki/F1_score


相關問題諮詢,請洽:btmiis316@gmail.com

Rules

一、 參賽隊伍不得註冊多重帳號參加同一項競賽,違者喪失競賽資格;參賽隊伍個別成員自行以個人帳號上傳結果,也視同使用多重帳號參賽。

二、 課程部分因應教師評分考量,不提供組隊功能,若課程以小組方式進行,各小組之成員需以個人帳號,各自上傳同一份小組成果。

三、 線上評分排名系統無上傳次數限制。

四、 參賽隊伍可以使用額外資源如語料、字典及套件等來增進模型訓練結果,惟不可使用人工方式手動標註測試集(Test Data)。

五、 參賽作品所使用之資料、技術與程式碼,均屬參賽隊伍之原創或已取得合法授權,若有任何第三者主張侵害智慧財產權或其他違法情事,均由參賽隊伍自行出面處理;若有侵害他人智慧財產權之情事者,主辦單位將取消競賽及得獎資格,參賽隊伍應自行負擔相關法律責任。

六、 為確保競賽的公平性,主辦單位有權要求參賽隊伍提供程式碼與相關資料進行驗證,如有造假、抄襲或詐欺之情事,主辦單位得取消其參賽與得獎資格並追回獎金,參賽隊伍需自行負擔相關法律責任。

七、 參賽成果之智慧財產權歸屬參賽隊伍擁有,其著作授權、專利申請、技術移轉及權益分配等相關事宜,應依相關法令辦理。

八、 如有以上未盡事宜,視當時狀況共同商議之。

九、 凡參加報名者,視為已閱讀並完全同意遵守本活動之一切規定。

十、 若遇爭議,主辦單位保有活動最終解釋權。