Registration
00

day

00

hr

00

min

00

sec

Time to team-up deadline

396 / 351

participants / team

Register

Topic provider

中央研究院是台灣最高的學術研究機構。目前在廖俊智博士領導之下,致力於數理科學、生命科學及人文與社會科學三方面之基礎科學研究。資訊科學研究所於 1977 年開始設立籌備處,歷經五年籌備,於 1982 年 9 月正式成立研究所,是中央研究院數理組十個單位之一。本所除了從事資訊科學領域的基礎研究之外,亦以開發具前瞻性之尖端技術與發展以應用為導向的最先進系統為職志。身處學術重鎮,本所有責任在國內資訊領域肩負起學術領導地位,提升本國資訊科技水準,並躋身國際一流學術研究單位。「件件工作,反映自我,凡經我手,必為佳作」是全體同仁一致秉持的工作信念,重視工作之卓越品質,發揮最佳綜效之團隊精神。

2019/05/30 資料上傳算分功能已開放,並新增資料集可供下載

系統已經開放上傳預測後的development.tsv檔案進行算分。
另,第1、2階段的資料集新增經斷句後的摘要,檔名如下:
第1階段資料集,新增sample_txt2sent.7z;
第2階段資料集,新增training_txt2sent.7z、development_txt2sent.7z。
歡迎參賽者多加利用。

2019/05/23 資料上傳算分功能延後至5/31開放

原訂於5/25開放訓練資料集下載及資料上傳算分的功能,資料集開放下載時間不變,5/25請至資料下載區的第二階段下載訓練及開發資料集。但資料上傳算分功能將延至5/31開放,功能開放前上傳資料進行算分,系統會顯示「資料格式錯誤」。算分功能開放後,將會再次通知各位參賽者,謝謝!

Introduction

近年來隨著人工智慧技術的蓬勃發展,人工智慧的應用逐漸落實在日常生活周遭。全球性的市場調查諮詢公司 Markets & Markets 預估人工智慧應用的市場將從 2017 年的 160.6 億美元成長到 2025 年的 1,906.1 億美元,年均複合增長率達到 36%。獲益於人工智慧技術的產業包括製造業、金融科技、醫療領域等。這一波人工智慧的發展預期將會在 2022 年為醫療領域帶來79 億 880 萬美金的產值 。主要應用的人工智慧技術包括機器學習、自然語言處理、情境感知以及電腦視覺。其中自然語言處理技術更是在促成智慧醫療領域中扮演最重要的推手,依此技術所開發的各種醫療決策分析系統,如 IBM Watson 等,已經開始蓬勃發展與應用。

臺灣醫療技術在世界上頗負盛名,這波的人工智慧技術更是掀起了產官學界一股智慧醫療的風潮。本計畫期望能夠藉由此計畫的推動,在這股即將到來的熱潮中扮演領頭羊的腳色,引領學子在學習人工智慧技術的同時,將其應用到跨領域的生物醫學智慧計算領域。本計畫將以自然語言處理技術為核心,開放競賽語料讓學子能夠將人工智慧技術應用於基礎的臨床醫療病歷資料分析到進階的生物資訊文獻語料,據此培養具備人工智慧、機器學習、自然語言處理與倫理道德素養的專業人才,並期待在本競賽中發展的技術成為臺灣健康資料加值應用中最重要的一環。參與本競賽的學子將可實務的了解分析生物醫學資料的流程與技術,並體現轉譯醫學思維,讓學子能夠了解利用自然語言處理技術將基礎醫學、生物資訊研究,和臨床治療連結的大思維。

生物命名實體間的關聯擷取為文獻探勘研究的一大重點,本正式賽會提供人工標註的生醫文件(主要來源:PubMed 文獻摘要),並將資料分為訓練集 Part1、Part 2、建構集(開發集)Part1、Part2 與測試集。正式賽的資料來源以 PubMed 摘要為主,競賽的主要目標為從 PubMed 的生物醫學文獻摘要中辨識和提取具有蛋白質交互作用(Protein-protein Interaction,PPI)資訊之描述句子,並針對所擷取出來具有 PPI 的句子進行評估,確認關聯性的類型(例如:target/regulate/post-translation)。本競賽採用 F1-measure 來評估參賽者在測試語料集上預測結果的正確率。主辦單位將在報名規章公布中包含於釋出競賽相關細則並明訂關聯性類型之規範。

競賽獎金

敘獎對象須為報名時具中華民國各大專校院之在學生資格,敘獎時需檢附相關證明。

在「生醫論文自動分析正式賽」項目前六名的優勝隊伍將獲得競賽獎金:

名次獎金
第一名10 萬元
第二名5 萬元
第三名3.5 萬元
優等1 萬元
佳作 2 名各 7.5 仟元
  • 前六名獲獎隊伍經評審委員審定後將獲得教育部獎狀乙紙。
  • 名次在前 25% 且超過 Baseline 之隊伍,經評審委員會審定後,將獲頒教育部人工智慧競賽計畫辦公室獎狀。
  • 各項獎勵名額得視參賽件數及成績酌予調整,參賽作品未達水準時,得由決選評審委員決定從缺,或不足額入選。

參賽對象

全國各大專院校在學生(含研究生),業界亦可參加,但不列入敘獎排名。

競賽方式及評選辦法

本競賽「生醫論文自動分析正式賽」係依據主辦單位所提供之語料集,並經由主辦單位聘僱之生醫領域專家所標註的結果,以 F1-measure 來評比各參賽隊伍的系統效能和名次,詳細辦法說明如下:

本競賽有三種語料集,分別為訓練集(Training Data)、開發集(Development Data)及測試集(Test Data)。訓練語料集包括 1. 基因名稱(Gene) 2. 基因對應至 Entrez Gene 資料庫中的編號(Gene ID) 3. 基因與基因之間的關聯類型;而開發集及測試集都是只有標註基因名稱及其編號,並未包含關聯類型。其中訓練集及開發集又分為兩個階段釋出,第一階段僅釋出部分訓練集,第二階釋出完整訓練集。另外,開發集也分為兩階段釋出。

1. 第一階段:主辦單位提供約 150 篇經生醫專家標註具有基因名稱、編號及關聯資訊之範例資料集。

2. 第二階段:主辦單位將提供 1. 部分訓練集 2. 部分開發集(共約 2,000 篇)及線上評分排名系統(使用 F1-measure 指標評分)。參賽隊伍需從「部分訓練集」中訓練基因交互作用關聯類別分類模型,並以該模型對「部分開發集」進行預測,並上傳「部分開發集」之預測結果至線上評分排名系統,來進一步調校系統效能。

3. 第三階段:公布「完整訓練集」及「完整開發集」,共 4,000 篇(包含階段二之資料 2,000 篇)。

4. 第四階段:主辦單位公布完整的測試集(Test Data),標有基因名稱及編號,但不含關聯資訊標註之摘要約 20,000 篇。參賽隊伍需在截止時間前,至平台上傳從「完整測試集」預測結果。參賽者可上傳多次,並選取其中一至三筆分數作為評選對象。

5. 參賽者必須在分數公布後兩周內上傳系統報告說明文件,以茲證明無任何作弊或抄襲之可能。委員們將在此階段一一進行嚴格的文件審查。

6. 評分:最後仍用 F1-measure 來評估參賽隊伍的系統效能,並公布於 Private Leader Board,委員將以此成績高低為依據評估最後獎金賽名次。

Activity time

時間事件
2019/03/27開放報名及組隊(提供註冊及 Sample Data)(第 1 階段資料)
2019/03/01-2019/08/20校園巡迴
2019/05/25公布建構集 Part 1 及訓練集資料 Part 1(第 2 階段資料)
開放下載
2019/05/31開放資料上傳算分
2019/07/01公布建構集 Part 2 及訓練集資料 Part 2(第 3 階段資料)
開放下載及資料上傳算分
2019/08/19報名及組隊截止
2019/08/26公布測試集(第 4 階段資料)
開放下載及測試集上傳(不算分)
2019/08/29 23:59:59比賽截止,關閉測試集的資料上傳功能
2019/08/30 00:00:00公布系統分數
開始上傳報告
2019/09/13 23:59:59上傳報告截止
2019/09/14評估(系統+報告)
2019/09/21 00:00:00公布最後成績(系統+報告)(頒獎時間待公布)

競賽相關資料提供:https://drive.google.com/drive/folders/1r-AgaOfDecMNB1FPhqasqoEVUrosRa84?usp=sharing

Evaluation Criteria

評估方式採用 ${F1 \text{-} measure}$(又稱 ${F1 \text{-} score}$),其公式如下:

$$Precision = {系統辨識之正確關聯類型基因組的總數 \over 系統辨識之關聯類型基因組的總數}$$

$$Recall = {系統辨識之正確關聯類型基因組的總數 \over 語料庫中關聯類型基因組的總數}$$

$$F1\text{-}measure = {{2 \times Precision \times Recall} \over {Precision + Recall}}$$

詳細說明可參考 https://en.wikipedia.org/wiki/F1_score


相關問題諮詢,請洽:btmiis316@gmail.com

Rules

一、 獎金規則

  1. 主辦方會要求敘獎隊伍,提交搜尋模型的原始程式碼與最終報告,以驗證結果。
  2. 最後獎金以 Private Leaderboard 的排名敘獎,報告本身不影響排名,但為檢視其作法及確認是否有舞弊之行為,報告完整性將視為實際獲獎依據,請各敘獎隊伍於報告上傳截止日前確認報告的完整性,如有任何疑問,請來信詢問;若截止日後報告有所缺漏,將取消獲獎資格。
  3. 敘獎隊伍相關指導成員將由主辦單位發函建請教育行政主管機關學校本權責予以行政獎勵。
  4. 敘獎隊伍獲得獎金應配合中華民國稅法繳交相關所得稅。
  5. 本競賽獎金敘獎對象為全學生之隊伍,隊伍內成員於報名時需全員符合中華民國各大專校院在學學生身分才可擁有獲獎資格,敘獎時需要檢附相關證明。指導教授不得與學生一同報名,請於最終報告內填寫指導教授名稱即可。

二、 競賽規則

  1. 參賽隊伍不得註冊多重帳號參加同一項競賽,違者喪失競賽資格;參賽隊伍個別成員自行以個人帳號上傳結果,也視同使用多重帳號參賽。
  2. 每人限報名一隊,加入隊伍後便無法換隊,但能繼續添加隊伍人數到上限五人。
  3. 線上評分排名系統無上傳次數限制。
  4. 參賽隊伍可以使用額外資源如語料、字典及套件等來增進模型訓練結果,惟不可使用人工方式手動標註測試集(Test Data)。
  5. 參賽作品所使用之資料、技術與程式碼,均屬參賽隊伍之原創或已取得合法授權,若有任何第三者主張侵害智慧財產權或其他違法情事,均由參賽隊伍自行出面處理;若有侵害他人智慧財產權之情事者,主辦單位將取消競賽及得獎資格,參賽隊伍應自行負擔相關法律責任。
  6. 為確保競賽的公平性,主辦單位有權要求參賽隊伍提供程式碼與相關資料進行驗證,如有造假、抄襲或詐欺之情事,主辦單位得取消其參賽與得獎資格並追回獎金,參賽隊伍需自行負擔相關法律責任。
  7. 主辦方會要求敘獎隊伍,提交搜尋模型的原始程式碼與最終報告,以驗證結果。
  8. 本競賽獎金敘獎對象為全學生之隊伍,隊伍內成員於報名時需全員符合學生身份才可擁有獲獎資格,指導教授不得與學生一同報名,請於最終報告內填寫指導教授名稱即可。
  9. 參賽成果之智慧財產權歸屬參賽隊伍擁有,其著作授權、專利申請、技術移轉及權益分配等相關事宜,應依相關法令辦理。
  10. 得獎隊伍獲得獎金應配合中華民國稅法繳交相關所得稅。
  11. 如有以上未盡事宜,視當時狀況共同商議之。
  12. 凡參加報名者,視為已閱讀並完全同意遵守本活動之一切規定。
  13. 參賽隊伍如違反本競賽辦法之相關規定,將取消其參賽資格,如已獲獎,則撤銷獲得之獎項,並追回獎金及獎狀。
  14. 若遇爭議,主辦單位保有活動最終解釋權。