participants / team
中央研究院是台灣最高的學術研究機構。目前在廖俊智博士領導之下,致力於數理科學、生命科學及人文與社會科學三方面之基礎科學研究。資訊科學研究所於 1977 年開始設立籌備處,歷經五年籌備,於 1982 年 9 月正式成立研究所,是中央研究院數理組十個單位之一。本所除了從事資訊科學領域的基礎研究之外,亦以開發具前瞻性之尖端技術與發展以應用為導向的最先進系統為職志。身處學術重鎮,本所有責任在國內資訊領域肩負起學術領導地位,提升本國資訊科技水準,並躋身國際一流學術研究單位。「件件工作,反映自我,凡經我手,必為佳作」是全體同仁一致秉持的工作信念,重視工作之卓越品質,發揮最佳綜效之團隊精神。
親愛的參賽者, 經由評審委員審查過後, 最終得獎名單已經出爐囉~ 名單公佈於AI CUP計畫網站, 請點擊下方連結查詢! https://reurl.cc/31a9MM 恭喜得獎者!!! 競賽網頁連結: https://reurl.cc/pzoQr 最新消息請見FB粉專:https://reurl.cc/AvAnE AI CUP競賽官網:https://moeaincu.wixsite.com/aicup 生醫論文競賽巡迴課程線上影片(Azure版):https://reurl.cc/y57xa 生醫論文競賽巡迴課程線上影片(Python版):https://reurl.cc/VGLyY 祝 順心 -- 主辦單位:教育部人工智慧競賽與標註資料蒐集計畫辦公室 議題提供單位:中央研究院 資訊科學研究所 工研院 AIdea人工智慧共創平台 代發
親愛的參賽者,決賽已經結束一週,休養生息之餘,別忘記完成最後一個步驟,系統說明文件開放上傳至 9/13 23:59:59,請記得上傳。若沒有上傳說明文件,將不列入敘獎資格唷!
「上傳說明文件功能」僅接受 pdf、 doc、 docx、zip格式之英文檔名的檔案, 敬請參賽者注意檔案格式,以及檔名是否為「英文」。 如格式及檔名不符合上述規則,無論如何點選檔案,欄內仍以「未選擇任何檔案」表示, 不會跳出任何提醒視窗,請參賽者確認格式與檔名是否無誤。
7/5 00:00公布建構集 Part 2 及訓練集資料 Part 2(第 3 階段資料)開放下載。 leaderboard中的成績已於7/5 10:00全數清空,可開始上傳資料。
原訂7/1公布建構集 Part 2 及訓練集資料 Part 2(第 3 階段資料)開放下載及資料上傳算分,延後至7/5 00:00開放下載及資料上傳算分。 另,因本階段答案卷不同,原leaderboard中的成績將於7/5 10:00全數清空,以免新舊分數同時存在。敬請參賽者於leaderboard清空後上傳新的成果。
系統已經開放上傳預測後的development.tsv檔案進行算分。 另,第1、2階段的資料集新增經斷句後的摘要,檔名如下: 第1階段資料集,新增sample_txt2sent.7z; 第2階段資料集,新增training_txt2sent.7z、development_txt2sent.7z。 歡迎參賽者多加利用。
原訂於5/25開放訓練資料集下載及資料上傳算分的功能,資料集開放下載時間不變,5/25請至資料下載區的第二階段下載訓練及開發資料集。但資料上傳算分功能將延至5/31開放,功能開放前上傳資料進行算分,系統會顯示「資料格式錯誤」。算分功能開放後,將會再次通知各位參賽者,謝謝!
近年來隨著人工智慧技術的蓬勃發展,人工智慧的應用逐漸落實在日常生活周遭。全球性的市場調查諮詢公司 Markets & Markets 預估人工智慧應用的市場將從 2017 年的 160.6 億美元成長到 2025 年的 1,906.1 億美元,年均複合增長率達到 36%。獲益於人工智慧技術的產業包括製造業、金融科技、醫療領域等。這一波人工智慧的發展預期將會在 2022 年為醫療領域帶來79 億 880 萬美金的產值 。主要應用的人工智慧技術包括機器學習、自然語言處理、情境感知以及電腦視覺。其中自然語言處理技術更是在促成智慧醫療領域中扮演最重要的推手,依此技術所開發的各種醫療決策分析系統,如 IBM Watson 等,已經開始蓬勃發展與應用。
臺灣醫療技術在世界上頗負盛名,這波的人工智慧技術更是掀起了產官學界一股智慧醫療的風潮。本計畫期望能夠藉由此計畫的推動,在這股即將到來的熱潮中扮演領頭羊的腳色,引領學子在學習人工智慧技術的同時,將其應用到跨領域的生物醫學智慧計算領域。本計畫將以自然語言處理技術為核心,開放競賽語料讓學子能夠將人工智慧技術應用於基礎的臨床醫療病歷資料分析到進階的生物資訊文獻語料,據此培養具備人工智慧、機器學習、自然語言處理與倫理道德素養的專業人才,並期待在本競賽中發展的技術成為臺灣健康資料加值應用中最重要的一環。參與本競賽的學子將可實務的了解分析生物醫學資料的流程與技術,並體現轉譯醫學思維,讓學子能夠了解利用自然語言處理技術將基礎醫學、生物資訊研究,和臨床治療連結的大思維。
生物命名實體間的關聯擷取為文獻探勘研究的一大重點,本正式賽會提供人工標註的生醫文件(主要來源:PubMed 文獻摘要),並將資料分為訓練集 Part1、Part 2、建構集(開發集)Part1、Part2 與測試集。正式賽的資料來源以 PubMed 摘要為主,競賽的主要目標為從 PubMed 的生物醫學文獻摘要中辨識和提取具有蛋白質交互作用(Protein-protein Interaction,PPI)資訊之描述句子,並針對所擷取出來具有 PPI 的句子進行評估,確認關聯性的類型(例如:target/regulate/post-translation)。本競賽採用 F1-measure 來評估參賽者在測試語料集上預測結果的正確率。主辦單位將在報名規章公布中包含於釋出競賽相關細則並明訂關聯性類型之規範。
敘獎對象須為報名時具中華民國各大專校院之在學生資格,敘獎時需檢附相關證明。
在「生醫論文自動分析正式賽」項目前六名的優勝隊伍將獲得競賽獎金:
名次 | 獎金 |
---|---|
第一名 | 10 萬元 |
第二名 | 5 萬元 |
第三名 | 3.5 萬元 |
優等 | 1 萬元 |
佳作 2 名 | 各 7.5 仟元 |
全國各大專院校在學生(含研究生),業界亦可參加,但不列入敘獎排名。
本競賽「生醫論文自動分析正式賽」係依據主辦單位所提供之語料集,並經由主辦單位聘僱之生醫領域專家所標註的結果,以 F1-measure 來評比各參賽隊伍的系統效能和名次,詳細辦法說明如下:
本競賽有三種語料集,分別為訓練集(Training Data)、開發集(Development Data)及測試集(Test Data)。訓練語料集包括 1. 基因名稱(Gene) 2. 基因對應至 Entrez Gene 資料庫中的編號(Gene ID) 3. 基因與基因之間的關聯類型;而開發集及測試集都是只有標註基因名稱及其編號,並未包含關聯類型。其中訓練集及開發集又分為兩個階段釋出,第一階段僅釋出部分訓練集,第二階釋出完整訓練集。另外,開發集也分為兩階段釋出。
1. 第一階段:主辦單位提供約 150 篇經生醫專家標註具有基因名稱、編號及關聯資訊之範例資料集。
2. 第二階段:主辦單位將提供 1. 部分訓練集 2. 部分開發集(共約 2,000 篇)及線上評分排名系統(使用 F1-measure 指標評分)。參賽隊伍需從「部分訓練集」中訓練基因交互作用關聯類別分類模型,並以該模型對「部分開發集」進行預測,並上傳「部分開發集」之預測結果至線上評分排名系統,來進一步調校系統效能。
3. 第三階段:公布「完整訓練集」及「完整開發集」,共 4,000 篇(包含階段二之資料 2,000 篇)。
4. 第四階段:主辦單位公布完整的測試集(Test Data),標有基因名稱及編號,但不含關聯資訊標註之摘要約 20,000 篇。參賽隊伍需在截止時間前,至平台上傳從「完整測試集」預測結果。參賽者可上傳多次,並選取其中一至三筆分數作為評選對象。
5. 參賽者必須在分數公布後兩周內上傳系統報告說明文件,以茲證明無任何作弊或抄襲之可能。委員們將在此階段一一進行嚴格的文件審查。
6. 評分:最後仍用 F1-measure 來評估參賽隊伍的系統效能,並公布於 Private Leader Board,委員將以此成績高低為依據評估最後獎金賽名次。
時間 | 事件 |
---|---|
2019/03/27 | 開放報名及組隊(提供註冊及 Sample Data)(第 1 階段資料) |
2019/03/01-2019/08/20 | 校園巡迴 |
2019/05/25 | 公布建構集 Part 1 及訓練集資料 Part 1(第 2 階段資料) 開放下載 |
2019/05/31 | 開放資料上傳算分 |
2019/07/01 | 公布建構集 Part 2 及訓練集資料 Part 2(第 3 階段資料) 開放下載及資料上傳算分 |
2019/08/19 | 報名及組隊截止 |
2019/08/26 | 公布測試集(第 4 階段資料) 開放下載及測試集上傳(不算分) |
2019/08/29 23:59:59 | 比賽截止,關閉測試集的資料上傳功能 |
2019/08/30 00:00:00 | 公布系統分數 開始上傳報告 |
2019/09/13 23:59:59 | 上傳報告截止 |
2019/09/14 | 評估(系統+報告) |
2019/09/21 00:00:00 | 公布最後成績(系統+報告)(頒獎時間待公布) |
競賽相關資料提供:https://drive.google.com/drive/folders/1r-AgaOfDecMNB1FPhqasqoEVUrosRa84?usp=sharing
評估方式採用 ${F1 \text{-} measure}$(又稱 ${F1 \text{-} score}$),其公式如下:
$$Precision = {系統辨識之正確關聯類型基因組的總數 \over 系統辨識之關聯類型基因組的總數}$$
$$Recall = {系統辨識之正確關聯類型基因組的總數 \over 語料庫中關聯類型基因組的總數}$$
$$F1\text{-}measure = {{2 \times Precision \times Recall} \over {Precision + Recall}}$$
詳細說明可參考 https://en.wikipedia.org/wiki/F1_score
相關問題諮詢,請洽:btmiis316@gmail.com
一、 獎金規則
二、 競賽規則