生醫論文自動分析正式賽 – 生醫關聯擷取
近年來隨著人工智慧技術的蓬勃發展,人工智慧的應用逐漸落實在日常生活周遭。全球性的市場調查諮詢公司 Markets & Markets 預估人工智慧應用的市場將從 2017 年的 160.6 億美元成長到 2025 年的 1,906.1 億美元,年均複合增長率達到 36%。獲益於人工智慧技術的產業包括製造業、金融科技、醫療領域等。這一波人工智慧的發展預期將會在 2022 年為醫療領域帶來79 億 880 萬美金的產值 。主要應用的人工智慧技術包括機器學習、自然語言處理、情境感知以及電腦視覺。其中自然語言處理技術更是在促成智慧醫療領域中扮演最重要的推手,依此技術所開發的各種醫療決策分析系統,如 IBM Watson 等,已經開始蓬勃發展與應用。臺灣醫療技術在世界上頗負盛名,這波的人工智慧技術更是掀起了產官學界一股智慧醫療的風潮。本計畫期望能夠藉由此計畫的推動,在這股即將到來的熱潮中扮演領頭羊的腳色,引領學子在學習人工智慧技術的同時,將其應用到跨領域的生物醫學智慧計算領域。本計畫將以自然語言處理技術為核心,開放競賽語料讓學子能夠將人工智慧技術應用於基礎的臨床醫療病歷資料分析到進階的生物資訊文獻語料,據此培養具備人工智慧、機器學習、自然語言處理與倫理道德素養的專業人才,並期待在本競賽中發展的技術成為臺灣健康資料加值應用中最重要的一環。參與本競賽的學子將可實務的了解分析生物醫學資料的流程與技術,並體現轉譯醫學思維,讓學子能夠了解利用自然語言處理技術將基礎醫學、生物資訊研究,和臨床治療連結的大思維。生物命名實體間的關聯擷取為文獻探勘研究的一大重點,本正式賽會提供人工標註的生醫文件(主要來源:PubMed 文獻摘要),並將資料分為訓練集 Part1、Part 2、建構集(開發集)Part1、Part2 與測試集。正式賽的資料來源以 PubMed 摘要為主,競賽的主要目標為從 PubMed 的生物醫學文獻摘要中辨識和提取具有蛋白質交互作用(Protein-protein Interaction,PPI)資訊之描述句子,並針對所擷取出來具有 PPI 的句子進行評估,確認關聯性的類型(例如:target/regulate/post-translation)。本競賽採用 F1-measure 來評估參賽者在測試語料集上預測結果的正確率。主辦單位將在報名規章公布中包含於釋出競賽相關細則並明訂關聯性類型之規範。競賽獎金敘獎對象須為報名時具中華民國各大專校院之在學生資格,敘獎時需檢附相關證明。在「生醫論文自動分析正式賽」項目前六名的優勝隊伍將獲得競賽獎金:名次獎金第一名10 萬元第二名5 萬元第三名3.5 萬元優等1 萬元佳作 2 名各 7.5 仟元前六名獲獎隊伍經評審委員審定後將獲得教育部獎狀乙紙。名次在前 25% 且超過 Baseline 之隊伍,經評審委員會審定後,將獲頒教育部人工智慧競賽計畫辦公室獎狀。各項獎勵名額得視參賽件數及成績酌予調整,參賽作品未達水準時,得由決選評審委員決定從缺,或不足額入選。參賽對象全國各大專院校在學生(含研究生),業界亦可參加,但不列入敘獎排名。競賽方式及評選辦法本競賽「生醫論文自動分析正式賽」係依據主辦單位所提供之語料集,並經由主辦單位聘僱之生醫領域專家所標註的結果,以 F1-measure 來評比各參賽隊伍的系統效能和名次,詳細辦法說明如下:本競賽有三種語料集,分別為訓練集(Training Data)、開發集(Development Data)及測試集(Test Data)。訓練語料集包括 1. 基因名稱(Gene) 2. 基因對應至 Entrez Gene 資料庫中的編號(Gene ID) 3. 基因與基因之間的關聯類型;而開發集及測試集都是只有標註基因名稱及其編號,並未包含關聯類型。其中訓練集及開發集又分為兩個階段釋出,第一階段僅釋出部分訓練集,第二階釋出完整訓練集。另外,開發集也分為兩階段釋出。1. 第一階段:主辦單位提供約 150 篇經生醫專家標註具有基因名稱、編號及關聯資訊之範例資料集。2. 第二階段:主辦單位將提供 1. 部分訓練集 2. 部分開發集(共約 2,000 篇)及線上評分排名系統(使用 F1-measure 指標評分)。參賽隊伍需從「部分訓練集」中訓練基因交互作用關聯類別分類模型,並以該模型對「部分開發集」進行預測,並上傳「部分開發集」之預測結果至線上評分排名系統,來進一步調校系統效能。3. 第三階段:公布「完整訓練集」及「完整開發集」,共 4,000 篇(包含階段二之資料 2,000 篇)。4. 第四階段:主辦單位公布完整的測試集(Test Data),標有基因名稱及編號,但不含關聯資訊標註之摘要約 20,000 篇。參賽隊伍需在截止時間前,至平台上傳從「完整測試集」預測結果。參賽者可上傳多次,並選取其中一至三筆分數作為評選對象。5. 參賽者必須在分數公布後兩周內上傳系統報告說明文件,以茲證明無任何作弊或抄襲之可能。委員們將在此階段一一進行嚴格的文件審查。6. 評分:最後仍用 F1-measure 來評估參賽隊伍的系統效能,並公布於 Private Leader Board,委員將以此成績高低為依據評估最後獎金賽名次。
2019-03-26T16:00:00+00:00 ~ 2019-08-29T15:59:59+00:00