議題提供單位

臺灣大學資訊工程學系

民國66年教育部核准臺灣大學成立資訊工程學系,招收學士班學生,隸屬工學院,為臺灣最早以「資訊」命名之系所。民國70年成立研究所招收碩士班學生,民國73年延伸到博士班,從而建立一套完整的高級資訊工程教育體系。民國89年8月資訊系與電機系共同成立電機資訊學院,為全國電機資訊領域的研究重鎮。資訊系與資訊網路與多媒體研究所(民國93年成立)、生醫電子與資訊學研究所生醫資訊組(民國95年成立),共同於電機資訊學院內組成資訊學群。

臺大資訊工程學系在優秀的師生與優良的設備之下,學術地位不僅國內領先,也達國際卓越水準。近年來,多次於全世界大專程式競賽ACM ICPC獲得金牌,並於機器學習KDD Cup世界大賽中多次獲得冠軍。

簡介

具爭議性議題的新聞一直是閱聽人關注與討論的焦點,例如:美國牛肉開放進口、死刑廢除、多元成家等。不論是政治、經濟、教育、兩性、能源、環保等公共議題,新聞媒體常需報導不同的立場。若能從大量的新聞文件裡,快速搜尋各種爭議性議題中具特定立場的新聞,不但有助於人們理解不同立場對這些議題的認知與價值觀,對制定決策的過程而言,也相當有參考價值。

參與本競賽之隊伍需開發一搜尋引擎,找出「與爭議性議題相關」且「符合特定立場」的新聞。本競賽網站以網頁連結(Hyperlink)方式,提供國內各大媒體新聞,作為競賽用的資料;本網站亦提供參賽隊伍一些「包含立場和爭議性議題」的查詢題目(例如:「反對學雜費調漲」)以及部分標註資料(例如:「相關」與「不相關」),協助參賽隊伍應用「資訊檢索」及「機器學習」技術於檢索模型的訓練,期望所開發之搜尋引擎能有效找出與「反對學雜費調漲」的相關新聞,並依照相關程度由高至低排列。

為了在各大專院校推廣人工智慧技術及應用,本榮譽賽將與校園相關課程(如:機器學習、資訊檢索、自然語言處理等等)綁定,授課教師可利用此競賽作為課程資源,提供修課學生更多實務上的練習。

競賽獎狀

在「新聞立場檢索榮譽賽」項目前數名的優勝隊伍將獲得教育部頒發獎狀。作品如均未達水準,得由決選評審委員決定從缺,或不足額入選。

參賽對象

全國各大專院校在學生

競賽方式及評選辦法

本競賽「新聞立場檢索榮譽賽(課程綁定)」係依據主辦單位提供之語料集建構檢索系統,並經由主辦單位指定之測試查詢題目之搜尋結果,評比各參賽隊伍的系統效能和名次,詳細辦法說明如下:

本競賽之主辦單位提供「部分新聞語料庫(NC-1)」、「其測試查詢題目(QS-1)」及「訓練標記語料(TD)」資料,詳述如下:

參賽隊伍需從「部分新聞語料庫(NC-1)」中搜索出其對應之「測試查詢題目(QS-1)」的相關文章,每個查詢題目需回傳排名前 300 篇新聞,並上傳搜尋結果至線上排名系統以調校模型效能,一天最多上傳 10 次,該系統使用 ${MAP@300}$ 指標評分,之後會說明 ${MAP@300}$ 的計算方法。主辦單位另提供「訓練標記語料(TD)」,每項標記語料包含「訓練用的查詢題目(QS-t)」、「某篇部分新聞語料庫(NC-1)的新聞」及「該新聞針對查詢題目的相關程度」;其中相關程度分四個等級,分別代表不相關 (0)、部分相關 (1)、相關 (2)、非常相關 (3);「訓練標記語料(TD)」並非「部分新聞語料庫(NC-1)」之完整標記,意即「部分新聞語料庫(NC-1)」的某些新聞可能沒有標記;「測試查詢題目(QS-1)」包含「訓練用的查詢題目(QS-t)」中的 5 個查詢題目。

活動時間

日期事件
2019/03/25公布「訓練標記語料(TD)」、「部分新聞語料庫(NC-1)」及「其測試查詢題目(QS-1)」
2019/06/30競賽截止

評估標準

本競賽採用 ${MAP@300}$(Mean Average Precision at 300)指標來評估參賽隊伍之系統效能,並以此成績高低作為評估最後名次之依據。${MAP@300}$ 的值介於 0 到 1 之間,值愈高表示搜尋結果愈好,詳細計算方式定義如下:

$$MAP@300 = {1 \over |Q|}{\sum_{q \in Q} AveP(q)@300}$$

其中 ${Q}$ 代表測試查詢題目的集合,${|Q|}$ 是測試查詢題目的個數,而 ${q}$ 表示某一個測試查詢題目;${AveP(q)}$ 的計算則定義為:

$$AveP(q)@300 = {1 \over min(|R(q)|, 300)}{\sum_{k=1}^{300} (P(k) \times rel(k))}$$

其中 ${P(k)}$ 為上傳結果中排名前 ${k}$ 名之精確度(Precision),即前 ${k}$ 名中有多少比例屬於相關;${rel(k)}$ 表示上傳結果中第 ${k}$ 名是否相關,若相關回傳 1,反之為 0;${R(q)}$ 表示測試查詢題目 ${q}$ 的相關文件集合,${|R(q)|}$ 為測試查詢題目 ${q}$ 的相關文件個數。請注意:在評估系統效能時,「訓練標記語料(TD)」的四個相關等級標記中,程度在「部份相關」以上則視為相關,意即除了不相關 (0) 外、部分相關 (1)、相關 (2)、非常相關 (3) 在計算 ${MAP@300}$ 時皆視為相關。

相關說明可參考 https://en.wikipedia.org/wiki/Evaluation_measures_(information_retrieval)#Mean_average_precision

相關舉例可參考 https://www.youtube.com/watch?v=pM6DJ0ZZee0


相關問題諮詢,請洽:ai.news.stance@gmail.com

規則

一、 新聞網頁中,僅「新聞標題」和「新聞文字內文」視為「新聞文件內容」,其他如影片、圖片、影片和圖片的描述、新聞來源、報導時間、記者等皆不視為文件內容,參賽隊伍僅可檢索「新聞文件內容」。

二、 參賽隊伍不得註冊多重帳號參加同一項競賽,違者喪失競賽資格;個別成員自行以個人帳號上傳結果,也視同使用多重帳號參賽。

三、 每人限報名一隊,加入隊伍後便無法換隊。

四、 線上評分排名系統每日有上傳次數限制,每個參賽隊伍每日最多上傳 10 次。

五、 參賽隊伍可以使用額外資源(例如:Pre-trained Word Embedding、NTUSD等情緒辭典)來增進系統搜尋結果。

六、 參賽作品所使用之資料、技術與程式碼,均屬參賽隊伍之原創或已取得合法授權,若有任何第三者主張侵害智慧財產權或其他違法情事,均由參賽隊伍自行出面處理;若有侵害他人智慧財產權之情事者,主辦單位將取消競賽及得獎資格,參賽隊伍應自行負擔相關法律責任。

七、 參賽成果之智慧財產權歸屬參賽隊伍擁有,其著作授權、專利申請、技術移轉及權益分配等相關事宜,應依相關法令辦理。

八、 如有以上未盡事宜,視當時狀況共同商議之。

九、 凡參加報名者,視為已閱讀並完全同意遵守本活動之一切規定。

十、 參賽隊伍如違反本競賽辦法之相關規定,將取消其參賽資格,如已獲獎,則撤銷獲得之獎項,並追回獎狀。

十一、 若遇爭議,主辦單位保有活動最終解釋權。