Closed

747 / 599

participants / team

Topic provider

臺灣大學資訊工程學系

民國66年教育部核准臺灣大學成立資訊工程學系,招收學士班學生,隸屬工學院,為臺灣最早以「資訊」命名之系所。民國70年成立研究所招收碩士班學生,民國73年延伸到博士班,從而建立一套完整的高級資訊工程教育體系。民國89年8月資訊系與電機系共同成立電機資訊學院,為全國電機資訊領域的研究重鎮。資訊系與資訊網路與多媒體研究所(民國93年成立)、生醫電子與資訊學研究所生醫資訊組(民國95年成立),共同於電機資訊學院內組成資訊學群。

臺大資訊工程學系在優秀的師生與優良的設備之下,學術地位不僅國內領先,也達國際卓越水準。近年來,多次於全世界大專程式競賽ACM ICPC獲得金牌,並於機器學習KDD Cup世界大賽中多次獲得冠軍。

2019/12/02 得獎名單公布延期

原定12/2公布之得獎名單尚在討論中,暫緩公布,公布日期再行通知。

2019/09/17 第一階段前一百名排行榜

第一階段前一百名排行榜可至AI CUP競賽官網觀看: https://reurl.cc/k5VqAb

2019/09/02 第一階段前一百名排行嗙

第一階段前一百名排行榜如下: http://140.112.31.150:3456/ 比賽中若有任何問題,請寄信到 ai.news.stance@gmail.com,競賽單位會在最短時間內回覆。

2019/09/01 常見 Q & A

【比賽時間】 1. 什麼時候會公佈QS-2? 9/2比賽當天早上九點。 2. 什麼時候可以開始上傳? 上傳時間為9/2 9:00-23:59,時間截止會關閉上傳系統。 【比賽資料】 1. 比賽時要用到的資料有哪些? 「完整新聞語料庫(NC-2)」以及「測試查詢題目(QS-2)」。 2. 比賽有多少資料量?多少個query? 完整新聞語料庫(NC-2):60萬筆,測試查詢題目(QS-2):250個。 3. NC-2需要自己爬蟲嗎? 最好能在比賽前先爬好,或參考之前教學影片信件中的程式碼範例連結。 4. TD裡面有沒有包含到QS-2的題目? TD裡面有包含一部分的QS-2的題目,建議參賽者可以善加利用。 5. QS-2有包含QS-1嗎? 官網有寫到:「QS-1 ⊏ QS-2」,也就是QS-1的題目全部都會在QS-2裡面。 【比賽進行】 1. 比賽時遇到問題很急怎麼辦,要聯絡誰? 請寄信到 ai.news.stance@gmail.com,競賽單位會在最短時間內回覆。 2. 現在還想組隊,可以嗎? 報名與組隊已於8/30截止。 3. 睡到下午還來得及參加嗎,跑一次資料要多少時間? 跑一次資料依據不同的模型及機器會需要不同的時間,如果沒有預先處理相關資料,並且在普通電腦上跑的話,甚至有可能會需要到6小時以上。所以建議參賽者預估好每個query需要的時間,再思考自己當天調整模型的策略。另外當天也有可能會出現個人因素而引起的狀況,建議還是不要睡到下午再參加。 4. 比賽可以使用到api去做嗎?算不算犯規? 任何「用人工去檢視新聞是否相關」之外的方法都可以接受。 【比賽上傳資料】 1. 9/2總共可以上傳幾次?最後我可以自己選擇要用哪筆資料參賽嗎? 比賽開始9:00後,最多可以上傳7次,會以最後一次上傳的答案作為最終評分結果。 2. 明明上傳檔案格式都按照規定,還是顯示上傳失敗,系統壞了嗎? 有可能是你同一個query的300篇新聞結果有重複的news_id。例如: q_01, news_0001, news_0002, news_0003 ……, news_0001,所以被視為格式錯誤,無法上傳。 3. 比賽時,第一階段還能不能同時繼續上傳? 第一階段資料在9/2 9:00前還能繼續上傳。比賽開始9:00後,第一階段無法上傳。 【比賽參考分數】 1. 比賽時顯示的分數是怎麼計算的?是最終的比賽成績嗎? 比賽時顯示的分數及排名是依據參賽者上傳的檔案中,一部分題目的搜尋結果與答案計算出來的。這個成績只提供參賽者參考,並不是最終的比賽成績及排名。 2. 比賽時的上傳參考分數去哪裡看?有排行榜嗎? 請去「上傳」下的「Public Leaderboard」檢視,沒有提供大家的排行榜,只能看到你個人的參考成績。 3. MAP分數應該介於0~1之間,但是繳交的結果分數卻高於1是什麼意思? 數字超過1原因是數字過小,計算結果使用科學符號表示。例如2.067543*10e-8,但因平台設計關係無法顯示完整數字序列,因此看起來像是大於1的數字。 4. 比賽時,還能看到我之前在第一階段上傳的成績嗎? 比賽開始會將過去所有紀錄清空,如果想參考自己歷次上傳成績請自行留存。但會將第一階段排行榜的最後成績截圖,公布於公布欄讓大家參考。 【比賽結束】 1. 最後的競賽排名會在結束後馬上公布嗎? 不會,公布時間會再公告。 2. 想拿獎狀只要超過Baseline就可以嗎? 需要9/2當天比賽名次在前25%且同時超過Baseline 0.24之隊伍,才可以拿到「教育部人工智慧競賽計畫辦公室獎狀」。 3. 沒有拿到獎金,只有獎狀也要繳交最終報告嗎? 是的,請於競賽單位通知你的後五天內,提交搜尋模型的原始程式碼與最終報告,最終報告應包含「程式編譯及執行的步驟」和「使用的演算法」。 4. 我是業界人士,參賽也可以拿到競賽排名相關證明嗎? 我們不會公開頒發給業界人士證明文件或獎狀,若你主動提出申請證明文件,我們可以頒發證書給你。

2019/08/31 9/2競賽重要注意事項

競賽即將於9/2(一)9:00開始,以下為重要注意事項: 1. 有任何問題請寄信到【聯絡信箱ai.news.stance@gmail.com】,競賽單位會在最短時間內回覆。 2. 「完整新聞語料庫之測試查詢題目(QS-2)」下載時間為9/2 9:00–23:59。 3. 測試結果上傳時間為9/2 9:00–23:59。 4. 請在截止時間前上傳「完整新聞語料庫(NC-2)」的搜索結果,至多上傳7 次,僅以【最後一次上傳的答案】作為最終評分對象。 5. 9/2當日競賽資料,共有250個測試查詢題目(QS-2)及60萬筆新聞資料(NC-2)。 6. 因第二階段的測試查詢題目和新聞資料量比第一階段更龐大,程式執行時間更久,請注意時間。並利用目前提供的20個測試查詢題目,預先建好任何參賽所需的檢索系統。也請參賽者在9/2之前至少上傳過一次,以熟悉參賽流程。 7. 當日競賽開始9:00之前,可繼續上傳第一階段資料,不計入競賽上傳次數。競賽開始後不再提供第一階段線上排名系統的服務,同時清空過去Public Leaderboard上所有上傳記錄。 8.上傳競賽搜尋結果後,競賽單位會以部分測試查詢題目的搜尋結果預先算分,並僅將此部分的成績及排名顯示在個人頁面上。此分數及排名非最終競賽結果,僅提供參賽者參考,最終分數及排名將於競賽結束後擇日公布。 9. 除了前十三名優勝隊伍將獲得競賽獎金與教育部獎狀乙紙外,名次在前25%且超過Baseline 0.24之隊伍,經評審委員會審定後,將獲頒教育部人工智慧競賽計畫辦公室獎狀。 10. 競賽單位將於10月底至11月初發送通知給可能敘獎隊伍,請可能敘獎隊伍於通知後五天內提交搜尋模型的原始程式碼與最終報告,最終報告應包含「程式編譯及執行的步驟」和「使用的演算法」,以供驗證最終獲獎結果。

2019/08/28 關於上傳檔案格式

同一查詢題目的300篇新聞結果不可以重複。 若上傳的答案中有重複的news_id,例如: q_01, news_0001,news_0002,news_0003……,news_0001 則會視為格式錯誤,無法上傳。

2019/08/28 Baseline為0.24

競賽名次在前 25% 且超過 Baseline 0.24 之隊伍,經評審委員會審定後,將獲頒教育部人工智慧競賽計畫辦公室獎狀。

Introduction

具爭議性議題的新聞一直是閱聽人關注與討論的焦點,例如:美國牛肉開放進口、死刑廢除、多元成家等。不論是政治、經濟、教育、兩性、能源、環保等公共議題,新聞媒體常需報導不同的立場。若能從大量的新聞文件裡,快速搜尋各種爭議性議題中具特定立場的新聞,不但有助於人們理解不同立場對這些議題的認知與價值觀,對制定決策的過程而言,也相當有參考價值。

參與本競賽之隊伍需開發一搜尋引擎,找出「與爭議性議題相關」且「符合特定立場」的新聞。本競賽網站以網頁連結(Hyperlink)方式,提供國內各大媒體新聞作為競賽用的資料;本網站亦提供參賽隊伍一些「包含立場和爭議性議題」的查詢題目(例如:「反對學雜費調漲」)以及部分標註資料(例如:「相關」與「不相關」),協助參賽隊伍應用「資訊檢索」及「機器學習」技術於檢索模型的訓練,期望所開發之搜尋引擎能有效找出與「反對學雜費調漲」的相關新聞,並依照相關程度由高至低排列。

競賽獎金

敘獎對象必須為全學生之隊伍,敘獎時需要檢附相關證明。

在「新聞立場檢索技術獎金賽」項目前十三名的優勝隊伍將獲得競賽獎金:

名次獎金
第一名10 萬元
第二名6 萬元
第三名4 萬元
佳作 10 名各 1 萬元
  • 前十三名獲獎隊伍經評審委員審定後將獲得教育部獎狀乙紙。
  • 名次在前 25% 且超過 Baseline 之隊伍,經評審委員會審定後,將獲頒教育部人工智慧競賽計畫辦公室獎狀。
  • 各項獎勵名額得視參賽件數及成績酌予調整,參賽作品未達水準時,得由決選評審委員決定從缺,或不足額入選。

參賽對象

全國各大專院校在學生,業界亦可參加,但不列入敘獎排名。

競賽方式及評選辦法

本競賽「新聞立場檢索技術獎金賽」係依據主辦單位提供之語料集建構檢索系統,並經由主辦單位指定之測試查詢主題結果,來評比各參賽隊伍的系統效能和名次,詳細辦法說明如下:

本競賽分為兩階段,主辦單位於每個階段提供以下資料:

  • 第一階段:「部分新聞語料庫(NC-1)」及「其測試查詢題目(QS-1)」
  • 第二階段:「完整新聞語料庫(NC-2)」及「其測試查詢題目(QS-2)」

「完整新聞語料庫」包含「部分新聞語料庫」((NC-1⊂NC-2)),「第二階段之測試查詢題目」包含「第一階段之測試查詢題目」((QS-1⊂QS-2))。,第一階段另外提供「訓練標記語料((TD))」「訓練標記語料(TD)」作為訓練模型之參考,詳述如下:

1. 第一階段:參賽隊伍需從「部分新聞語料庫(NC-1)」中搜索出其對應之「測試查詢題目(QS-1)」的相關文章,每個查詢題目需回傳排名前 300 名的新聞,並上傳搜尋結果至線上排名系統以調校模型效能,一天最多上傳 10 次。該系統使用 ${MAP@300}$ 指標評分,之後會說明 ${MAP@300}$ 的計算方法。主辦單位於本階段另提供「訓練標記語料(TD)」,每項標記語料包含「訓練用的查詢題目(QS-t)」、「部分新聞語料庫(NC-1)中的某篇新聞」及「該新聞針對查詢題目的相關程度」;其中相關程度分四個等級,分別代表不相關 (0)、部分相關 (1)、相關 (2)、非常相關 (3);「訓練標記語料(TD)」並非「部分新聞語料庫(NC-1)」之完整標記,意即「部分新聞語料庫(NC-1)」的某些新聞可能沒有標記;「測試查詢題目(QS-1)」包含「訓練用的查詢題目(QS-t)」中的 5 個查詢題目。

2. 第二階段:參賽隊伍需從「完整新聞語料庫(NC-2)」中搜索出其對應之「測試查詢題目(QS-2)」的相關文章,每個查詢題目需回傳排名前 300 名的新聞。請注意:第二階段上傳的結果將決定本競賽之最終排名,此階段不再提供第一階段線上排名系統的服務,主辦單位會提前公布「完整新聞語料庫(NC-2)」,參賽隊伍必須於「測試查詢題目(QS-2)」公布之當日截止時間前上傳「完整新聞語料庫(NC-2)」的搜索結果,至多上傳 7 次,最後一次上傳的答案將作為評分對象。

Activity time

日期事件
2019/03/22開放報名及組隊
2019/03/25公布「訓練標記語料(TD)」、「部分新聞語料庫(NC-1)」及「其測試查詢題目(QS-1)」
2019/06/28公布「完整新聞語料庫(NC-2)」
2019/08/30報名及組隊截止
2019/09/02公布「完整新聞語料庫之測試查詢題目(QS-2)」,開放測試結果上傳,並於當天截止時間前關閉上傳功能
2019/12/02公布競賽排名

(頒獎時間待公布)

Evaluation Criteria

本競賽採用 ${MAP@300}$(Mean Average Precision at 300)指標來評估參賽隊伍之系統效能,並以此成績高低作為評估最後獎金賽名次之依據。${MAP@300}$ 的值介於 0 到 1 之間,值愈高表示搜尋結果愈好,詳細計算方式定義如下:

$$MAP@300 = {1 \over |Q|}{\sum_{q \in Q} AveP(q)@300}$$

其中 ${Q}$ 代表測試查詢題目的集合,${|Q|}$ 是測試查詢題目的個數,而 ${q}$ 表示某一個測試查詢題目;${AveP(q)}$ 的計算則定義為:

$$AveP(q)@300 = {1 \over min(|R(q)|, 300)}{\sum_{k=1}^{300} (P(k) \times rel(k))}$$

其中 ${P(k)}$ 為上傳結果中排名前 ${k}$ 名之精確度(Precision),即前 ${k}$ 名中有多少比例屬於相關;${rel(k)}$ 表示上傳結果中第 ${k}$ 名是否相關,若相關回傳 1,反之為 0;${R(q)}$ 表示測試查詢題目 ${q}$ 的相關文件集合,${|R(q)|}$ 為測試查詢題目 ${q}$ 的相關文件個數。請注意:在評估系統效能時,「訓練標記語料(TD)」的四個相關等級標記中,程度在「部份相關」以上則視為相關,意即除了不相關 (0) 外、部分相關 (1)、相關 (2)、非常相關 (3) 在計算 ${MAP@300}$ 時皆視為相關。

相關說明可參考 https://en.wikipedia.org/wiki/Evaluation_measures_(information_retrieval)#Mean_average_precision

相關舉例可參考 https://www.youtube.com/watch?v=pM6DJ0ZZee0


相關問題諮詢,請洽:ai.news.stance@gmail.com

Rules

一、 獎金規則

  1. 主辦方會要求敘獎隊伍,提交搜尋模型的原始程式碼與最終報告,以驗證結果。
  2. 最後獎金以 Private Leaderboard 的排名敘獎,報告本身不影響排名,但為檢視其作法及確認是否有舞弊之行為,報告完整性將視為實際獲獎依據,請各敘獎隊伍於報告上傳截止日前確認報告的完整性,如有任何疑問,請來信詢問;若截止日後報告有所缺漏,將取消獲獎資格。
  3. 敘獎隊伍相關指導成員將由主辦單位發函建請教育行政主管機關學校本權責予以行政獎勵。
  4. 敘獎隊伍獲得獎金應配合中華民國稅法繳交相關所得稅。
  5. 本競賽獎金敘獎對象為全學生之隊伍,隊伍內成員於報名時需全員符合中華民國各大專校院在學學生身分才可擁有獲獎資格,敘獎時需要檢附相關證明。指導教授不得與學生一同報名,請於最終報告內填寫指導教授名稱即可。

二、 競賽規則

  1. 新聞網頁中,僅「新聞標題」和「新聞文字內文」視為「新聞文件內容」,其他如影片、圖片、影片和圖片的描述、新聞來源、報導時間、記者等皆不視為文件內容,參賽隊伍僅可檢索「新聞文件內容」。
  2. 參賽隊伍不得註冊多重帳號參加同一項競賽,違者喪失競賽資格;個別成員自行以個人帳號上傳結果,也視同使用多重帳號參賽。
  3. 每人限報名一隊,加入隊伍後便無法換隊,但能繼續添加隊伍人數到上限5人。
  4. 線上評分排名系統每日有上傳次數限制,每個參賽隊伍每日最多上傳10次。
  5. 參賽隊伍可以使用額外資源(例如:Pre-trained Word Embedding、NTUSD等情緒辭典)來增進系統搜尋結果,惟不可使用人工方式取得第二階段測試查詢題目(QS2)的搜尋結果。
  6. 參賽作品所使用之資料、技術與程式碼,均屬參賽隊伍之原創或已取得合法授權,若有任何第三者主張侵害智慧財產權或其他違法情事,均由參賽隊伍自行出面處理;若有侵害他人智慧財產權之情事者,主辦單位將取消競賽及得獎資格,參賽隊伍應自行負擔相關法律責任。
  7. 為確保競賽的公平性,主辦單位有權要求參賽隊伍提供程式碼與相關資料進行驗證,如有造假、抄襲或詐欺之情事,主辦單位得取消其參賽與得獎資格並追回獎金,參賽隊伍需自行負擔相關法律責任。
  8. 參賽成果之智慧財產權歸屬參賽隊伍擁有,其著作授權、專利申請、技術移轉及權益分配等相關事宜,應依相關法令辦理。
  9. 如有以上未盡事宜,視當時狀況共同商議之。
  10. 凡參加報名者,視為已閱讀並完全同意遵守本活動之一切規定。
  11. 參賽隊伍如違反本競賽辦法之相關規定,將取消其參賽資格,如已獲獎,則撤銷獲得之獎項,並追回獎金及獎狀。
  12. 若遇爭議,主辦單位保有活動最終解釋權。