我們注意到,生物領域中常用分子標記法來追蹤反應過程中物質和細胞的變化,從而獲取反應特征和規律[29, 30]。受此啟發,我們發現在文獻的特征與規律挖掘中,方法、數據集、指標能夠起到和分子標記物相同的作用。我們將 AI 文獻中這三種同粒度的命名實體作為 AI 標記,利用 AI 標記來對正文中反映研究過程的信息進行示蹤。圖 1 描述了 AI 標記和分子標記的相似性。基于 AI 標記的挖掘補充了常規的基于元數據和基于摘要的挖掘。
(a) Samuel Ruben 和 Martin Kamen 使用氧同位素 18O 分別標記 H2O 和 CO2,跟蹤光合作用中的 O2 的來源。
(b) 當 AI 標記被其他文獻提出或引用時,就形成了特定研究過程中的蹤跡。因此,AI 標記在挖掘文獻的特征和規律性方面可以起到與分子標記相同的作用。
Figure 1:AI 標記和分子標記類比圖
在我們的研究中,首先利用實體抽取模型對大規模 AI 文獻中的 AI 標記進行抽取,并對有效 AI 標記(方法和數據集)進行統計分析。其次,我們對抽取的有效方法和數據集進行原始文獻的溯源,對原始文獻進行統計分析,并且研究了有效方法在數據集上和在國家之間的傳播規律。最后,根據方法和研究場景共現關系來實現對方法和研究場景的聚類,得到方法簇和研究場景簇。基于方法簇及關聯數據集繪制路徑圖,研究同類方法的演化關系,基于研究場景簇來分析方法對研究場景以及研究場景之間的影響關系。
通過基于 AI 標記的 AI 文獻挖掘,我們可以得到如下主要發現與結論:
我們從有效方法和數據集的新角度,通過對 AI 標記進行統計分析,獲得了反映 AI 領域年度發展情況的重要信息。例如,2017 年無人駕駛領域的經典數據集 KITTI 躋身于 top10 數據集,說明無人駕駛是 2017 年的熱門研究主題;
在對 AI 標記進行溯源得到的原始文獻的統計分析層面,我們發現新加坡、以色列、瑞士提出的有效方法數量相對較多;從有效方法在數據集上的應用情況來看,隨著時間的發展,有效方法應用在不同數據集上的速度越來越快;從有效方法在國家間的傳播程度來看,中國提出的有效方法對其他國家的影響力越來越大,而法國恰好相反;
為了訓練 AI 標記抽取模型,我們隨機選取 1000 篇 CCF corpus 中的文獻。將文獻正文中方法章節和實驗章節的內容按標點符號切分成句子,并招募 10 名 AI 領域研究生對這些句子進行標注。我們采用 BIO 標注策略標注方法、數據集、指標這三種實體,利用機器之心編譯好的方法、數據集、指標作為標注參考。最后我們得到 10410 個句子,稱之為 TMEdata。
在構建 AI 標記抽取模型時,我們將 TMEdata 按照 7.5:1.5:1 的比例劃分成訓練集、驗證集和測試集。訓練集、驗證集和測試集中包含的三種 AI 標記的數量如表 2 所示。
在一篇 AI 文獻正文中,位于方法章節和實驗章節的 AI 標記對該篇文獻起著實質性作用,因此我們只對 AI 文獻正文中方法章節和實驗章節的 AI 標記進行抽取。但是,由于 AI 文獻正文結構的多樣性,難以用簡單的規則策略對 AI 文獻正文章節進行較為準確的分類。因此,本文提出了BiLSTM 分類器和規則相融合的章節分類策略。
3.1.1 提出的分類策略
章節分類的整體流程如圖 2 所示。對于一篇 AI 文獻的正文內容,我們首先利用規則匹配(關鍵詞和順序)對正文章節進行標注。對于匹配到的章節,則輸出章節標簽。對于未匹配到的章節,則將章節下的段落輸入到基于 TCCdata 訓練的 paragraph-level BiLSTM 分類器進行預測。接下來對相同章節標題下的段落預測結果進行投票,將出現次數最多的標簽作為該章節類別。最后,將基于規則匹配得到的章節標簽與基于投票得到的章節標簽結合,得到整個正文的章節標簽。
考慮到在一篇文獻中,方法或數據集在被引用時,后面經常會附有其對應的原始論文。因此,在我們提出的溯源方法中,對于每個 AI 標記,我們首先找出引用該 AI 標記的文獻集合。對于文獻集合中的每篇文獻,查找該 AI 標記出現的句子集合。對于每個句子,查看該 AI 標記后面的一個位置或者兩個位置是否有參考文獻,將有參考文獻的信息記錄下來。最后,將每個 AI 標記對應的引用數量最多的文獻作為其原始文獻。
3.3.2 評估結果
利用本文的溯源方法,我們追溯到了 CCF corpus 中提出的被明確引用次數大于 1 的方法的原始文獻 4105 篇,方法 5118 個。追溯到 CCF corpus 中提出的被明確引用次數大于 1 的數據集的原始文獻 949 篇,數據集 1265 個。
本節基于前述的方法,包括章節分類、AI 標記的抽取與歸一、AI 標記原始文獻的溯源、方法和研究場景的聚類、方法簇內路徑圖的生成以及研究場景簇的影響程度,對所收集的 CCF corpus(2005-2019 年的 AI 論文)進行基于 AI 標記的統計分析、傳播分析與挖掘,并對結果進行展示。
4.1 有效 AI 標記的統計
我們通過提取 CCF corpus 中的 AI 標記,得到 171,677 個機器學習方法實體、16,645 個數據集實體、1551 個指標實體。考慮到很多只出現一次的 AI 標記基本上沒有豐富的信息,我們只對出現 1 次以上的 AI 標記進行分析。我們將出現次數大于 1 的 AI 標記稱為有效 AI 標記。
本節介紹了有效 AI 標記關于國家和出版地點的分析,以及對每年使用數量排名前十的有效 AI 標記的分析。
4.1.1 有效 AI 標記關于國家的分析
一個國家提出有效 AI 標記的數量能夠體現出該國 的 AI 研究實力。因此,我們首先對 CCF corpus 中各個國家在 2005-2019 年提出的有效方法和數據集的數量分別進行了統計,如圖 4 和圖 5 所示。
Figure 7:提出有效 AI 標記排名前 10 的出版地點的有效 AI 標記提出率。出版地點提出的 AI 標記的數量從上到下遞減。
由圖 7a 我們可以看出, ECCV 雖然是 CCF 的 B 類會議,但是其有效方法提出率要高于 CVPR。在提出有效方法的數量排名前十的出版地點中,有 7 個都是 A 類的出版地點,這說明 A 類出版地點中的論文質量確實要比 B 和 C 類的高。
圖 7b 展示了有效數據集的分布情況。我們可以看出,CVPR 提出更有效數據集的數量和提出率都排名第一。ECCV 雖然是 B 類會議,但是提出有效數據集的數量和提出率僅次于 CVPR。在提出有效數據集的數量排名前十的出版地點中,有 6 個是 A 類的出版地點,也反映出 A 類出版地點確實更關注有效數據集的提出。
本文借鑒生物領域中通過標記物來追蹤反應過程中物質和細胞的變化,從而獲取反應特征和規律的思想,將 AI 文獻中的方法、數據集、指標實體作為 AI 領域的標記物,利用這三種同粒度命名實體在具體研究過程中的蹤跡來研究 AI 領域的發展變化情況。
我們首先利用 AI 標記抽取模型對 122,446 篇論文中方法章節和實驗章節的 AI 標記進行提取,對提取的有效方法和數據集進行統計分析,獲得反映 AI 領域年度發展情況的重要信息。其次,我們對有效方法和數據集進行了原始文獻的溯源,對原始文獻進行了計量分析。并挖掘了有效方法在數據集上和在國家之間的傳播規律。發現新加坡、以色列、瑞士等國家提出的有效方法數量相對很多;隨著時間的發展,有效方法在應用在不同數據集上的速度越來越快;中國提出的有效方法對其他國家的影響力越來越大,而法國恰好相反。最后,我們將數據集和指標進行組合作為 AI 研究場景,對方法和研究場景分別進行聚類。基于方法聚類及關聯數據集繪制路徑圖,研究同類方法的演化關系。基于研究場景的聚類結果來分析方法對研究場景以及研究場景之間的影響程度,發現顯著性檢測這種經典的計算機視覺研究場景最不容易受其他研究場景的影響。
在以后的工作中,我們將對 AI 標記抽取模型進行改進,優化其抽取性能,并嘗試從 AI 文獻的表格、圖像等部分提取 AI 標記,更全面、準確地實現對 AI 標記的提取,進而更準確地展示 AI 領域的發展情況。
參考文獻
[1] Fatemah Alghamedy and Jun Zhang. 2018. Enhance NMF-based recommendation systems with social information imputation. Computer Science & Information Technology (CS & IT). AIRCC (2018), 37–54. https://doi.org/10.5121/csit.2018.81503
[2] Dheeru Dua, YizhongWang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. 2019. DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. arXiv preprint arXiv:1903.00161 (2019).
[3] Chris Dyer, Miguel Ballesteros, Wang Ling, Austin Matthews, and Noah A Smith. 2015. Transition-based dependency parsing with stack long short-term memory. arXiv preprint arXiv:1505.08075 (2015).
[4] Masaki Eto. 2016. Rough co-citation as a measure of relationship to expand co-citation networks for scientific paper searches. Proceedings of the Association for Information Science and Technology 53, 1 (2016), 1–4. https://doi.org/10.1002/pra2.2016.14505301131
[5] Thomas L Griffiths and Mark Steyvers. 2004. Finding scientific topics. Proceedings of the National academy of Sciences 101, suppl 1 (2004), 5228–5235. https://doi.org/10.1073/pnas.0307752101
[6] David Hall, Dan Jurafsky, and Christopher D Manning. 2008. Studying the history of ideas using topic models. In Proceedings of the 2008 conference on empirical methods in natural language processing. 363–371. https://doi.org/10.3115/1613715.1613763
[7] Yongjun Hong, Uiwon Hwang, Jaeyoon Yoo, and Sungroh Yoon. 2019. How generative adversarial networks and their variants work: An overview. ACM Computing Surveys (CSUR) 52, 1 (2019), 1–43. https://doi.org/10.1145/3301282
[9] Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, and Philip S Yu. 2020. A survey on knowledge graphs: Representation, acquisition and applications. arXiv preprint arXiv:2002.00388 (2020).
[10] John Lafferty, Andrew McCallum, and Fernando CN Pereira. 2001. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In Proceedings of the Eighteenth International Conference on Machine Learning. 282–289.
[11] Daniel D Lee and H Sebastian Seung. 2001. Algorithms for non-negative matrix factorization. In Advances in neural information processing systems. 556–562.
[12] Xinyi Li, Yifan Chen, Benjamin Pettit, and Maarten De Rijke. 2019. Personalised reranking of paper recommendations using paper content and user behavior. ACM Transactions on Information Systems (TOIS) 37, 3 (2019), 1–23. https://doi.org/10.1145/3312528
[13] Jiaying Liu, Jing Ren, Wenqing Zheng, Lianhua Chi, Ivan Lee, and Feng Xia. 2020. Web of scholars: A scholar knowledge graph. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2153–2156. https://doi.org/10.1145/3397271.3401405
[15] Xuezhe Ma and Eduard Hovy. 2016. End-to-end sequence labeling via bi-directional lstm-cnns-crf. arXiv preprint arXiv:1603.01354 (2016).
[16] Andrew Y Ng, Michael I Jordan, and YairWeiss. 2002. On spectral clustering: Analysis and an algorithm. In Advances in neural information processing systems. 849–856.
[17] Jeffrey Pennington, Richard Socher, and Christopher D Manning. 2014. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 1532–1543. https://doi.org/10.3115/v1/D14-1162
[20] Lei Shi, Hanghang Tong, Jie Tang, and Chuang Lin. 2015. Vegas: Visual influence graph summarization on citation networks. IEEE Transactions on Knowledge and Data Engineering 27, 12 (2015), 3417–3431. https://doi.org/10.1109/TKDE.2015.2453957
[21] Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi, and Thomas Griffiths. 2004. Probabilistic author-topic models for information discovery. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 306–315. https://doi.org/10.1145/1014052.1014087
[22] Cassidy R Sugimoto, Daifeng Li, Terrell G Russell, S Craig Finlay, and Ying Ding. 2011. The shifting sands of disciplinary development: Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation. Journal of the American Society for Information Science and Technology 62, 1 (2011), 185–204. https://doi.org/10.1002/asi.21435
[23] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. 2008. Arnetminer: extraction and mining of academic social networks. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 990–998. https://doi.org/10.1145/1401890.1402008
[25] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ?ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems. 5998–6008.
[26] Rui Yan, Jie Tang, Xiaobing Liu, Dongdong Shan, and Xiaoming Li. 2011. Citation count prediction: learning to estimate future citations for literature. In Proceedings of the 20th ACM international conference on Information and knowledge management. 1247–1252. https://doi.org/10.1145/2063576.2063757
[28] Hanwen Zha, Wenhu Chen, Keqian Li, and Xifeng Yan. 2019. Mining Algorithm Roadmap in Scientific Publications. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1083–1092. https://doi.org/10.1145/3292500.3330913
[29] Huan Zhao, Xueying Tian, Lingjuan He, Yan Li, Wenjuan Pu, Qiaozhen Liu, Juan Tang, Jiaying Wu, Xin Cheng, Yang Liu, et al. 2018. Apj+ vessels drive tumor growth and represent a tractable therapeutic target. Cell reports 25, 5 (2018), 1241–1254. https://doi.org/10.1016/j.celrep.2018.10.015
[31] Bin Zheng, David C McLean, and Xinghua Lu. 2006. Identifying biological concepts from a protein-related corpus with a probabilistic topic model. BMC bioinformatics 7, 1 (2006), 58. https://doi.org/10.1186/1471-2105-7-58