從國立臺灣大學的正門迎向椰林大道,左側依序有文學院、土木工程學系館,右側則是生農學院、園藝系、森林系,繼續深入校園,化工、數學、電機、外文、心理……錯落各處的系館建築,代表著一個個獨立的研究領域;彷彿每跨過一條柏油路,便能抵達研究旨趣與技術截然不同的另一個世界。從理工生農到人文社科,所有領域的學術研究者都有個共通的工作項目:撰寫、發表論文。
將埋首研究的成果落筆成文,經過同儕審查的錘鍊,發表於專業期刊上,是一名學者累積自身履歷的方式,也是升等的依據,更是衡量一所大學或學術機構績效的重要指標之一。問題是,已經發表的論文卻有可能遭遇「撤稿」的命運,這是怎麼回事?一所大學又該達到什麼標準才稱得上是「好大學」?
當新聞報導某學者陷入「撤稿風波」,或者某大學排名掉出前百大之外,往往無法真正傳達完整的背景資訊給閱聽眾。臺灣大學圖書資訊學系講座教授黃慕萱,運用書目計量方法(Bibliometrics)研究「撤稿」現象,現任臺大文學院院長的她,也對大學評鑑制度與排名系統進行了一番探究。
撤稿:學術界一種「正常的異常現象」
2014年,臺灣某位學者因涉入審查過程造假的學術醜聞,導致其發表於國際期刊的60篇論文皆遭撤稿,而後續引發的一連串政治效應,也讓「撤稿」議題受到大眾高度關注。這便是黃慕萱開始研究撤稿現象的契機。
「回到學界現實,撤稿究竟是怎樣的現象?」黃慕萱起先在課堂帶領學生初步討論,而後逐漸形成系統性的研究計畫。她著手分析各大學術資料庫的撤稿公告,指出撤稿現象其實是「學界運作常態中的偏差」,或者說是一種「正常的異常現象」。
照理而言,學術論文的撰稿與審查是極為細膩的過程,如果一篇論文在發表後仍發現細節小錯,作者可以透過「更正」程序來處理;但若是資料蒐集,或者分析過程中出現重大錯誤,便須以撤稿處置。黃慕萱發現,遭撤稿的學者其實高達八至九成屬於「一次撤稿者」,整個學術生涯只有那麼一次記錄;只有極少數學者屬於多次撤稿的累犯。
「當然,絕大多數的學者畢生都不會經歷撤稿。」黃慕萱解釋,「撤稿固然代表作者並不夠嚴謹,卻還是會發生,畢竟人難免有犯錯的時候。」至於那些三番兩次逾越界線的多次撤稿者,很可能抱持惡意心態,可能就不能以那麼寬容的態度看待。
撤稿面面觀:原因、領域、時代的差異
在媒體上看到名人、學者遭到撤稿,當初的研究隨之變成廢紙,到底該給予寬容,還是譴責?黃慕萱的觀察重點是「原因」;當撤稿事由不同,所代表的嚴重程度與對學者生涯的影響也不一樣。審閱大量撤稿公告,她將撤稿原因區分為兩大類:與「內容」有關以及與「作者」有關。其中,論文雖然可能因作者涉及利益衝突,或者違反期刊政策被撤下,但多數撤稿案例主要還是與「內容」有關。
最常見的撤稿原因為「內容錯誤」,舉凡原始資料、分析結果、研究方法、圖片呈現、實驗材料等各環節都可能出錯,釀成論文結論有誤的嚴重後果。有時是論文原作者自己發現錯誤,向期刊申請撤稿,這種情況並無須過度苛責。
第二常見的原因則是「內容造假」,比如無中生有捏造數據、操弄圖片以呈現更「漂亮」的研究結果,黃慕萱特別指出,這類違背基本研究倫理的作法相對難以原諒。至於第三常見的撤稿原因,則是「重複利用」,包括一稿多投、自我抄襲等形式。
黃慕萱發現,最常出現撤稿的生醫領域期刊文獻,問題其實主要出在「圖片」:製作細胞組織等生物分子影像時,學者容易使用錯誤或不當的方法,乃至刻意修圖,進而遭到懷疑、檢舉與撤稿。
異常現象反映日常秩序,從各式各樣的撤稿原因,即可窺見學者在論文寫作上需要注意多少細節,以及必須忠於證據、誠實報導等倫理原則。值得一提的是,隨著時代進展和資訊流通的加快,一篇學術文獻從發表、刊登到被發現有誤而遭撤稿,歷經的時間差越來越短。「2001到2010年間,被撤稿的文章平均已經發表5年;但到了近10年,有問題的文章幾乎馬上就會被撤稿。」黃慕萱分析道。
好學者、好大學,誰說了算?從同儕互評到書目計量法
除了觀察撤稿現象,黃慕萱也長期投入「學術評鑑」的研究。所謂學術評鑑,簡言之是針對學術機構與研究人員的表現評估。然而學術工作具備高度專業性,產出的成果甚至可能艱深難懂,該如何對其品質做出客觀評定?
「Peer review,同儕互評,是學界的悠久傳統。」黃慕萱解釋,「就像論文發表必須先經過同儕審查,我們要評鑑任何一個系所,也會聘請該領域中其他專業委員,透過他們的意見來評定、把關學術單位的工作表現。」
然而交由學術同業執掌評鑑,不僅勞師動眾、成本較高,還容易被質疑過於主觀。「有些人會半開玩笑,peer review會不會是反映學者的公關(public relation)做得好不好,兩個都簡稱PR。」
為了追求客觀公正,以數據分析為本的「書目計量學」於焉興起。既然做研究的最終產出都是論文,學者的論文發表數量、發表期刊的品質以及論文本身被引用的次數,自然可視為學術表現的客觀指標。綜合這些數據,便構成了學術研究者的KPI(關鍵績效指標;key performance indicators)。
「但你覺得這個方法好嗎?」黃慕萱點出,注重量化指標的書目計量方法,幾乎形同鼓勵學者「快速量產論文」,相反的,導致須經年累月琢磨思考一個研究問題的傳統模式難以運行。「體制要求學者寫更多論文,更嚴重的影響,就是變成造假、重複利用等不當行為的誘因。」
此外,偶爾也會出現引用俱樂部(citation club)的現象。「論文作者的自我引用,通常會受到比較嚴格的規範。」黃慕萱解釋,「但如果是相同領域的三、五名研究者慣性互相大量引用,不僅能快速累積帳面引用數,也不容易被偵測到。」
換個角度,分析學術論文的引用關係,偶能意外發現作者本人不會輕易說出口的實情。黃慕萱透過引文分析發現,學界常能見到兩位學者有「共被引」關係(兩人寫的論文常被其他論文一起引用),雙方卻幾乎不曾互相引用的情況。這表示兩人的研究主題、方法、觀點高度相關,才會經常被相提並論,然而他們卻不太參考對方的研究成果,這也多少反映出學者間的人際網絡狀況。
同儕互評與書目計量各有優缺點,兩者如何權衡運用?「這又要回到研究領域的差異。」黃慕萱說,「理工生農醫領域相對適用書目計量法;人文社科領域的評鑑標準就比較難拿捏。」舉例來說,近年社會科學領域熱烈進行本土化研究,但若論文發表於國內期刊,數據上的表現可能就不那麼「亮眼」,但不等於研究品質不夠好。
多元方法、多重指標:邁向客觀公允的進路
談到以量化角度評估學術表現,大眾媒體最熱烈關注的相關話題,無非是「大學排名」。黃慕萱坦言,許多人認為排名抹平事物的多面性,是一種最差的量化方式。「但說實在話,從小學生到大學評鑑,每個人都渴望看到排名,因為這是最能快速、簡單得知自己定位的方法。」
評鑑一所大學,不只是為研究成果、教學表現打分數,亦須納入行政效率、國際化程度等面向。各項目的評估標準、彼此間的權重分配,更是難題。「我們都沒坐在教室上課,如何衡量其他老師的教學表現?」黃慕萱說,「所以只好採用如生師比等間接指標,當一位老師平均照顧比較少學生,就視為教學品質較好。」
由於排名指標的計算方式具一定任意性,每一套排名系統的結果往往不盡相同。「就如同瞎子摸象,每個人摸出來的結論都不一樣。」黃慕萱比喻道。
舉例而言,臺灣大學2022年在英國高等教育調查中心QS世界大學排行第68名,卻在泰晤士高等教育特刊THE排行第113名,掉出百大之列。從新聞媒體到大學本身,鮮少細究背後的指標意涵,而是常以表面排名大作文章。
在黃慕萱眼中,即便排名系統存在差異,仍不至流於相對主義。「除了跨年分的排名變化趨勢是一個判斷大學有沒有進步的依據外,一所真正的好大學,就算用不同面向、權重作評估,結果都應該一樣好。」她說,「比如耶魯、劍橋的排名相對穩定,臺大在不同系統的排名落差就比較大,表示我們還有很多努力空間。」
如果說學者負責研究這個世界,誰來研究學者?將複雜多面的學術活動化作數字與指標後,如何正確詮釋與運用,才是真正關鍵的問題。
本文授權轉載自人文·島嶼平台,原文連結在此。