研究種類:DeSci, Scientific Publishing
原文作者: Philipp Koellinger, Christian Roessler, Christopher Hill
原文: Why We Need To Fundamentally Rethink Scientific Publishing
“現有的學術期刊系統已經千瘡百孔。這篇文章我們討論了潛在的解決方案,包括我們需要什麼樣的期刊,以及web3技術帶來的新的可能。”
科學哲學家David Deutsch指出,科學的目的是發現關於世界的解釋知識,這些知識既是真實的(即可復現的和普遍的),又是“難以改變的”(即產生非任意的解釋,可以通過實證手段驗證,而不需要依賴於權威和教義)¹。
證實、批評以及提出新的解釋和發現都依賴學術期刊。對於絕大多數領域來說,在著名的學術期刊上發表論文,可以賦予科學工作以合法性,吸引全世界研究人員的注意,為未來的研究獲取資助者的資助,並且對於科學家找到工作和獲得晉陞都至關重要。
這樣看來,頂級學術期刊已經成為科學合法性的守門人。但是,在頂級期刊上發表論文,真的與做好科學工作是一回事嗎?如果不是,是否有一個更好的、現實可行的解決方案?
我們相信是有的。在這個系列中,我們將審視當前的學術生產體系,並描述由此產生的結構性問題,同時也將探討web3技術如何使我們能夠建立一個新的體系來解決這些問題。
作為排名和評價工具的學術期刊
在當前的學術生產模式下,科學家需要不斷提供其“生產力”的證據,以促進其職業發展(即被僱用或晉陞),獲取未來研究資助,因為僱主和資助機構使用這樣的評價過程。
這種評價過程中的問題在於,評價者並沒有時間充分參與每個科學家所做的研究。僅僅徹底研究一位科學家以前的所有工作就可能需要幾天、幾周甚至幾個月。
這對評價者來說不切實際,哪怕你再勤奮善良。於是,評價者不得不依靠啟髮式方法,以便更容易評估科學家的工作成果,如科學家發表了多少篇經同行評審的論文,以及是否在頂級期刊上發表。
因此,在學術期刊上發表文章是當前科學家的關鍵績效指標。這一指標已經成為不同領域的科學研究被評價和排名的黃金標準。一些期刊被認為比其他期刊更有聲望(即更難進入),所以這些期刊對科學家的職業生涯影響更大,同時也為研究結果本身增加了含金量。
學術期刊的編輯也因此在科學界具有很大的影響力。正是他們決定哪些投稿屬於他們的範圍,並且“足夠好”,可以進行詳細的評估,而且是由他們來最終決定接受或拒絕投稿(根據收到的同行評審意見)²。
這裡是Publon在2018年對同行評審系統現狀進行的一個很好的總結。值得注意的是,大多數同行評審是匿名的(即作者不知道他們的評委是誰),即使文章被接受發表也一樣。這意味着評審過程缺乏責任人,這一學術生產關鍵過程中是否存在爭權奪利、馬虎、武斷和利益衝突,則無人知道。此外,期刊的審查過程通常很慢,需要幾個月或幾年的時間才能出版,而且往往有很多針對期刊的各種投稿要求,如格式要求,在浪費科學家的時間,他們要投稿不同的期刊,直到最後找到一個出版渠道。
學術期刊在科學家的職業生涯中起着關鍵的把關作用,但期刊選擇或拒絕文章的方式通常不對公眾透明。不僅效率低下,而且不負責任。此外,期刊還決定了公眾在什麼條件下可以獲得他們採納的文章。對絕大多數期刊來說,發表的文章要麼藏在付費頁後面,要麼就需要支付大量的出版費(如果文章開放),這些數千美元的費用必須由作者或其僱主支付。我們下面將進一步討論期刊的這種商業模式。
引文和影響
衡量學術出版物的重要性和質量(其 "影響力")的一個流行指標是其被引用的次數。一篇文章被引用的次數越多,它就被認為對某一領域的科學論述越重要。引文很容易計算和比較,因此很快成為判斷科學家是否成功的定量啟髮式方法。這極大地激勵了科學家把增加引文本身作為目的。
但獲得大量的引用並不等同於進行良好的科學研究。用引文作為“影響力”代表的一個問題是,科學工作需要時間來傳播和積累引文。平均來看,科學論文在發表后的2-5年內達到引用高峰。⁶ ⁷這使得使用引用次數來評估科學家最新工作的影響幾乎是不可能的。資助者和機構需要在一項發現的引文生命周期結束之前做出分配決定(“長期信用”),而引文數量需要幾年時間來積累,所以他們使用了一個更直接的方式(“短期信用”):用期刊聲譽來判斷科學家最新工作的影響。在許多領域,如果一個科學家沒有在“頂級期刊”(即那些被認為是最有聲望和最難進入的期刊)上發表過至少一篇或幾篇近期的文章,幾乎不可能被聘用或晉陞。
影響因子⁸是衡量期刊聲譽的代表,它衡量過去兩年中發表的文章的年平均引用次數。期刊聲譽和影響因子是一個指標,根據設計,這些指標集合了所有在期刊上發表的論文的聲譽,而不考慮其具體論文質量和影響。但是,期刊內部的引文分佈通常是高度傾斜的——一本期刊中大約一半的論文佔到期刊總引文的85%。⁵ 由於在同一期刊上發表的文章在引用模式上的巨大差異,期刊的影響因子只能粗略地代表期刊內發表論文的質量和重要性。⁹ 此外,小型期刊的影響因子可能會因為收錄一篇或幾篇迅速積累大量引文的文章而波動巨大。
不同領域的期刊影響因子也有很大差異,部分原因是特定領域的引文文化和一個學科的絕對規模,但也與期刊規模和被計算的出版物類型(如信件、社論、新聞條目、評論)有關。⁶ 因此,期刊的影響因子部分是由與其發表的文章質量無關的方面驅動的。
影響因子指標最初並不是為了作為期刊質量的代表而使用的。它最早由Eugene Garfield設計,圖書館管理員採用它來幫助決定訂閱哪些期刊。⁸由於它已經成為期刊聲譽的重要組成部分,以營利為目的的訂閱期刊從此學會了利用各種策略來優化其影響因子,來從中獲利。
當一個指標被作為目標優化時,它往往就不再是衡量真正關注的對象(即學術出版物的質量和重要性)的好指標了。¹⁰ 科學家們一直是影響因子的接受方,也經常發出譴責,但還是不得不採用這一規範,因為機構只能以此評判學術生產力。儘管人們一再呼籲放棄將期刊影響因子作為衡量學術界和機構學術生產力的標準,但它仍然是最廣泛使用的衡量標準,部分原因是人們對應該使用何種替代措施缺乏共識¹¹²。
帶來的後果就是,知名期刊已經學會了管理他們的文章組合,就像人們分散押注不確定的市場一樣。從本質上講,編輯們是根據某篇文章未來預期產生的引用次數來對論文下注;這種組合產生的引用次數越多,影響因子就越高,這反過來又能推動收入。
但是,著名期刊一旦獲得這種聲望,也會成為市場推手:因為它們在學者和記者的注意力經濟中擁有很大的 "市場份額",在它們那裡發表的文章可能會獲得更多的引用,從而產生飛輪效應,鞏固現有期刊的收益,使它們極難被取代。因此,高影響因子的期刊很可能比發表相同質量文章的另一期刊獲得更多的引用,從而使影響因子離一個有用的衡量標準更遠了。
在目前的激勵結構下,創新性勝過可重複性
實證結果的獨立重複對於科學界尋求更好解釋世界如何運作至關重要。¹³ ¹⁴ 如果結果無法復現,一項新穎的發現可能是錯誤或捏造的,只能依賴某人的權威而不是客觀證明。不幸的是,在學術出版物的聲望等級中,可重複的得分遠不如創新和令人驚訝的結果高。例如,只有3%的心理學期刊明確鼓勵提交重複研究,而許多期刊則明確表示他們不發表重複研究¹⁵。
因此,科學家們幾乎沒有動力去產生可復現的研究結果。相反,他們面臨的是一種“不發表就滅亡”,甚至是“無影響就滅亡”的文化,這種文化以新穎性和影響力為基礎,決定了他們在學術界的成功。¹⁰使用引用率和影響因子作為衡量學術生產力的核心問題之一是,它們沒有考慮到已發表研究的可重複性。新穎的、令人驚訝的和具有顛覆性的結果更有可能得到關注和引用,因此受到編輯和期刊的追捧——儘管新穎的和令人驚訝的發現也更可能是假的。
可重複性與常用的績效指標脫鉤,導致許多科學領域出現了嚴重的可重複危機。¹³ ¹⁶ ¹⁷ ¹⁸ ¹⁹ ²⁰ 科學家們產生新穎的、吸引眼球的結果的動機是如此強烈,已有許多徹頭徹尾的數據操縱和欺詐案例見諸報道。²¹ ² ²³此外,糟糕的研究設計和數據分析,以及研究人員在分析數據時的自由度,都鼓勵了虛假髮現。¹³ ¹⁶ ²⁴ 最近對社會科學領域的高影響力論文進行的大規模復現研究發現,只有約60%的原始結果可以被複現。¹⁷ ¹⁹ 超過70%的研究人員曾試圖復現另一位科學家的實驗,但沒有成功,超過一半的人沒有重複自己的實驗。
更糟糕的是,不可重複的研究往往比可重複的研究被引用得更多,²⁶而在強烈矛盾的重複結果之後,論文的引用模式只作了適度的調整。由於這種支持創新性而反對可重複性的偏見,科學工作並沒能有效地自我糾正。由於發表的文章中的引文只是向後看(即它們只反映以前發表的文獻中哪些部分被引用),文章的讀者幾乎無法確定一項研究的新發現是否可復現和值得信賴。期刊也有動力不為復現提供便利,因為成功的復現並不新穎,不足以獲得大量的關注(即影響和引用),而不成功的復現則會破壞期刊的質量保證聲明。
在技術附錄中,我們更詳細地探討了期刊編輯選擇新穎性和反對重複現有結果的研究的動機。作為對比,我們提供了一個能使整個研究事業價值最大化的“理想”標準。在一個理想的學術評估體系中,重複,尤其是最初幾次重複,將獲得明顯更多的權重。
目前,將可重複性與影響力分開,缺乏對現有工作進行重複的激勵措施,以及缺乏對重複結果進行“前瞻性”觀察的激勵措施,這些都導致了今天許多學術領域的不穩定狀態。¹⁶ 從根本上說,目前獎勵科學家發表儘可能多的“高影響力”研究的做法與科學工作的目標,即找到可靠的解釋之間存在着脫節。
然而,儘管有其固有的缺陷,著名的期刊和學術機構仍然在這種模式下運作,而科學家們幾乎別無選擇,只能配合,因為他們的職業前途主要取決於此。
學術期刊的商業模式
傳統學術期刊要求作者將版權轉讓給出版商。版權是一種知識產權,賦予其所有者複製創造性作品的專有權,從而為版權所有者創造壟斷權力,使作品貨幣化。學術出版物市場主要由五家大型營利性公司(Elsevier、Black & Wiley、Taylor & Francis、Springer Nature和SAGE)主導,它們共同控制着50%以上的市場。²⁸全世界學術論文使用權的銷售額超過190億美元,這使得學術出版業的收入介於音樂產業和電影產業之間。
出版公司的兩種主要商業模式是“付費獲取”和“付費出版”。這兩種模式都依靠科學家無償的同行評審,這相當於科學家向出版業捐贈了數十億美元,出版社利用公共資金或研究人員的私人時間來提高利潤,並剝奪了科學家進行高質量評審工作的應有的公平回報。
在付費獲取模式中,期刊向個人和機構(如大學圖書館)收取訂閱費。每份期刊的年度訂閱費用通常為數百美元,獲取單篇文章的費用通常在20美元至100美元之間。
大學、圖書館和政府等機構訂戶得到的是捆綁式“交易”,其中往往不僅有出版商排名最靠前的期刊,還有大量小眾或低影響力的期刊,這些旗杆如果不是因為捆綁,訂戶可能不會付費購買。這種利用市場支配地位來捆綁商品的做法,是一種強有力的反競爭策略。³⁰ ³¹ ³² 通過在一筆交易中佔據圖書館的大部分預算,在位者可以保護自己的市場不受新來者的競爭。
這種模式下的期刊訂閱對公共資金造成巨大負擔。³³例如,英國在2014年花費了5230萬美元用於年度期刊訂閱,³⁴而荷蘭在2018年為其公立大學訂閱一個大型出版社(Elsevier)的期刊支付了超過1400萬美元。儘管大量公共資金用在期刊訂閱,但為大部分研究和期刊訂閱費提供資金的納稅人卻無法獲得自己稅收所支持的學術文章。
在“付費出版”模式中,作者為他們發表的每篇文章支付費用。與“付費獲取”模式不同的是,這些文章是根據開放獲取協議發表的,通常公眾可以在線獲取。不同期刊和文章類型的出版費各不相同,典型的出版費在2,000美元至11,000美元之間。³⁵ 科學家要麼從研究預算中支付這些費用,要麼自掏腰包,要麼依靠僱主(如大學)來支付費用。“付費出版”期刊的總數和市場份額每年都在增長。³⁶ ³⁷
“付費出版”模式的核心是一種不正當的激勵機制:文章的作者只有在稿件被接受時才付費。這意味着,每拒絕一篇稿件,期刊就會損失一筆錢。因此,開放獲取的期刊需要放寬篩選限制,以維持商業模式。雖然開放獲取期刊降低了知識獲取的門檻,而且許多期刊都是善意的、高質量的,但這個模式導致了低標準的劣質期刊在世界範圍內的流行,為幾乎沒有價值的研究打開了大門。³⁸ ³⁹ ⁰ ⁴¹
因此,我們的學術評價系統陷入了兩難境地:一邊是以訂閱為基礎的出版商控制着發行渠道,他們是頑強的、不可動搖的,強有力地提取納稅人繳納的稅款。他們的嚴選的旗艦期刊讓他們有能力進行捆綁交易獲利。在另一頭,開放獲取模式以數量取勝,使劣質出版商在全球範圍內崛起,大量虛假的、不可靠的、甚至是剽竊的報告,偽裝成科學文獻。
最後,“付費獲取”和“付費出版”兩種模式都將來自底層機構的絕大多數科學家和發展中國家的人民排除在科學參與之外,從而加劇了不平等,限制了進步和發展的機會。
近年來,我們見證了免費替代方案的興起:預印本平台,如bioRxiv、medRxiv或SSRN,它們允許科學家在網上發布其手稿的早期版本。這些預印本平台效仿物理學家依靠Arxiv在圈子裡分發自己工作成果的做法。與此類似,經濟學家也依賴NBER等工作文件平台,主要是因為在知名的經濟雜誌上發表文章往往需要多年時間。然而,預印本和工作論文沒有經過同行評審,往往與最終發表版本大相徑庭,或者根本沒有被需要同行評審的期刊接受發表。因此,非專業的讀者很難/不可能評估他們能否相信這些渠道的內容。正如我們在COVID疫情中所看到的,預印本平台,尤其是在醫學領域,可能被濫用於傳播錯誤信息和不可靠的科學研究。
總之,目前的學術出版生態系統具有高度的剝削性和不公平性:它限制了科學進步和發展的機會;它有利於目前學術出版社的寡頭壟斷及其股東,卻犧牲了公眾的利益。雖然預印本平台作為一種學術期刊的替代品,但它缺乏同行評審的嚴謹性,更容易成為錯誤信息的來源。
Web3技術如何為未來帶來希望
歷史上技術創新使我們生產和分享知識的能力得到了巨大的改善。這方面的例子包括印刷術的發明(它使大規模存儲和傳播知識成為可能),科學設備的發展和改進,互聯網(它使人們能夠立即在全世界範圍內訪問計算機程序、數據庫和出版物),以及能夠快速處理大量數據的超級計算機。
最近的一波浪潮是web3技術,該技術實現了互聯網的去中心化版本,其基礎是越來越多的公開可用、防篡改記錄的對等網絡,允許大規模的協作。Web3是對web2的中心化、不透明、數據籬笆原則的有力背離,web2是注意力經濟,也是Facebook、Google等公司成功的基礎,也是寡頭壟斷的學術出版商的專有、垂直整合的平台。
與此相反,web3的核心前提是將所有權廣泛地分配給用戶,以及通過分佈式賬本技術構建無需信任、抗審查的執行代碼。隨着web3越來越多被採用,應用程序也越來越多,我們開始好奇,精英期刊是否可以重構為web3上的科學合作。
在web3上重構目前的學術出版模式的好處是,它將根據貢獻大小,使科學家能夠在數百萬美元的學術出版業務中獲得股份。如果能成功做到這一點,它將從實質上解決當前集中模式下出現的一些挑戰和問題。雖然技術上可行,但它很可能會遭到在位者的反對:主要的出版商堅決反對所有權,認為這是一條不可逾越的紅線,他們寧可讓編輯們集體辭職,也不願意開這樣一個危險的先例。
除了把科學家創造的價值還給科學家之外,web3還為新的合作模式、激勵制度和支付手段提供了技術能力。正如我們在DeFi上看到的那樣,金融業正面臨著可編程貨幣(“樂高貨幣”)崛起的壓力。去中心化的自治組織DAO正在以越來越快的速度出現,從金融服務提供商(如MakerDao)到數字藝術投資集體(如PleasrDAO)。Web3正在湧現出激進的實驗,例如通過二次方募資(如Gitcoin)、去中心化的身份管理DID、去中心化的存儲解決方案(如IPFS、ARWEAVE、Filecoin)、自我託管的集體錢包(如Gnosis),以及蓬勃發展的DAO工具包生態系統(如Aragon、Commons Stack)。
更重要的是,將匿名身份與學術聲譽綁定的可能性,為我們在一個完全開放、透明的科學評價系統中保護評審員的身份提供了新的視角。在web3中,我們可以以一種防篡改和可審計的方式,將一個匿名身份與真實的、高價值的科學工作貢獻掛鈎。通過將“技能證明”系統與匿名相結合,我們可以創造一個科學生態系統,既可以促進公開辯論,又可以減少偏見。
web3精神的核心是將世界去中心化,實現更多基於貢獻的價值和所有權的分配,並恢復個人對其財務、數據、貢獻和身份的主權。現在各種構件已經具備,學術期刊作為DAO有諸多好處,可以把創造的價值回饋給社區。
在Web3應用於科學的領域,一些先驅者已經開始行動。現在已經有了一個生態位系統,VitaDAO是一個Web3項目的例子,它將世界上一些偉大的長壽研究實驗室聚集在一起,為他們的研究提供資金,並對由此產生的知識產權擁有權益。其他項目,如ResearchHub,正試圖通過類似Reddit的社會機制,對科學工作進行眾包策劃。
我們所面臨的問題是全球性的,人類的未來在很大程度上取決於我們的科學引擎是否有自我糾正、證偽、批評和向真理靠攏的能力。David Deutsch在他的書說,只要這些核心屬性得以保持,人類就已經踏上了走向無限進步的起點。不幸的是,有經驗證據表明,在過去的幾十年裡,科學進步一直在穩步減速,每投入一美元,隨着時間的推移,產生的社會回報越來越小。這一趨勢令人擔憂,一個可能的解釋是,新發現越來越難了。⁴⁵但可重複危機和劣質出版也表明,我們的學術驗證機制的運轉出了問題,這是科學回報率下降的一個原因。
以正確的方式結合起來,web3技術可以轉變並大幅改善我們的科學合法性授予引擎,同時將科學家創造的價值還給科學家。
技術附錄
學術期刊基於智能體黑盒來預測稿件價值
為了改進目前的出版體系,最好能定義一個目標函數,說明期刊應該選擇什麼文章,以使出版物對知識創造的貢獻最大化。基於這樣的目標函數,可以對不同的選擇機制進行比較,並對其促進知識創造的能力進行排名。這就是我們現在試圖做的事情。
作為第一步,我們可以將期刊概念化為一個預測管道,旨在根據預期價值對科學工作進行分類和分級。期刊評價過程中的每個參與者關於是什麼構成了有價值的科學,都有自己的世界模型。參與者可能同意也可能不同意他們所認為的有價值的科學。而且,通常情況下,審稿人和編輯都不會明確說明他們的個人評價標準是什麼。讓我們把這些潛在的異質性世界模型稱為“黑盒子”。
在學術出版過程的每個階段,這些黑匣子都會產生信號,這些信號被組合成一個由編輯提出的最終預測。只要預期的科學價值超過了某個期刊的設定標準,稿件就會被接受出版。如果沒有達到標準,稿件將被拒絕或被邀請重新提交,前提是評審員的要求能夠得到徹底解決。
機器學習框架:學術期刊作為集成學習
目前大多數學術期刊可以被視為一個3階段的預測過程,它結合了來自不同黑盒算法的預測。在機器學習中,這被稱為集成學習。集成學習是將不同的預測算法結合起來,以提高預測的準確性。⁴⁶⁴⁷編輯(一般是資深科學家)會進行初始預測("案頭"),構成對預期科學影響的初步過濾。通過“案頭”后,論文就進入了下一階段,也就是把論文發給同行評審員。評審人對該工作的預期科學價值進行自己的預測。在最後階段,編輯將這些信號與自己的信號進行權衡和匯總,形成自己的最終預測。
基於智能體的框架:努力和真相是防止噪音、串通和破壞的必要條件
在一個理想的世界里,每一個參與的黑盒子都 a)花費最大的努力,b)如實報告其預測結果。之所以需要前者,是因為這些世界模型的應用成本很高:評估方法的合理性和結論的合理性所需的詳細和細微工作是一個耗時的過程。每一份提交的材料都是一個高維度的輸入,需要從多個維度進行分解和評估,以確定其預期的科學影響。如果擴大不夠格的努力,預測就變成了噪音。
如果不報告真相,我們就會遇到無端的把關風險。同樣,作者和同行評審員之間也有串通的威脅,互相提供誇大的評論。噪聲、破壞和串通是現代學術期刊同行評審過程的三種失敗模式,只有通過努力和誠實才能避免。這是一個特別尖銳的問題,因為同行評審員(往往還有編輯)為出版社無償工作,而提供努力的評審幾乎沒有任何好處。
學術期刊的正規化
在抽象的意義上,我們可以認為研究工作是通過提供新的證據來確定一個假設的真實性,這些證據理想上是非常有說服力的(但事實上可能不是這樣)。研究貢獻的質量(Q)取決於我們學到了多少東西(L),即這些信息在多大程度上提高了我們對假設的信心,以及該假設對整個科學事業的重要性(V)。也就是說,Q=V∙L。
鑒於我們現有的知識基礎,新知識的價值取決於其潛在影響,以及從這些潛在影響中獲得的收益,例如新發明。這些東西很難觀察。即使是有類似資格的評審員和編輯也可能在一定程度上對什麼是V有不同意見,這受限於他們對當前知識的主觀理解,他們判斷未來影響的技巧和想象力,以及他們對哪些問題最需要解決的看法。我們預設存在有意義的真正的V,而科學工作的評估者要去“猜測”它。一般來說,能力越強越可能有更好的猜測。
我們可以參照貝葉斯規則來理解我們學到了多少東西,P(Y|X)=P(Y)∙P(X|Y)/P(X),其中P(Y)是結果Y發生的先驗可能性,而P(Y|X)是后驗可能性(當數據中條件X成立時)。P(Y|X)衡量的是X包含Y的推斷強度,我們用R表示。P(X|Y)/P(Y)衡量的是當結果為Y時,觀察到條件X的可能性有多大。我們定義P(X|Y)/P(X)=1+I,所以I=0反映了X在有Y或沒有Y的情況下一樣可能發生,因此對條件X的研究沒有學到任何東西。(這裡我們假設X和Y之間的正向關係正在被檢驗,即I≥0。這並不喪失一般性,因為Y總是可以被重新標記為相反的結果,使負向關係成為正向關係。)
貢獻的質量現在可以表示為Q=V∙(R-R/(1+I)),其中V是能夠預測結果Y的(預測)價值,R是Y對條件X的依賴程度,I則是我們對Y的信念因這項研究而發生的變化。請注意,R和I都對Q有正面影響,而且Q≤V。當沒有學到任何新東西(I=0),或當條件不能預測結果(R=0),或當預測結果不相關(V=0)時,那麼Q=0。請注意,對先前結果的重複可以是一種質量貢獻,因為它可能大大增加對假設的支持,特別是當它是最早的幾個重複之一。
一個有趣的,而且可能是常見的情況是,當一篇論文報告了令人驚訝的結果,有可能改變範式,但結果卻變成了假的。通常來說,在這種情況下,Q可能小於零,因為一個有影響力的錯誤結果可能會造成巨大的損失,不僅是科學家浪費的時間和精力,還要考慮到社會的福祉。例如,不可重複的臨床試驗會給病人和社會帶來間接成本。此外,在虛假髮現的基礎上進行的未來研究不僅可能浪費資源,還可能使科學進步誤入歧途。
當貝葉斯模型出現錯誤時,證據並不能證明結論的正確性。如果假設是錯的,條件和結果之間的關係實際上是負的(I<0),但被錯誤地報告為正。那麼L=R-R/(1+I))<0,這將使貢獻的質量Q為負。
如果我們把科學進步當做一個線性過程,正的Q值意味着新發現對科學進步做出了某種積極貢獻。一個錯誤的發現不僅可能對我們的知識沒有貢獻,而且實際上可能增加混亂和熵,導致科學倒退。然而,編輯可能會誤判了Q而發表這樣的論文。
學術期刊的既定目的是發表能促進知識發展的論文(Q>0)。在這一點上,區分期刊應該如何審稿以促進知識發展(即規範性案例)和期刊在實踐中的實際表現(即描述性案例)是很有意義的。
在規範的情況下(即理想的世界),期刊的預測算法應該試圖識別具有高Q值的論文。這一點很複雜,因為貢獻的真正價值本來就很難評估,並受到主觀見解和偏好的影響。此外,評審員和編輯需要努力確保所作分析的客觀和有效,但他們這樣做並沒有得到獎勵。
我們將用Q'=f(V',R',I')來表示預測的稿件質量,其中素數表示估計數量。評審員和編輯不一定會根據貝葉斯模型來評估Q,而可能會採用主觀的權重。V'在很大程度上是主觀的;R'和I'原則上可以更客觀地確定,但要把它們弄對是很費勁的,所以這個任務主要留給評審員。評審員做出報告m,其準確性取決於努力e∈0,1。一般來說,m(e)=t+ρ∙(1-e),其中t是真實值,是一個圍繞零對稱(如正態)分佈的隨機變量。注意,努力越大,潛在誤差ρ∙(1-e)越小。
在一個典型的過程中,某編輯,i = 1,對投稿進行第一次篩選。如果編輯認為提交的論文通過了某個最低限度的門檻,那麼它就會被送出去進行正式評審,這個門檻會受到編輯對新穎性、可重複性等相對偏好的影響。如果論文被編輯送出進行正式評審,評審員也會對其進行類似的評估,他們同樣對不同的考核角度給予不同的權重。
然後,編輯對評價進行總結,得出對論文的最終決定。如果估計的質量高於期刊門檻,該論文下一步可能被要求修改然後重新走流程,最終被拒絕或發表。
期刊編輯面臨的一些不利因素,往往使他們偏好於創新性,反對重複。爭議性的或其他引人注意的結果會在其他研究人員試圖驗證它時獲得引用。如果通過引用實現聲譽最大化是一個目標,那麼期刊不激勵和獎勵重複性工作就是合理的,儘管它們是科學事業的一個重要組成部分。重複工作的困境是,他們“不有趣”或“不可信”。如果一項重複性研究證實了原來的結果,或者否定了一個最近發表的、尚未廣為人知的結果,那麼它可能不會被視為值得注意的。如果它未能證實一個眾所周知的結果,它將可能面臨質疑。此外,如果只有否定的重複工作才足夠“新穎”,可以在知名期刊上發表,那麼研究人員在嘗試這樣的研究時就會面臨很大的風險(以及偏見),因為重複結果可能是積極的。
這些方面表明,文章的“估計質量”將基於不符合貝葉斯學習框架的權重,並可能反映出編輯和評審員之間的優先級差異,評審員為期刊創造未來引文的動力較弱。最終,評審員的判斷在最終決定中的反映程度可能比表面看來要低,這將進一步降低評審員投入努力工作的積極性。
總結一下上述觀點
- 編輯和評審員不一定會按照一致的加權標準來評價文章,他們的判斷很可能偏離對真實質量的最佳預測。
- 特別是,編輯有動機將創新性看得比可重複性更重,而評審員對科學準確性的驗證可能打折扣。這可能導致出版的文獻中有許多低質量的論文(即使評審員由於內在動機而付出最大努力)。
鑒於為每個期刊評估每篇論文的評審員和編輯人數不多,以及他們可能存在的異質性,出版物的最終質量在不同期刊上會有很高的差異,而每一次向不同期刊投稿都類似於抽獎活動。由於期刊要求他們評估的論文不能同時在不同的期刊上審議,這意味着從首次向期刊投稿到文章真正發表之間會有大量的時間損失。再鑒於許多期刊有不同的格式要求等,這也意味着投稿作者的大量成本。因此,目前策劃和評估科學貢獻的做法是低效的,是對(公共)資源的浪費。
如果過分強調可重複性,那麼文獻就多是真正的發現,但在我們可靠的知識方面卻幾乎沒有進展。
在一個理想的世界里,期刊可以實現所宣稱的目標,即發表儘可能高質量的論文:
- 採用邏輯推導規則,從估計的證據強度和研究工作的新穎性來預測質量。
- 給予評審員外在的激勵,使其努力進行核查並如實報告。
在(a)和(b)都滿足的情況下,如果期刊允許向不同的出版渠道同時提交論文,以及有更多的研究人員參與評估過程,產生科學文獻的進展會更快。
DAOrayaki DAO研究獎金池:
資助地址: DAOrayaki.eth
投票進展:DAO Committee 3/0 通過
賞金總量:130 USDC
References
- Deutsch, D. The Beginning of Infinity: Explanations That Transform the World. (Penguin Books, 2012).
- Goldbeck-Wood, S. Evidence on peer review — scientific quality control or smokescreen? BMJ 318, 44–45 (1999).
- Huisman, J. & Smits, J. Duration and quality of the peer review process: the author’s perspective. Scientometrics 113, 633–650 (2017).
- MacRoberts, M. H. & MacRoberts, B. R. Problems of citation analysis. Scientometrics 36, 435–444 (1996).
- Adam, D. The counting house. Nature 415, 726–729 (2002).
- Amin, M. & Mabe, M. A. Impact factors: use and abuse. Medicina 63, 347–354 (2003).
- Min, C., Bu, Y., Wu, D., Ding, Y. & Zhang, Y. Identifying citation patterns of scientific breakthroughs: A perspective of dynamic citation process. Inf. Process. Manag. 58, 102428 (2021).
- Garfield, E. The history and meaning of the journal impact factor. JAMA vol. 295 90 (2006).
- Aistleitner, M., Kapeller, J. & Steinerberger, S. Citation patterns in economics and beyond. Sci. Context 32, 361–380 (2019).
- Biagioli, M. & Lippman, A. Gaming the Metrics: Misconduct and Manipulation in Academic Research. (MIT Press, 2020).
- Seglen, P. O. Why the impact factor of journals should not be used for evaluating research. BMJ 314, 498–502 (1997).
- Moed, H. F. Citation analysis of scientific journals and journal impact measures. Curr. Sci. 89, 1990–1996 (2005).
- Ioannidis, J. P. A. Why most published research findings are false. PLoS Med. 2, e124 (2005).
- Moonesinghe, R., Khoury, M. J. & A Cecile J. Most published research findings are false — But a little replication goes a long way. PLoS Med. 4, e28 (2007).
- Martin, G. N. & Clarke, R. M. Are psychology journals anti-replication? A snapshot of editorial practices. Front. Psychol. 8, 523 (2017).
- Smaldino, P. E. & McElreath, R. The natural selection of bad science. R Soc Open Sci 3, 160384 (2016).
- Camerer, C. F. et al. Evaluating replicability of laboratory experiments in economics. Science 351, 1433–1436 (2016).
- Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science. Science 349, aac4716 (2015).
- Camerer, C. F. et al. Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nat Hum Behav 2, 637–644 (2018).
- Dreber, A. et al. Using prediction markets to estimate the reproducibility of scientific research. Proc. Natl. Acad. Sci. U. S. A. 112, 15343–15347 (2015).
- Verfaellie, M. & McGwin, J. The case of Diederik Stapel. American Psychological Association https://www.apa.org/science/about/psa/2011/12/diederik-stapel (2011).
- Grieneisen, M. L. & Zhang, M. A comprehensive survey of retracted articles from the scholarly literature. PLoS One 7, e44118 (2012).
- Callaway, E. Report finds massive fraud at Dutch universities. Nature 479, 15 (2011).
- Schweinsberg, M. et al. Same data, different conclusions: Radical dispersion in empirical results when independent analysts operationalize and test the same hypothesis. Organ. Behav. Hum. Decis. Process. 165, 228–249 (2021).
- Baker, M. 1,500 scientists lift the lid on reproducibility. Nature 533, 452–454 (2016).
- Serra-Garcia, M. & Gneezy, U. Nonreplicable publications are cited more than replicable ones. Sci Adv 7, (2021).
- Hardwicke, T. E. et al. Citation patterns following a strongly contradictory replication result: Four case studies from psychology. Adv. Methods Pract. Psychol. Sci. 4, 251524592110408 (2021).
- Hagve, M. The money behind academic publishing. Tidsskr. Nor. Laegeforen. 140, (2020).
- Aczel, B., Szaszi, B. & Holcombe, A. O. A billion-dollar donation: estimating the cost of researchers’ time spent on peer review. Res Integr Peer Rev 6, 14 (2021).
- Adams, W. J. & Yellen, J. L. Commodity bundling and the burden of monopoly. Q. J. Econ. 90, 475–498 (1976).
- Greenlee, P., Reitman, D. & Sibley, D. S. An antitrust analysis of bundled loyalty discounts. Int. J. Ind Organiz 26, 1132–1152 (2008).
- Peitz, M. Bundling may blockade entry. Int. J. Ind Organiz 26, 41–58 (2008).
- Bergstrom, C. T. & Bergstrom, T. C. The costs and benefits of library site licenses to academic journals. Proc. Natl. Acad. Sci. U. S. A. 101, 897–902 (2004).
- Lawson, S., Gray, J. & Mauri, M. Opening the black box of scholarly communication funding: A public data infrastructure for financial flows in academic publishing. Open Library of Humanities 2, (2016).
- Else, H. Nature journals reveal terms of landmark open-access option. Nature 588, 19–20 (2020).
- Laakso, M. & Björk, B.-C. Anatomy of open-access publishing: a study of longitudinal development and internal structure. BMC Med. 10, 124 (2012).
- Solomon, D. J., Laakso, M. & Björk, B.-C. A longitudinal comparison of citation rates and growth among open-access journals. J. Informetr. 7, 642–650 (2013).
- Clark, J. & Smith, R. Firm action needed on predatory journals. BMJ 350, h210 (2015).
- Grudniewicz, A. et al. Predatory journals: no definition, no defence. Nature 576, 210–212 (2019).
- Richtig, G., Berger, M., Lange-Asschenfeldt, B., Aberer, W. & Richtig, E. Problems and challenges of predatory journals. J. Eur. Acad. Dermatol. Venereol. 32, 1441–1449 (2018).
- Demir, S. B. Predatory journals: Who publishes in them and why? J. Informetr. 12, 1296–1311 (2018).
- Brierley, L. Lessons from the influx of preprints during the early COVID-19 pandemic. Lancet Planet Health 5, e115–e117 (2021).
- Singh Chawla, D. Open-access row prompts editorial board of Elsevier journal to resign. Nature (2019) doi:10.1038/d41586–019–00135–8.
- Increasing Politicization and Homogeneity in Scientific Funding: An Analysis of NSF Grants, 1990–2020 — CSPI Center. https://cspicenter.org/reports/increasing-politicization-and-homogeneity-in-scientific-funding-an-analysis-of-nsf-grants-1990-2020/ (2021).
- Bloom, N., Jones, C. I., Van Reenen, J. & Webb, M. Are Ideas Getting Harder to Find? Am. Econ. Rev. 110, 1104–1144 (2020).
- Polikar, R. Ensemble Learning. in Ensemble Machine Learning: Methods and Applications (eds. Zhang, C. & Ma, Y.) 1–34 (Springer US, 2012).
- Sagi, O. & Rokach, L. Ensemble learning: A survey. Wiley Interdiscip. Rev. Data Min. Knowl. Discov. 8, e1249 (2018).
- Begley, C. G. & Ellis, L. M. Raise standards for preclinical cancer research. Nature 483, 531–533 (2012).
本文鏈接:https://www.8btc.com/article/6737466
轉載請註明文章出處