Errori fattuali e metodologici, lavori incompleti, sostituzioni con altre pubblicazioni e persino questioni di plagio o violazioni delle politiche di sottomissione: sono questi i principali motivi per cui informatici, biologi quantistici e altri ricercatori ritirano i loro manoscritti dalla piattaforma arXiv, il celebre repository di preprint.
A queste conclusioni sono arrivati Delip Rao (University of Pennsylvania), Jonathan Young (arXiv.org), Thomas Dietterich (Oregon State University) e Chris Callison-Burch (University of Pennsylvania), sviluppatori di WithdrarXIV, il primo dataset su larga scala dedicato ai preprint ritirati, per analizzare le motivazioni delle ritrattazioni e migliorare i processi di verifica nella comunità scientifica. Uno studio sistematico degli oltre 14mila ritiri registrati dal 1991 fino a settembre 2024, citato recentemente da Nature, che può aiutare i ricercatori che consultano arXiv ad identificare ed evitare di citare tali lavori.
L’importanza della trasparenza nei server di preprint
Perché, dicono gli sviluppatori del dataset, quando il manoscritto di un articolo scientifico viene ritirato, dovrebbe essere chiaramente segnalato nei database e nelle piattaforme dove i ricercatori condividono e consultano versioni preliminari dei lavori scientifici, prima che questi vengano sottoposti a peer review e pubblicati su riviste accademiche. Invece per una parte significativa di questi ritiri le informazioni relative alla ritrattazione non sono facilmente accessibili o standardizzate. Il rischio, sottolineano, è che i ricercatori possano inconsapevolmente continuare a citare lavori non più validi, perpetuando potenziali errori o dati non affidabili nella comunità scientifica.
La crescita di arXiv
Il funzionamento dei server di preprint prevede che gli autori carichino i loro manoscritti, e una volta pubblicati, sono accessibili al pubblico, permettendo ad altri ricercatori di leggerli e fornire commenti o suggerimenti. Gli autori possono aggiornare i loro preprint con versioni riviste in base al feedback ricevuto. Come spiegano gli sviluppatori del dataset, «queste comunità in rapida evoluzione si affidano sempre di più a server di preprint come arXiv.org per diffondere rapidamente la ricerca». Su questa piattaforma gira un numero considerevole di manoscritti: dalla sua nascita nel 1991 – affermano – arXiv è cresciuto esponenzialmente: a ottobre 2023, arXiv aveva facilitato oltre 3 miliardi di download totali, con più di 5 milioni di utenti attivi mensili. La crescita del repository non mostra segni di rallentamento, con oltre 2,2 milioni di sottomissioni totali entro la fine del 2022, e questo numero è aumentato a circa 2,6 milioni entro novembre 2024.
Una tassonomia delle ragioni di ritrattazione
Delip Rao e dai suoi colleghi hanno sviluppato una tassonomia delle ragioni di ritrattazione analizzando i commenti degli autori, identificando dieci categorie distinte che forniscono preziose intuizioni sui motivi per cui i ricercatori ritirano il loro lavoro, individuando pattern ricorrenti.
Oltre 6mila preprint sono stati ritirati a causa di errori significativi nei risultati, nei processi di ricerca o nelle analisi, rappresentando la motivazione principale di ritiro. Un altro motivo rilevante riguarda i lavori incompleti o in corso di sviluppo: circa 3.100 preprint sono stati ritirati perché non ancora pronti o necessitavano di ulteriori perfezionamenti. Sebbene in misura minore, alcuni preprint sono stati ritirati per errori di battitura che alteravano il significato di dati o informazioni critiche, mentre un numero limitato di autori ha deciso di ritirare i propri lavori dopo aver riconosciuto che non offrivano novità rispetto a ricerche già pubblicate.
In alcuni casi, i ritiri sono stati determinati da questioni amministrative o legali, come controversie sulla paternità o violazioni del copyright. Inoltre, 134 preprint sono stati ritirati perché non rispettavano le linee guida di sottomissione o gli standard etici di arXiv. Un numero significativo, circa 2.800, è stato ritirato poiché incorporato in altre pubblicazioni, un’operazione che spesso mira a evitare accuse di autoplagio o di salami-slicing. Per quanto riguarda il plagio, sono stati registrati 136 casi di ritiri dovuti alla copia di parti significative di lavori di altri senza una corretta attribuzione.
Alcuni autori hanno ritirato i propri lavori per ragioni personali, non legate direttamente alla qualità o al contenuto del manoscritto. Infine, una parte dei preprint è stata ritirata senza che venisse fornita una spiegazione chiara, né da parte degli autori né dagli amministratori di arXiv.
Implicazioni e potenziale utilizzo di WITHDRARXIV
Come hanno sottolineato gli sviluppatori di WITHDRARXIV, conoscere le ragioni dei ritiri può aiutare le comunità scientifiche e le piattaforme di preprint a rafforzare le linee guida per gli autori e a implementare misure preventive, riducendo la probabilità di sottomissioni problematiche. Gli autori intendono stimolare anche lo sviluppo di strumenti basati sull’intelligenza artificiale in grado di identificare potenziali errori o violazioni prima della sottomissione, supportando gli autori nel migliorare la qualità dei loro manoscritti. La trasparenza riguardo ai motivi dei ritiri contribuisce a mantenere elevati standard etici e metodologici nella ricerca, rafforzando la fiducia nella comunità scientifica.