L’investigatore scientifico sulle immagini, Sholto David, scrive un blog sulla manipolazione delle immagini nei documenti di ricerca, un hobby che lo ha esposto a numerosi resoconti di frode scientifica. Ma altri scienziati “rimangono in qualche modo all’oscuro della portata del problema”, dice David. Decise che aveva bisogno di alcuni dati.
Un biologo freelance di Pontypridd, nel Regno Unito, ha trascorso gran parte di diversi mesi esaminando centinaia di articoli in un unico diario, alla ricerca di quelli che contenevano immagini duplicate. Ha poi scansionato gli stessi documenti attraverso uno strumento AI. Lavorando da due a tre volte più velocemente della velocità di David, il programma ha trovato quasi tutti i 63 documenti sospetti identificati, più 41 che non aveva rilevato. David ha descritto l’esercizio il mese scorso in una versione preliminare1uno dei primi confronti pubblicati tra uomo e macchina per la ricerca di immagini manipolate.
Questi risultati arrivano in un momento in cui gli editori accademici si trovano ad affrontare il problema della manipolazione delle immagini negli articoli scientifici. In uno studio del 20162Elizabeth Beck, specialista in immagini forensi con sede a San Francisco, California, e i suoi colleghi hanno riferito che circa il 4% dei documenti scansionati in 40 riviste biomediche contenevano immagini duplicate in modo inappropriato.
Non tutta la manipolazione delle immagini viene eseguita con intenti nefasti. Gli autori possono manipolare le immagini per sbaglio, per ragioni estetiche o per rendere il formato più comprensibile. Ma alle riviste e ad altri piace scattare foto con modifiche che spingono oltre i limiti, qualunque siano le motivazioni degli autori. Ora si rivolgono all’intelligenza artificiale per chiedere aiuto.
Antifrode
Circa 200 università, case editrici e società scientifiche si affidano già a Imagetwin, lo strumento utilizzato da David nei suoi studi. Il software confronta le immagini contenute in un documento di ricerca con oltre 25 milioni di immagini provenienti da altre pubblicazioni, il più grande database di questo tipo nel mondo dell’integrità delle immagini, secondo gli sviluppatori di Imagetwin.
Beck utilizza regolarmente Imagetwin per integrare le proprie capacità, definendolo il suo “strumento standard”, anche se sottolinea che l’intelligenza artificiale ha punti deboli così come punti di forza: ad esempio, può perdere duplicati in immagini a basso contrasto. Lei e David ottengono l’accesso gratuito al software da ImageTwin AI, la società con sede a Vienna che ha sviluppato Imagetwin, e forniscono il loro feedback agli sviluppatori.
Le riviste utilizzano l’intelligenza artificiale per rilevare immagini duplicate nei manoscritti
Alcuni editori si sono rivolti ad altri strumenti di intelligenza artificiale. Riviste, pubblicate dall’American Association for Cancer Research di Philadelphia, Pennsylvania, schermate che utilizzano lo strumento AI Proofig. Frontiers a Losanna, in Svizzera, ha sviluppato un proprio software per verificare gli articoli di ricerca per il suo gruppo di riviste. Un portavoce di Springer Nature, che pubblica naturaL’azienda “continua a esplorare e sviluppare strumenti per l’ispezione delle immagini”, afferma. (naturaIl team delle notizie è editorialmente indipendente dal suo editore.)
Parte del fascino di Imagetwin è che cerca i duplicati in due modi, dicono gli specialisti. Il software crea “qualcosa come un’impronta digitale” per ogni immagine sulla carta, afferma Patrick Stark, uno dei suoi sviluppatori. Quindi esegue la scansione dell’intero foglio di carta cercando una ripetizione di quell’impronta digitale. Inoltre, esegue la scansione del suo ampio database per vedere se quell’impronta digitale appare in documenti precedenti, un processo che richiede solo dai cinque ai dieci secondi.
Lungo sforzo
Per il suo studio, David ha esaminato più di 700 documenti di ricerca contenenti immagini rilevanti pubblicati tra il 2014 e il 2023 in… Rapporti tossicologicirivista che ha scelto in parte perché contiene molte immagini e in parte perché nel 2021, l’editore della rivista, Elsevier di Amsterdam, ha aggiunto, Esprimere preoccupazione Al numero speciale completo della rivista.
Dopo aver esaminato visivamente i fogli, David ha provato l’intelligenza artificiale e ha scoperto che funzionava “molto più velocemente che fissando con molta attenzione le immagini per lungo tempo”, anche se ha mancato quattro fogli che aveva contrassegnato. Infine, sono presenti duplicazioni in circa il 16% dei documenti analizzati che contenevano immagini correlate.
È molto più alto del 4% calcolato da Beck, ma dice che il numero di David non è sorprendente. Nella sua analisi, le singole riviste avevano duplicati tra lo 0,3% e il 12% dei loro articoli, mentre le riviste di maggiore impatto tendevano ad avere meno duplicati.
Le istituzioni scientifiche nominano ispettori dell’integrità per esaminare i loro documenti
È “abbastanza plausibile” che il 16% delle immagini delle riviste possa contenere duplicati, concorda Jana Christopher, analista di integrità delle immagini presso FEBS Press di Heidelberg, in Germania, che ha accesso gratuito a Imagetwin e lo utilizza con altri programmi. Nel suo processo di ricerca sugli articoli prima di pubblicarli, Christopher ne segnala circa un terzo per ulteriori indagini.
David ha pubblicato il suo studio sul server di prestampa bioRxiv il 5 settembre. Non è stato ancora sottoposto a peer review. “Siamo a conoscenza della prestampa e al momento abbiamo avviato un’indagine interna in corso”, afferma un portavoce di Elsevier. Redattore capo della rivista Rapporti tossicologiciLawrence Lash dice di non avere nulla da aggiungere a questa affermazione.
Beck ritiene che Imagetwin sia particolarmente utile per “forme complesse con molti pannelli”. Può eseguire scansioni quasi istantanee di immagini che potrebbero richiedere più di mezz’ora per essere analizzate.
“È davvero bello avere il software come secondo paio di occhi”, concorda Christopher. Ma come Beck, afferma che Imagetwin ha i suoi svantaggi. “Spesso trovo di più [problems] “Questi non sono duplicati, e nemmeno duplicati che il programma non ha specificato”, afferma Christopher.
Parte del processo
L’obiettivo finale, afferma Christopher, è integrare strumenti di intelligenza artificiale, come Imagetwin, nel processo di revisione dei documenti, proprio come molti editori utilizzano abitualmente software per scansionare il testo alla ricerca di plagio. Ma l’intelligenza artificiale da sola non basta. “Devi usare la tua esperienza e mettere in discussione queste cose. Nessuna delle segnalazioni che ricevi è una segnalazione [from Imagetwin] “Questa è una truffa”, dice.
Le università utilizzano Imagetwin per rivedere i documenti che i docenti inviano alle riviste, afferma Stark. Si è rifiutato di fornire numeri dettagliati o di nominare qualcuno degli utenti del programma.
Christopher spera che l’implementazione di più strumenti di intelligenza artificiale democratizzerà la capacità delle riviste di vagliare gli articoli. “Penso che dobbiamo liberarci dell’idea che sia un lusso, che in realtà aggiunga valore alla rivista.”