Recupero di messaggi WhatsApp eliminati tramite Msgstore Increment

Recentemente, durante l’analisi di uno smartphone Android, è stato necessario recuperare dei messaggi cancellati appartenenti ad una chat eliminata dall’applicazione di WhatsApp. Fino a poco tempo fa anche effettuando un’analisi tramite software professionali quali Cellebrite UFED, Oxygen Forensic Detective e Magnet Axiom, non era possibile recuperare tale chat poiché eliminata prima del suo inserimento all’interno del classico backup periodico locale del database “msgstore.db” e quindi non visibile con le metodologie standard di recupero dati.

Di recente la funzionalità di recupero delle chat non presenti nei backup periodici è stata aggiunta ai software di mobile forensics, ma riteniamo utile illustrare in dettaglio come era possibile anche prima dell’aggiunta – e lo è tuttora – procedere manualmente con l’ispezione dei file relativi all’applicazione di WhatsApp e recuperare chat cancellate.

Nello specifico, illustreremo come recuperare una porzione della chat – non presenti nel DB o nei backup tradizionali – grazie all’analisi di un altro file di backup, incrementale e non completo: il “msgstore-increment.db“.

Cos’è il msgstore-increment.db e a cosa serve?

L’applicazione di WhatsApp, quando installata su dispositivi Android, effettua dei backup periodici del database principale “msgstore.db”, contenente tutte le informazioni correlate all’account di WhatsApp, inclusi i messaggi.

Purtroppo, la creazione dei backup e la loro gestione, in alcuni casi, può risultare difficoltosa da parte dell’applicazione soprattutto in situazione in cui i dati gestiti risultano essere centinaia di MB se non GB. Per questo motivo, per minimizzare la perdita dei dati e ottimizzare la gestione della memoria sul dispositivo, WhatsApp esegue dei backup incrementali, tra ogni backup completo, dentro i quali vengono salvati solo i cambiamenti avvenuti nell’applicazione: ad esempio, se il giorno successivo al backup completo vengono inviati cento messaggi, essi vengono inclusi all’interno del backup incrementale eseguito per quel giorno.

Questo significa che, se in seguito alla creazione del backup completo vengono inviati cento messaggi e poi cancellati, essi possono essere recuperati dal backup incrementale, ammesso che non siano stati eliminati prima della sua creazione.

A oggi, software professionali come Cellebrite UFED o Oxygen Forensics supportano il parsing del backup incrementale msgstore-increment, ma fino a pochi mesi fa era una funzionalità probabilmente ancora in lavorazione, dato che è comparsa di recente. Di conseguenza, per tentare il recupero dei messaggi eliminati, in passato, è stato necessario comprendere le logiche alla base di questo tipo di dato e creare uno script in grado di automatizzare l’estrazione di eventuali messaggi cancellati, ma ancora presenti nell’increment, mentre oggi chi ha a disposizione software professionali può eseguire il recupero direttamente tramite le funzionalità interne.

Come funziona e come si estraggono i dati dall’archivio msgstore-increment.db?

Il primo passo è stato quello di approfondire il funzionamento del backup incrementale, avendo prima replicato uno scenario in cui questa funzionalità ha generato degli increment. Tramite l’analisi dei dati generati dall’applicazione WhatsApp, sono stati individuati e analizzati diversi file denominati “msgstore-increment.db.crypt14”, ovvero archivi compressi e cifrati. Tali archivi sono stati decifrati attraverso l’utilizzo dello strumento “wa-crypt-tools” (https://github.com/ElDavoo/wa-crypt-tools) e, successivamente, decompressi, ottenendo file strutturati in formato JSON e un file binario denominato “messages.bin”.

archivio-decifrato-increment

Contenuto dell’archivio msgstore-increment.db.crypt14, backup incrementale

Tra i file in JSON ne è presente uno chiamato “header.json” dentro il quale sono contenute informazioni utili, relative agli altri file presenti nella cartella, compreso “messages.bin”. Inoltre, dall’analisi effettuata sul file binario, è stato possibile determinare il formato utilizzato per la codifica dei dati, ovvero il protocollo protobuf.

Protobuf è un formato di serializzazione dati sviluppato da Google e viene spesso utilizzato nella trasmissione delle informazioni tra applicazioni o per la memorizzazione di dati in un formato binario poiché risulta essere più leggero e performante rispetto a JSON o XML.

Il funzionamento è relativamente semplice, è necessario definire la struttura dei dati tramite la creazione di un file “.proto” e utilizzare un compilatore per la creazione di uno script in grado di codificare i dati basandosi, appunto, sul protocollo definito. Di seguito un esempio di definizione del protocollo:

Esempio di definizione per protobuf

Esempio di definizione per protobuf

In questo caso, uno script basato su tale definizione sarà in grado di creare un file binario contenente i dati “nome” ed “eta” riportati nel file protobuf.

Nell’applicazione di WhatsApp avviene la stessa cosa: il file binario “messages.bin” viene creato da una porzione di codice contenuta nell’applicazione ed è basato su un file “proto” dentro la quale è definita la struttura dei messaggi e delle conversazioni.

Inoltre, il file binario “messages.bin” viene strutturato con una o più porzioni del dato binario codificato con protobuf, tali porzioni vengono definiti anche segmenti o “length-delimited” (https://protobuf.dev/programming-guides/encoding/#length-types). Pertanto, per leggere il contenuto del file è prima necessario separare i vari segmenti e successivamente procedere con la lettura.

Rappresentazione dei segmenti contenuti nel file messages.bin

Rappresentazione dei segmenti contenuti nel file messages.bin

Per la separazione di ogni singolo segmento presente nel file “messages.bin” abbiamo creato uno script in python, che mettiamo a disposizione sulla nostra repository GitHub (https://github.com/Forenser-lab/wa-increment-decoder/blob/main/splitter.py), in grado di leggere il file “messages.bin” e creare diversi file binari ognuno contenente il dato (segmento) protobuf da leggere.

Successivamente, per la lettura di ogni singolo file, abbiamo utilizzato il tool “protobuf inspector” (https://github.com/mildsunrise/protobuf-inspector), uno script in grado di leggere un file binario codificato con protobuf:

Output del tool protobuf_inspector

Output del tool protobuf_inspector

Nonostante sia stato possibile estrapolare i vari messaggi contenuti nei segmenti, essi sono risultati un’aggregazione di dati “anonimi”. Sebbene alcuni dei dati ottenuti dall’estrazione della chat contengano campi con un significato intuitivo, come il testo del messaggio o il timestamp, altri sono risultati ignoti rendendo di conseguenza difficoltoso stabilirne il significato reale. Questo accade poiché noi non siamo in possesso della definizione del protocollo “proto” utilizzato da Meta e in grado di leggere correttamente i dati contenuti nel file binario.

Ciononostante, in rete, sono presenti diversi progetti di reverse engineering aventi oggetto la definizione del protocollo impiegato su WhatsApp, incluso quello del repository GitHub Wa-Proto (https://github.com/wppconnect-team/wa-proto) effettuato sulla versione web del software. Successivamente, provando ad adattare la loro definizione per il nostro scopo, siamo riusciti a decodificare correttamente l’intero contenuto del file binario “messages.bin” ottenendo tutti i dati in chiaro con il loro relativo significato.

A questo punto, è stato semplice creare uno script in grado di generare un file CSV contenente tutti i messaggi presenti nel file binario, indicando il caso in cui un messaggio risultasse essere stato eliminato. Si noti che sono stati effettuati alcuni test che hanno considerato anche i media (immagini, video, etc.) e in alcuni casi nella cartella decifrata e decompressa relativa all’increment è presente il folder “messages.bin” contenente miniature di immagini eliminate (successivi aggiornamenti saranno orientati a verificare in che misura è possibile recupera media o tracce di essi).

Proof of Concept di decifratura e analisi del msgstore-increment.db

Innanzitutto, è stato riprodotto lo scenario: abbiamo inizializzato una nuova chat, utilizzandola per qualche giorno per poi infine eliminarla, evitando che fosse memorizzata nel backup “msgstore.db”. Grazie a questa riproduzione, sebbene i messaggi della chat non siano stati inclusi nel backup settimanale, sono comunque stati inseriti nel backup incrementale giornaliero.

Nell’immagine seguente viene riportata un’illustrazione dello scenario riprodotto. Nello specifico è possibile vedere come il backup principale venga creato alle ore 02:00 AM del 10/01, successivamente alle ore 01:35 PM dello stesso giorno viene creata una conversazione con ID 123 che sarà inclusa nel backup incrementale alle ore 02:00 AM del 11/01. Infine, alle ore 04:00 PM del giorno 11/01 la chat con ID 123, viene eliminata (ma risulta ancora presente nel backup incrementale creato precedentemente):

Timeline dello scenario di riferimento

Timeline dello scenario di riferimento

Successivamente, sono stati estratti i backup incrementali dal dispositivo Android, solitamente contenuti nella directory “/data/media/0/Android/media/com.whatsapp/WhatsApp/Databases/” e opportunamente decriptati tramite l’apposita chiave di cifratura, ottenendo così i seguenti file:

  • msgstore-increment-1-2025-01-16.1.db;
  • msgstore-increment-2-2025-01-16.1.db;
  • msgstore-increment-3-2025-01-16.1.db;
  • msgstore-increment-4-2025-01-16.1.db.

I vari backup sono stati inseriti tutti all’interno della stessa cartella e in seguito è stato eseguito lo script da noi creato per il recupero dei messaggi, il quale ha generato un file CSV contenente la lista di tutti i messaggi estratti:

Generazione del file CSV contenente i messaggi recuperati

Generazione del file CSV contenente i messaggi recuperati

Conclusioni

Grazie ad un approfondimento sulla gestione dei backup nell’applicazione di WhatsApp per dispositivi Android, siamo riusciti a comprendere come essi vengono strutturati tramite il concetto di backup incrementali. L’analisi ci ha portato alla creazione di un piccolo tool, scritto in python, in grado di estrarre in modo strutturato i messaggi dal backup incrementalemsgstore-increment.db” in modo efficiente, con dettagli di rilievo come il timestamp e senza bisogno di utilizzare altri strumenti.

La funzionalità dei backup incrementali permette il recupero di messaggi eliminati tra la creazione di un backup integrale, locale, “msgstore.db.crypt14” e un altro, quindi non recuperabili tramte le tradizionali tecniche di analisi forense e undelete dal DB sqlite o dai backup.

Per chi volesse sperimentare o provare l’estrazione di questi messaggi, lasciamo qui di seguito il link dello script scaricabile dalla nostra repository GitHub (https://github.com/Forenser-lab/wa-increment-decoder).

Acquisizione forense e decrittazione del backup WhatsApp “crypt.15” su Android in modo sicuro e gratuito

Oggigiorno l’acquisizione forense dei dati utente dell’applicazione WhatsApp durante le attività di perizia informatica si pone come una delle principali necessità nell’ambito della cristallizzazione di evidenze digitali ed è sempre più importante per il Digital Forensics Expert avere a disposizione più alternative quando si parla di tecniche di acquisizione del dato.

Ci sono ad esempio situazioni nelle quali non si può procedere con una copia forense integrale dello smartphone, per questioni di tempo o di spazio, oppure il Sistema Operativo non permette un’acquisizione FFS (Full File System) o Physical tale da poter accedere al database whatsapp decifrato, o ancora non si vuole correre il rischio di un APK downgrade che potrebbe non sempre funzionare a dovere o magari non si ha tempo/banda sufficiente per fare sincronizzazione con cloud Google Drive o iCloud per caricare online il backup per poi scaricarlo da remoto e richiedere a Whatsapp l’SMS o token di autenticazione.

Ancora più appetibili in informatica forense sono le soluzioni gratis ed open source, così come quelle che richiedono pochi e semplici passaggi, utilizzando al più qualche riga di codice. Un’interessante ricerca portata avanti dal team Forenser ha analizzato attentamente un metodo che pochi tra i principali strumenti di acquisizione dell’informatica forense commerciali impiegano, riuscendo a identificare e testare un metodo per produrre un’acquisizione forense dei dati utente di WhatsApp che si può potenzialmente eseguire anche da remoto, in forma cifrata e con la successiva decrittazione in un processo rapido, ripetibile e gratuito.

Questa guida vi condurrà attraverso gli aspetti teorici e di comparazione con altri metodi simili utilizzati sul mercato, mostrandovi i vantaggi e gli svantaggi di quello che verrà descritto indicando la strumentazione necessaria, lo svolgimento di dettaglio e infine fornendovi il codice per decifrare le chat Whatsapp acquisite.

Read More

Convegno ONIF Amelia 2022

Venerdì 11 novembre 2022 si è tenuto l’evento “Il futuro dell’informatica forense torna ad Amelia”, organizzato dall’Osservatorio Nazionale per l’Informatica Forense (ONIF) e giunto ormai alla sua sesta edizione.

Il convegno sul futuro dell’informatica forense si è svolto nella consueta e suggestiva cornice del Chiostro Boccarini (fu realizzato in forme rinascimentali nel XVI secolo) con due aree contemporanee, la prima nella Sala Boccarini e la seconda nella Sala Palladini, con entrata unica da Piazza Vera, ad Amelia (TR).

La giornata ha visto interventi su argomenti legati all’informatica forense e informatica giuridica da parte di operatori delle Forze dell’Ordine oltre a personalità istituzionali, giuristi e consulenti tecnici dell’Associazione ONIF.

ONIF ad Amelia 2022

Il programma della giornata è stato il seguente:

Prof. Ing. Paolo Reale: Saluti Istituzionali

Dott. Pier Luca Toselli – Luogotenente c.s.: Sinergie, criticità e futuro, tra polizia giudiziaria, ausiliari di p.g., c.t.u e c.t.p; nelle indagini digitali.

Ing. Marco Calamari: Una pistola fumante nel processo civile telematico

Dott. Fabio Zito: Android reverse-engineering (find a trojan information in a closed source apps)

Dott. Luca Cadonici: Differenze e possibilità nell’acquisizione di dispositivi ios: il modello di sicurezza apple e le sue implicazioni forensi.

Prof. Ing. Ugo Lopez: Enterprise cloud forensics, security & compliance

Dott. Giorgio Sonego – B.U. manager per il cybercrime e digital forensic: Introduzione agli sponsor

Dott. Paolo Rossi – Account Director Government – Southern Europe: Nuix: una finestra su tutte le evidenze

Bradley Taylor – Sales Manager – Global Key Account Management: Maltego and transforming your investigations with the power of OSINT

Luigi Portaluri – Director – South Europe in Grayshift: Ottieni le tue prove in minuti. non ore, mesi o anni!

Tanya Pankova – Product Marketing Director at Oxygen Forensics: Overcoming device security with oxygen forensic detective

Avv. Paolo Pirani: La “digital forensics” nel processo

Avv. Guido Villa – Tecoms Srl: Mercure: l’evoluzione nell’analisi dei tabulati telefonici

Prof. Avv. Francesco Paolo Micozzi: Sequestro, perquisizione, restituzione dei dati e impugnazioni: recenti approdi giurisprudenzial

Davide Gabrini (Rebus) – Ispettore PS: La ripetibilità dell’accertamento informatico forense

Dott. Nanni BassettiGiustizia predittiva ed il problema del bias nell’AI

Dott. Valerio De Gioia – Giudice Penale: Il Giudice robot

Prof.ssa Avv. Stefania Stefanelli: Il nuovo corso di laurea “law and technology” dell’università degli studi di perugia