Recentemente, durante l’analisi di uno smartphone Android, è stato necessario recuperare dei messaggi cancellati appartenenti ad una chat eliminata dall’applicazione di WhatsApp. Fino a poco tempo fa anche effettuando un’analisi tramite software professionali quali Cellebrite UFED, Oxygen Forensic Detective e Magnet Axiom, non era possibile recuperare tale chat poiché eliminata prima del suo inserimento all’interno del classico backup periodico locale del database “msgstore.db” e quindi non visibile con le metodologie standard di recupero dati.
Di recente la funzionalità di recupero delle chat non presenti nei backup periodici è stata aggiunta ai software di mobile forensics, ma riteniamo utile illustrare in dettaglio come era possibile anche prima dell’aggiunta – e lo è tuttora – procedere manualmente con l’ispezione dei file relativi all’applicazione di WhatsApp e recuperare chat cancellate.
Nello specifico, illustreremo come recuperare una porzione della chat – non presenti nel DB o nei backup tradizionali – grazie all’analisi di un altro file di backup, incrementale e non completo: il “msgstore-increment.db“.
Cos’è il msgstore-increment.db e a cosa serve?
L’applicazione di WhatsApp, quando installata su dispositivi Android, effettua dei backup periodici del database principale “msgstore.db”, contenente tutte le informazioni correlate all’account di WhatsApp, inclusi i messaggi.
Purtroppo, la creazione dei backup e la loro gestione, in alcuni casi, può risultare difficoltosa da parte dell’applicazione soprattutto in situazione in cui i dati gestiti risultano essere centinaia di MB se non GB. Per questo motivo, per minimizzare la perdita dei dati e ottimizzare la gestione della memoria sul dispositivo, WhatsApp esegue dei backup incrementali, tra ogni backup completo, dentro i quali vengono salvati solo i cambiamenti avvenuti nell’applicazione: ad esempio, se il giorno successivo al backup completo vengono inviati cento messaggi, essi vengono inclusi all’interno del backup incrementale eseguito per quel giorno.
Questo significa che, se in seguito alla creazione del backup completo vengono inviati cento messaggi e poi cancellati, essi possono essere recuperati dal backup incrementale, ammesso che non siano stati eliminati prima della sua creazione.
A oggi, software professionali come Cellebrite UFED o Oxygen Forensics supportano il parsing del backup incrementale msgstore-increment, ma fino a pochi mesi fa era una funzionalità probabilmente ancora in lavorazione, dato che è comparsa di recente. Di conseguenza, per tentare il recupero dei messaggi eliminati, in passato, è stato necessario comprendere le logiche alla base di questo tipo di dato e creare uno script in grado di automatizzare l’estrazione di eventuali messaggi cancellati, ma ancora presenti nell’increment, mentre oggi chi ha a disposizione software professionali può eseguire il recupero direttamente tramite le funzionalità interne.
Come funziona e come si estraggono i dati dall’archivio msgstore-increment.db?
Il primo passo è stato quello di approfondire il funzionamento del backup incrementale, avendo prima replicato uno scenario in cui questa funzionalità ha generato degli increment. Tramite l’analisi dei dati generati dall’applicazione WhatsApp, sono stati individuati e analizzati diversi file denominati “msgstore-increment.db.crypt14”, ovvero archivi compressi e cifrati. Tali archivi sono stati decifrati attraverso l’utilizzo dello strumento “wa-crypt-tools” (https://github.com/ElDavoo/wa-crypt-tools) e, successivamente, decompressi, ottenendo file strutturati in formato JSON e un file binario denominato “messages.bin”.
Contenuto dell’archivio msgstore-increment.db.crypt14, backup incrementale
Tra i file in JSON ne è presente uno chiamato “header.json” dentro il quale sono contenute informazioni utili, relative agli altri file presenti nella cartella, compreso “messages.bin”. Inoltre, dall’analisi effettuata sul file binario, è stato possibile determinare il formato utilizzato per la codifica dei dati, ovvero il protocollo protobuf.
Protobuf è un formato di serializzazione dati sviluppato da Google e viene spesso utilizzato nella trasmissione delle informazioni tra applicazioni o per la memorizzazione di dati in un formato binario poiché risulta essere più leggero e performante rispetto a JSON o XML.
Il funzionamento è relativamente semplice, è necessario definire la struttura dei dati tramite la creazione di un file “.proto” e utilizzare un compilatore per la creazione di uno script in grado di codificare i dati basandosi, appunto, sul protocollo definito. Di seguito un esempio di definizione del protocollo:
Esempio di definizione per protobuf
In questo caso, uno script basato su tale definizione sarà in grado di creare un file binario contenente i dati “nome” ed “eta” riportati nel file protobuf.
Nell’applicazione di WhatsApp avviene la stessa cosa: il file binario “messages.bin” viene creato da una porzione di codice contenuta nell’applicazione ed è basato su un file “proto” dentro la quale è definita la struttura dei messaggi e delle conversazioni.
Inoltre, il file binario “messages.bin” viene strutturato con una o più porzioni del dato binario codificato con protobuf, tali porzioni vengono definiti anche segmenti o “length-delimited” (https://protobuf.dev/programming-guides/encoding/#length-types). Pertanto, per leggere il contenuto del file è prima necessario separare i vari segmenti e successivamente procedere con la lettura.
Rappresentazione dei segmenti contenuti nel file messages.bin
Per la separazione di ogni singolo segmento presente nel file “messages.bin” abbiamo creato uno script in python, che mettiamo a disposizione sulla nostra repository GitHub (https://github.com/Forenser-lab/wa-increment-decoder/blob/main/splitter.py), in grado di leggere il file “messages.bin” e creare diversi file binari ognuno contenente il dato (segmento) protobuf da leggere.
Successivamente, per la lettura di ogni singolo file, abbiamo utilizzato il tool “protobuf inspector” (https://github.com/mildsunrise/protobuf-inspector), uno script in grado di leggere un file binario codificato con protobuf:
Output del tool protobuf_inspector
Nonostante sia stato possibile estrapolare i vari messaggi contenuti nei segmenti, essi sono risultati un’aggregazione di dati “anonimi”. Sebbene alcuni dei dati ottenuti dall’estrazione della chat contengano campi con un significato intuitivo, come il testo del messaggio o il timestamp, altri sono risultati ignoti rendendo di conseguenza difficoltoso stabilirne il significato reale. Questo accade poiché noi non siamo in possesso della definizione del protocollo “proto” utilizzato da Meta e in grado di leggere correttamente i dati contenuti nel file binario.
Ciononostante, in rete, sono presenti diversi progetti di reverse engineering aventi oggetto la definizione del protocollo impiegato su WhatsApp, incluso quello del repository GitHub Wa-Proto (https://github.com/wppconnect-team/wa-proto) effettuato sulla versione web del software. Successivamente, provando ad adattare la loro definizione per il nostro scopo, siamo riusciti a decodificare correttamente l’intero contenuto del file binario “messages.bin” ottenendo tutti i dati in chiaro con il loro relativo significato.
A questo punto, è stato semplice creare uno script in grado di generare un file CSV contenente tutti i messaggi presenti nel file binario, indicando il caso in cui un messaggio risultasse essere stato eliminato. Si noti che sono stati effettuati alcuni test che hanno considerato anche i media (immagini, video, etc.) e in alcuni casi nella cartella decifrata e decompressa relativa all’increment è presente il folder “messages.bin” contenente miniature di immagini eliminate (successivi aggiornamenti saranno orientati a verificare in che misura è possibile recupera media o tracce di essi).
Proof of Concept di decifratura e analisi del msgstore-increment.db
Innanzitutto, è stato riprodotto lo scenario: abbiamo inizializzato una nuova chat, utilizzandola per qualche giorno per poi infine eliminarla, evitando che fosse memorizzata nel backup “msgstore.db”. Grazie a questa riproduzione, sebbene i messaggi della chat non siano stati inclusi nel backup settimanale, sono comunque stati inseriti nel backup incrementale giornaliero.
Nell’immagine seguente viene riportata un’illustrazione dello scenario riprodotto. Nello specifico è possibile vedere come il backup principale venga creato alle ore 02:00 AM del 10/01, successivamente alle ore 01:35 PM dello stesso giorno viene creata una conversazione con ID 123 che sarà inclusa nel backup incrementale alle ore 02:00 AM del 11/01. Infine, alle ore 04:00 PM del giorno 11/01 la chat con ID 123, viene eliminata (ma risulta ancora presente nel backup incrementale creato precedentemente):
Timeline dello scenario di riferimento
Successivamente, sono stati estratti i backup incrementali dal dispositivo Android, solitamente contenuti nella directory “/data/media/0/Android/media/com.whatsapp/WhatsApp/Databases/” e opportunamente decriptati tramite l’apposita chiave di cifratura, ottenendo così i seguenti file:
- msgstore-increment-1-2025-01-16.1.db;
- msgstore-increment-2-2025-01-16.1.db;
- msgstore-increment-3-2025-01-16.1.db;
- msgstore-increment-4-2025-01-16.1.db.
I vari backup sono stati inseriti tutti all’interno della stessa cartella e in seguito è stato eseguito lo script da noi creato per il recupero dei messaggi, il quale ha generato un file CSV contenente la lista di tutti i messaggi estratti:
Generazione del file CSV contenente i messaggi recuperati
Conclusioni
Grazie ad un approfondimento sulla gestione dei backup nell’applicazione di WhatsApp per dispositivi Android, siamo riusciti a comprendere come essi vengono strutturati tramite il concetto di backup incrementali. L’analisi ci ha portato alla creazione di un piccolo tool, scritto in python, in grado di estrarre in modo strutturato i messaggi dal backup incrementale “msgstore-increment.db” in modo efficiente, con dettagli di rilievo come il timestamp e senza bisogno di utilizzare altri strumenti.
La funzionalità dei backup incrementali permette il recupero di messaggi eliminati tra la creazione di un backup integrale, locale, “msgstore.db.crypt14” e un altro, quindi non recuperabili tramte le tradizionali tecniche di analisi forense e undelete dal DB sqlite o dai backup.
Per chi volesse sperimentare o provare l’estrazione di questi messaggi, lasciamo qui di seguito il link dello script scaricabile dalla nostra repository GitHub (https://github.com/Forenser-lab/wa-increment-decoder).