Un approccio basato su grafici per la visualizzazione e l'analisi dei pangenomi batterici |BMC Bioinformatica |Testo intero

2022-10-22 20:09:51 By : Ms. Fandy Lee

BMC Bioinformatics volume 23, Numero articolo: 416 (2022 ) Cita questo articoloL'avvento del sequenziamento del DNA a basso costo e ad alto rendimento ha portato alla disponibilità di migliaia di sequenze genomiche complete per un'ampia varietà di specie batteriche.L'esame e l'interpretazione della variazione genetica su questa scala rappresenta una sfida significativa per i metodi esistenti di analisi e visualizzazione dei dati.Partendo dall'output degli strumenti standard di analisi del pangenoma, descriviamo la generazione e l'analisi di grafici di rete 3D interattivi per esplorare la struttura delle popolazioni batteriche, la distribuzione dei geni in una popolazione e l'ordine sintenico in cui tali geni si verificano, nel nuova piattaforma di analisi di rete open source, Graphia.Sia l'analisi che la visualizzazione sono scalabili per set di dati di migliaia di sequenze genomiche.Prevediamo che gli approcci qui presentati saranno di grande utilità per la comunità di ricerca microbica, consentendo un'interazione più rapida, più intuitiva e flessibile con i set di dati del pangenoma, migliorando così l'interpretazione di questi dati complessi.I primi studi genomici comparativi sui batteri hanno rivelato l'ampia variabilità genetica tra diversi isolati della stessa specie [1, 2].Man mano che venivano sequenziati più genomi e diventava evidente la reale portata della variazione genetica, il termine "pangenoma" è stato coniato per denotare l'intero repertorio genetico di un gruppo di isolati, tipicamente definito a livello di specie [3].I geni che si trovano in tutti, o quasi, gli isolati sono considerati geni 'core', mentre quelli che si trovano in alcuni isolati ma assenti in altri sono detti geni 'accessori'.A seconda della specie, più dell'80% dei geni presenti nel pangenoma della specie può essere considerato accessorio [4].I geni accessori spesso conferiscono tratti adattivi, inclusi adattamento ospite/nicchia, virulenza e resistenza agli antimicrobici [5, 6].I principali fattori determinanti della diversità del genoma accessorio sono il trasferimento genico orizzontale mediato da elementi genetici mobili, inclusi fagi, isole di patogenicità e plasmidi, insieme a ricombinazione, duplicazione genica e perdita di geni [7,8,9,10,11,12].Di conseguenza, la distribuzione dei geni accessori in una popolazione può essere complessa e difficile da svelare.Le domande chiave rimangono senza risposta, come il motivo per cui alcune specie hanno pangenomi più diversi ("aperti") rispetto ad altre, quali sono i fattori determinanti a livello di popolazione per le diverse frequenze geniche e come quantificare l'importanza relativa dei geni accessori [4, 13,14 ,15].Sono stati sviluppati molteplici strumenti computazionali per identificare l'intero complemento di geni da un dato insieme di sequenze dell'intero genoma, tra cui Roary [16], PIRATE [17], Panaroo [18] e PpanGGOLiN [19].In tutti i casi, gli output primari costituiscono un allineamento della sequenza del genoma centrale per analisi filogenetiche, una grande matrice di presenza/assenza per ciascun gene accessorio e statistiche e grafici riassuntivi.La ricostruzione di un pangenoma è un'attività ad alta intensità di calcolo quando il numero di sequenze di input è elevato e strumenti recenti si adattano all'analisi di migliaia di genomi.Questi strumenti producono anche un file di output grafico (rete) delle connessioni sinteniche tra i geni attraverso il pangenoma.Sebbene potenzialmente utili, i grafici risultanti sono spesso molto grandi e topologicamente complessi, e rappresentano una sfida per gli strumenti di visualizzazione dei grafici esistenti.Visualizzazioni efficaci consentono a un utente di esplorare rapidamente un set di dati senza ipotesi.Inoltre, le visualizzazioni interattive forniscono un coinvolgimento in tempo reale con i dati, un feedback chiaro sugli effetti delle soglie applicate e consentono agli utenti di sfruttare la propria intuizione e conoscenza per le indagini.Qui, discutiamo l'applicazione della nuova piattaforma di analisi grafica 3D Graphia [20] all'analisi del pangenoma batterico, in particolare come strategia di visualizzazione per consentire l'interpretazione di molteplici aspetti dei set di dati del pangenoma batterico in modo rapido, su larga scala e su hardware desktop comune.Forniamo anche script, raccolti nel repository GraPPLE (Graphical Processing for Pangenome-Linked Exploration), per aiutare la conversione di output standard da strumenti pangenomi in formati appropriati per l'uso in Graphia.Il nostro approccio si articola intorno alle seguenti domande:Sulla base del genoma accessorio, quanto sono simili tra loro un insieme di isolati?Quanto sono fortemente associati i raggruppamenti osservati con la filogenesi del genoma centrale o altre classificazioni rilevanti, come la posizione geografica, l'habitat, la presentazione clinica o la data di campionamento?In che modo i geni accessori sono correlati in base alla loro presenza/assenza in una raccolta di isolati?Esistono associazioni significative tra i cluster genici che si verificano insieme e le caratteristiche dell'isolato, ad esempio i cluster di popolazione come definiti in (1), i raggruppamenti filogenetici principali o altri attributi noti?Quali relazioni strutturali e sinteniche ci sono tra i geni principali e quelli accessori nel contesto dell'intero pangenoma?È possibile dedurre informazioni utili, come la funzione, dalla posizione di un gene?Tali relazioni possono informarci sulle forze che modellano l'evoluzione del genoma, inclusa la natura degli elementi genetici mobili e le funzioni associate come la virulenza o la resistenza antimicrobica?Dall'output di uno strumento pangenoma standard, sono necessari solo pochi minuti per eseguire gli script GraPPLE e generare i tre file di rete descritti.Il caricamento e il filtraggio all'interno di Graphia sono altrettanto rapidi.Un riassunto schematico è fornito in Fig. 1. Questo approccio è dimostrato di seguito attraverso casi di studio di due principali specie batteriche patogene: lo Staphylococcus aureus altamente clonale [21] e la Legionella pneumophila altamente ricombinante [22].Sono stati utilizzati 778 genomi di S. aureus da uno studio precedente [23] e 379 genomi di L. pneumophila dal database NCBI.Tutti i file di rete sono disponibili nel File aggiuntivo 3.Panoramica del flusso di lavoro di analisi tipico.A partire dalle sequenze dell'intero genoma, il primo passaggio è l'annotazione del genoma, quindi l'identificazione degli elementi del pangenoma, per i quali vengono mostrati gli strumenti comuni.L'input principale della libreria di script GraPPLE è la matrice di presenza/assenza del gene (in formato binario).Da questo vengono calcolate le somiglianze di Jaccard a coppie, quindi convertite in un elenco con annotazioni (conforme allo schema del file ".layout" per il caricamento di Graphia);a partire dalla versione 3, Graphia può anche caricare queste matrici in modo nativo (vedi File aggiuntivo 1: Metodi).I filtri e le trasformazioni suggeriti da applicare in Graphia sono elencati in ordine.GraPPLE contiene anche script per modificare i formati di file dei grafici di sintesi prodotti da strumenti comuni (ove necessario) per consentirne il caricamento in Graphia, sempre con le trasformazioni suggerite elencateLo Staphylococcus aureus è un patogeno multi-ospite, responsabile del carico di malattie negli esseri umani e nel bestiame: più lignaggi sono in grado di cambiare specie ospite e adattarsi a causare malattie in un nuovo ospite [24, 25].I meccanismi attraverso i quali si verificano i cambiamenti dell'ospite spesso implicano l'acquisizione di elementi genetici accessori [23, 26].A partire da un set di dati precedentemente assemblato [23], dimostriamo l'uso di grafici di rete per esplorare la struttura della popolazione e la distribuzione del gene accessorio all'interno di S. aureus.Il primo tipo di grafico rappresenta le relazioni tra le sequenze del genoma in base alla somiglianza del loro contenuto genico accessorio.In questi grafici, ogni nodo rappresenta un singolo genoma e i bordi tra i nodi sono ponderati dal coefficiente di somiglianza di Jaccard (JSC) che si basa sul numero di geni condivisi sul numero totale di geni attraverso la coppia di isolati.Le popolazioni di Staphylococcus aureus sono altamente clonali, con sottotipi classificati in tipi di sequenza (ST) e complessi clonali più ampi (CC) in base al profilo allelico di sette geni principali.Questi gruppi sono altamente coerenti con la filogenesi del genoma centrale (Fig. 2A).Dopo che sono state applicate le trasformazioni (vedi Metodi), il grafico di somiglianza genoma-genoma risultante comprendeva 778 nodi e 4483 bordi.La relazione tra filogenesi centrale e geni accessori può essere visualizzata colorando ciascun genoma in base al CC a cui appartiene.Abbiamo osservato una forte correlazione visiva tra la struttura della rete e CC (Fig. 2B, C) e tra la struttura della rete e ST all'interno dei singoli CC (Fig. 2Ci).Il test statistico formale di tali associazioni è supportato da Graphia attraverso lo strumento integrato di analisi dell'arricchimento, che calcola un valore p di Fisher aggiustato tra ciascuna coppia di valori su due attributi, in genere cluster di rete rispetto a una variabile di metadati.Qui è stata testata l'associazione tra CC e cluster Markov Cluster (MCL) (valore di inflazione (MCLi) = 2,00).44/45 cluster MCL erano significativamente associati ad almeno un CC (adj. p <0,05).Questa stretta relazione tra core e variazione accessoria all'interno di ciascun lignaggio è coerente con le barriere di restrizione del lignaggio note che limitano il trasferimento genico orizzontale tra CC in S. aureus [21].Le reti da genoma a genoma forniscono informazioni sulla struttura e sulle associazioni della popolazione.Un albero filogenetico di tutti gli isolati di S. aureus prodotti utilizzando ParSNP v1.2.I più grandi complessi clonali (CC) sono colorati ed etichettati, con CC minori in bianco.B Rete di relazioni tra genomi basata sul genoma accessorio visualizzato in 3D.I nodi rappresentano i singoli isolati, i bordi rappresentano il contenuto del gene accessorio condiviso (filtro JSC> 0,8 applicato) ed è stato applicato un filtro per bordi k-NN (k = 8).I CC più grandi sono colorati ed etichettati, corrispondenti alla filogenesi in A. C La stessa rete di B ma visualizzata utilizzando un layout 2D.Ci mostra solo gli isolati CC5, dimostrando le sottostrutture all'interno della rete con nodi colorati in base al tipo di sequenza.D La stessa rete di C e Di la stessa rete di Ci, colorata in base all'hostLa colorazione della rete del genoma in base alle specie ospiti distingue visivamente i raggruppamenti di genomi simili legati a specie ospiti singole o multiple (Fig. 2D).La rete può anche essere filtrata interattivamente sugli attributi del nodo per esaminare un sottoinsieme in modo più dettagliato.Ad esempio, la conservazione solo dei genomi di CC5 mostra una chiara separazione tra i genomi degli ospiti umani e aviari in questo clade (Fig. 2Di).Questi grafici del genoma sono un metodo utile per visualizzare le relazioni globali tra tutti gli isolati contemporaneamente, riflettendo i modelli complessi e "non verticali" del contenuto del genoma accessorio.Il JSC fornisce la proporzione diretta di geni accessori condivisi tra ciascuna coppia di genomi ed è quindi la metrica preferita (predefinita) utilizzata.Altre misure a coppie, come le distanze euclidee e coseno, sono supportate negli script GraPPLE.Il secondo tipo di grafico è una rete di co-occorrenza genica, calcolata dalla stessa matrice della rete del genoma, ma invertita.In questo caso i nodi rappresentano i geni e gli spigoli sono pesati (JSC) tra ciascuna coppia di geni in base alla co-occorrenza nella popolazione.Il raggruppamento dei grafici definisce gruppi (insiemi) di geni con prevalenza molto simile.Dopo aver applicato le trasformazioni (vedi Metodi), la rete di somiglianza gene-gene comprendeva 1926 nodi e 8769 bordi su 285 componenti (gruppi di nodi collegati).I geni erano raggruppati (MCLi = 1,50) e le dimensioni dei cluster variavano da 2 a 146 geni (Fig. 3A).I cluster sono ordinati per dimensione, in ordine decrescente, e in Fig. 3B sono mostrati quattro cluster di geni con profili caratteristici.Il cluster 1, il cluster più grande, conteneva 153 geni presenti nella maggior parte degli isolati.Il cluster 3 conteneva 50 geni specifici per CC398;molti altri cluster sono simili al lignaggio o limitati, coerenti con il forte segnale del lignaggio osservato nelle reti di somiglianza genoma-genoma.Il cluster 25 conteneva 18 geni con un'elevata occorrenza nei genomi dei ceppi trovati nell'ospite aviario, coerentemente con le divisioni osservate nel grafico genoma-genoma.Il cluster 28 conteneva 18 geni presenti in una gamma di isolati, il che implica un alto tasso di guadagno/perdita e un numero elevato di questi geni contiene annotazioni associate ai fagi.Le reti di associazione genica forniscono una relazione tra la presenza del gene e le caratteristiche del genoma dell'ospite.Grafico di associazione gene-gene filtrato AA visualizzato nello spazio 2D.Ogni nodo rappresenta un gene e gli spigoli ponderati corrispondono al coefficiente di somiglianza di Jaccard tra ciascuna coppia di geni (JSC > 0,550).I geni ad alta e bassa frequenza sono stati rimossi (n < 7; n > 770), così come i componenti più piccoli (n < 10), per chiarezza visiva.I nodi sono colorati per cluster (MCLi = 1,50).B Quattro grafici del profilo di distribuzione genica, che rappresentano le distribuzioni comunemente osservate: Cluster 1, geni vicini al nucleo;Cluster 3, insieme di geni che mostrano una distribuzione quasi specifica del lignaggio (CC45);Cluster 25, insieme di geni associati all'ospite (aves);Cluster 28, insieme di geni ampiamente distribuito ma non specifico del lignaggio.Ogni barra in un grafico rappresenta un genoma individuale, con l'altezza della barra uguale alla proporzione di geni nel cluster presenti in quel genoma.Le barre orizzontali colorate sotto l'asse x rappresentano l'ospite (superiore) e il complesso clonale (inferiore)Il terzo tipo di grafico rappresenta le relazioni sinteniche tra i geni.In una tale rete, i nodi rappresentano i geni e gli spigoli sono pesati in base al numero di volte in cui due geni vengono osservati uno accanto all'altro nella popolazione.Le grandi dimensioni e le topologie complesse di queste reti significano che sono difficili da renderizzare e interpretare.Rispetto agli strumenti grafici esistenti consigliati per la visualizzazione di grafici pangenomici, come Cytoscape [27], Gephi [28] e Bandage [29], Graphia migliora la rappresentazione topologica delle reti attraverso un layout 3D e aumenta l'interattività con disposizione dei tempi e applicazione delle soglie (File aggiuntivo 1: Fig. S1).Il grafo di sintesi di S. aureus primario comprendeva 7091 nodi, collegati da 17.100 archi (file aggiuntivo 1: Fig. S2A).La prima trasformazione ha rimosso ~ 6000 bordi a bassa frequenza, qui scelti come quelli con peso < 8 (< 1% degli isolati; File aggiuntivo 1: Fig. S2B).In questi esempi, i nodi vengono rimossi anche quando la rimozione di un bordo disconnette uno o più nodi dal componente grafico più grande.Questi nodi sono quasi esclusivamente geni a bassa frequenza, la maggior parte dei quali sono stati annotati come "ipotetici".È stata applicata una seconda trasformazione, contraendo tutti i bordi che si verificano in oltre il 99% delle sequenze del genoma (peso > 770).Laddove ci sono tratti di geni sintenici altamente conservati, questa trasformazione comprime queste regioni fino a un singolo nodo (file aggiuntivo 1: Fig. S2C).Ciò rispecchia la rimozione di tali geni centrali "vicini" dalle reti di associazione genica, ma conserva le informazioni contestuali come collegamenti tra regioni variabili.Inoltre sono stati rimossi anche i geni a bassa frequenza (n < 10).La rete risultante comprendeva 2711 nodi e 4110 bordi.Il nodo con la molteplicità più alta rappresentava 29 geni, la maggior parte dei quali si prevede codifichi le subunità ribosomiali 30S e 50S.Per classificare ampiamente le regioni del pangenoma e favorire il successivo filtraggio, è stato utilizzato l'algoritmo Louvain clustering (LC) per raggruppare la rete (valore di inflazione = 0,400), risultando in 18 cluster (file aggiuntivo 1: Fig. S2D).Queste reti catturano la variazione a livello di popolazione in regioni specifiche, consentendo così l'identificazione visiva delle regioni di interesse (Fig. 4A).Ad esempio, osserviamo un'area di maggiore variazione nella rete di sintesi di S. aureus (Fig. 4A, riquadro tratteggiato).Filtrando solo gli LC trovati in quest'area, notiamo un'alta percentuale di annotazioni "fagiche" (Fig. 4B).Questa regione "fagica" può essere risolta in più percorsi diversi, ciascuno dei quali rappresenta diverse disposizioni di insiemi di geni fagici integrati nella popolazione;le annotazioni danno ulteriore contesto a queste regioni (Fig. 4C).Le connessioni sintetiche all'interno del pangenoma di S. aureus mostrano la posizione dei set di geni.Una rete di sintesi completa di S. aureus al 90% di identità genica.I nodi rappresentano i geni e sono dimensionati in base al numero di isolati in cui si trovano.I bordi sono ponderati come il numero di volte in cui due geni si verificano uno accanto all'altro.Colorato da Louvain Cluster (LCi = 0,400).B Regione "fagica" (lato destro della rete in A), selezionata conservando solo i nodi nei cluster 1, 5, 6, 7 e 9. Colorata come in A. C Layout 2D della stessa regione come in B, con annotazione comune evidenziata accanto ai geni principali.Questa rete consente un'ispezione dettagliata dei siti di integrazione dei fagi rispetto ai geni principali, ai geni accessori condivisi tra i tipi di fagi comuni e ai nuovi fattori presunti portati sulle varianti dei fagi.In questa regione si trova anche il gene cluster 28 (vedi Fig. 3).Regione D, nel contesto, che porta il gene cluster 25 (arancione; vedi Fig. 3) come un unico insieme sintenico, inserito accanto a un gene near-core.Si vedono anche esempi di gruppi di geni cluster 3 (gialli).E Layout 2D della regione da D (cluster 2 e 18).Reti più piccole e mirate aiutano la navigazione e l'indagine su posizioni e vicini di geni specificiLa mappatura delle informazioni di clustering dai grafici di somiglianza gene-gene alla rete di sintenia fornisce uno schema visivo di quali geni sono condivisi attraverso quali genomi.Ad esempio, abbiamo cercato i geni del cluster 25 (Fig. 3B; arancione) e abbiamo evidenziato la regione (definita dal cluster di Louvain) in cui si verificano (Fig. 4D).Il filtraggio della rete in questa regione mostra che il cluster genico 25 si presenta come un singolo insieme sintenico di geni, collegato a un gene lipoproteico putativo (rosso; Cluster 1).In questa regione sono presenti anche due piccoli gruppi di geni del gene cluster 3 (giallo);altri geni del cluster genico 3 sono osservati come piccoli insiemi di geni distribuiti nel grafico del pangenoma.Questi probabilmente si sono discostati dagli antenati comuni da quando è emerso il lignaggio o sono geni che si sono fissati in questo lignaggio dopo eventi di acquisizione.I geni del cluster genico 28 sono stati trovati in un singolo blocco sintenico nella regione del profago mostrata in Fig. 4C;la maggiore mobilità nota dei geni profago come questi è coerente con la distribuzione sporadica vista nel profilo di questo cluster genico (Fig. 3B).Legionella pneumophila è una specie d'acqua dolce onnipresente in tutto il mondo che causa la malattia dei legionari, una grave forma di polmonite [30, 31].L. pneumophila è un patogeno umano opportunista e la maggior parte delle infezioni sono sporadiche.Tuttavia, i focolai sono stati collegati a una varietà di serbatoi ambientali, che rappresentano una grave minaccia per la salute pubblica [32].Qui, abbiamo utilizzato i metodi sopra descritti per studiare il pangenoma di L. pneumophila utilizzando un set di dati di 379 gruppi di genomi dal database NCBI, selezionati per rappresentare l'ampiezza nota della diversità delle specie.Il pangenoma di L. pneumophila è stato prodotto utilizzando PIRATE alla soglia di identità del 90%, costituendo 2029 geni core (presenti in > 99% isolati) e 8456 geni accessori.Le JSC a coppie tra genomi e geni sono state calcolate come descritto sopra.La rete del genoma conteneva 379 nodi e 2693 bordi, in 12 cluster (MCLi = 1,40).Attraverso il confronto di ST (Fig. 5A) e posizione (Fig. 5B), possiamo identificare due distinti cluster di genomi ST36 associati a una divisione geografica (Stati Uniti e Svizzera).Indagare il pangenoma di L. pneumophila attraverso grafici di rete.Una rete di somiglianza genoma-genoma, colorata da ST.I nodi rappresentano i genomi e gli spigoli sono pesati da JSC a coppie.Sono evidenziati due clade ST36 chiave.Gli spigoli vengono filtrati da JSC > 0,5 e utilizzando un k-NN = 10. B Stessa rete di A ma colorata in base alla posizione di campionamento.Gli stessi due clade chiave ST36 sono evidenziati.C Rete di somiglianza gene-gene;i nodi rappresentano i geni, i bordi pesati da JSC a coppie.I bordi vengono filtrati da JSC > 0,55 e k-NN = 20. Clustering con MCLi = 1,50.Componenti di n < 10 rimossi per chiarezza visiva.D Grafici di distribuzione dei geni accessori dei più grandi cluster di geni associati alla divisione in ST36 tra genomi svizzeri (rossi e arancioni) e statunitensi (blu).Grafici come descritto in Fig. 3. E Rendering 3D del grafico della sintenia del pangenoma per L. pneumophila;i nodi colorati corrispondono ai cluster in C, D. F Vista filtrata e 2D della regione chiave, con convergenza delle regioni svizzere e associate agli Stati Uniti nella stessa regione centralePer rilevare la differenza nel contenuto genico che causa questa divisione in ST36, utilizziamo la rete di somiglianza gene-gene.Dopo il filtraggio (vedi Metodi), questa rete consisteva di 4270 geni e 49.000 bordi, che formavano 201 cluster (MCLi = 1,50; Fig. 5C).I profili di distribuzione dei cinque cluster genici più grandi associati alla divisione ST36 sono mostrati in Fig. 5D.Tre di questi cluster sono stati identificati nei genomi ST36 svizzeri (rosso e arancione; Fig. 5C, D), mentre due cluster sono stati trovati nei genomi ST36 statunitensi (blu; Fig. 5C, D).I due cluster associati agli Stati Uniti provenivano dallo stesso componente della rete genica, coerentemente con l'elevata somiglianza dei loro grafici di distribuzione.Questi cluster sono stati quindi mappati sul grafico di sintenia e ciascuno è risultato essere in blocchi sintetici collegati in tutta la popolazione (Fig. 5E).Un'estremità di ciascuno di questi blocchi convergeva sulla stessa regione centrale (Fig. 5F), implicando un evento di inserimento/cancellazione mediato da un elemento genetico mobile o un evento di ricombinazione.Ulteriori indagini su questa regione nel genoma di riferimento di Filadelfia-1 (Genbank Accession: ASM8485.1) hanno mostrato che un lato è affiancato da sequenze codificanti che codificano per tRNA, nonché da un'integrasi (intD), suggerendo che la regione potrebbe essere parte di un elemento integrativo e coniugativo [33].L'altro lato della regione era affiancato da geni annotati come trasposasi e conteneva geni aggiuntivi con annotazioni che suggerivano un ruolo nella coniugazione, fornendo ulteriori prove di mobilità;ciò è coerente con la presenza/assenza sporadica dei geni nel resto della popolazione di L. pneumophila.La complessità della distribuzione dei geni accessori rappresenta una sfida per trovare associazioni significative tra set di geni, struttura della popolazione e fenotipo.Il primo tipo di grafico di rete presentato in questo studio è paragonabile ad altre rappresentazioni visive della struttura della popolazione basate su geni accessori, comprese quelle prodotte da PANINI [34] e PopPUNK [35].PANINI utilizza l'incorporamento stocastico del vicino (t-SNE) distribuito in t per tracciare la correlazione dell'isolato, che rappresenta la somiglianza dei genomi accessori nello spazio 2D, mentre PopPUNK calcola la distanza tra le regioni centrali e accessorie per tutte le coppie di isolati attraverso il confronto k-mer.Entrambi sono utili elementi visivi di riepilogo e raggruppamenti, ma l'approccio 3D e interattivo qui illustrato consente una maggiore esplorazione della struttura dei dati sottostante e la percezione dell'impatto che le soglie applicate hanno su tale struttura.Il semplice metodo di raggruppamento dei geni basato su JSC definisce insiemi di geni con una prevalenza simile tra le popolazioni batteriche.Questi cluster aiutano a contestualizzare ulteriori indagini all'interno delle reti di synteny, come presentato qui, e in altri strumenti.Ad esempio, studi di associazione sull'intero genoma, che testano il significato delle associazioni tra la presenza del gene e tratti particolari come la virulenza o l'adattamento dell'ospite [36];Pantagruel [37], che descrive insiemi genici co-evolutivi riconciliando gli alberi genici con l'albero delle specie;o Coinfinder [38], che identifica i geni che condividono modelli comuni o opposti di ereditarietà o perdita nella popolazione.Per quanto riguarda i grafici di sintesi, strumenti recenti hanno cercato di utilizzarli ulteriormente: Panakeia [39] quantifica sistematicamente le strutture viste all'interno di questi grafici, mentre MetaPGN [40] fornisce una rappresentazione schematica, sebbene la scalabilità rimanga un limite per entrambi.Cytoscape, Gephi e Bandage hanno opzioni di layout 2D limitate e la complessità delle reti può portare a problemi di frame rate e rendering grafico.Graphia affronta molti dei limiti degli attuali strumenti di rete e aumenta notevolmente l'usabilità di questi dati.Abilitare la visualizzazione e l'indagine completa di queste reti, in 3D e con il contesto di clustering per i geni accessori, consentirà di approfondire gli insiemi di geni non studiati in precedenza e quelli con funzione "ipotetica".Prevediamo che questo approccio sia particolarmente efficace nelle specie studiate meno comunemente, accelerando lo studio degli elementi genetici accessori e le successive analisi.Infine, il caso di studio presentato in L. pneumophila dimostra l'applicazione di questi grafici di rete in tandem per: (1) identificare le divisioni in una popolazione che riflettono la variazione nel contenuto del gene accessorio;(2) identificare i geni specifici associati a quella divisione e;(3) stabilire il contesto sintetico di quei geni attraverso il potere di visualizzazione.Nel loro insieme, l'analisi ha portato all'identificazione di un presunto nuovo elemento genetico mobile associato alla divisione geografica in L. pneumophila ST36, uno di un numero limitato di importanti cloni patogeni globali [41].Le moderne piattaforme di sequenziamento stanno ora generando grandi quantità di dati che descrivono la diversità genomica all'interno e attraverso le specie batteriche.Tuttavia, l'enorme dimensione e complessità di tali set di dati presenta grandi sfide per gli strumenti esistenti, in particolare per quanto riguarda la visualizzazione e l'interpretazione.Gli strumenti per il pangenoma Panaroo, PIRATE e PPanGGOLiN producono tutti matrici di conteggio genico che, come dimostrato qui, possono essere utilizzate per generare grafici a scopo di analisi.Questi strumenti producono anche formati grafici di sintenia pangenomica.Graphia presenta numerosi vantaggi quando si lavora con tali dati, ma richiede che i dati siano formattati in modo appropriato;il repository GraPPLE è stato inizialmente sviluppato per risolvere questo problema, sebbene la funzionalità venga anche aggiunta direttamente a Graphia.Il nostro approccio fornisce rappresentazioni visive altamente informative delle complesse relazioni all'interno del pangenoma batterico a un livello di dettaglio e velocità non precedentemente possibili, specialmente con set di dati di grandi dimensioni.Prevediamo che l'approccio e le risorse qui descritte verranno applicati per comprendere la biologia evolutiva adattativa di un'ampia varietà di importanti specie batteriche.Gli assemblaggi del genoma di S. aureus sono stati presi da uno studio precedente [23].Gli assiemi di L. pneumophila sono stati scaricati dal database NCBI (18/02/2020) e sottoposti a downsampling utilizzando Assembly-Dereplicator (github.com/rrwick/Assembly-Dereplicator).I metadati sono stati scaricati dai relativi repository online.I tipi di sequenza degli isolati di S. aureus sono stati determinati facendo riferimento a PubMLST (pubmlst.org) utilizzando mlst (github.com/tseemann/mlst).ParSNP v1.12 [42] è stato utilizzato per produrre un allineamento del gene centrale e generare un albero filogenetico, visualizzato utilizzando ggtree [43].L. pneumophila ST è stata determinata utilizzando chewBBACA [44].Tutte le analisi fino agli script GraPPLE inclusi sono state eseguite su una macchina virtuale standard di Cloud Infrastructure for Microbial Bioinformatics (CLIMB) [45].Tutti gli assiemi in formato FASTA sono stati annotati utilizzando Prokka v1.14.6 [46] con database predefiniti, specificando il genere appropriato.I file annotati in formato GFF3 sono stati utilizzati come input per PIRATE v1.0.4 e il pangenoma per ciascuna specie è stato determinato con le impostazioni predefinite.La matrice di presenza/assenza risultante è stata filtrata solo sui geni alla soglia id del 90%.Il grafico iniziale dei genomi di S. aureus consisteva di 778 nodi e 302.253 bordi.L'applicazione prima di una soglia di spigolo di JSC > 0,8 all'interno di Graphia ha ridotto il conteggio degli spigoli a 265.400, quindi l'algoritmo k-Nearest Neighbors (k-NN) (k = 8) ha ridotto ulteriormente il conteggio degli spigoli a 4483. Clustering (MCLi = 2,00) ha prodotto 45 cluster.Un valore p di Fisher corretto tra cluster MCL e CC è stato calcolato utilizzando lo strumento di analisi dell'arricchimento integrato in Graphia.Nell'analisi di L. pneumophila, la rete grezza era composta da 379 nodi collegati da 70.100 bordi;dopo l'applicazione di k-NN (k = 10) il conteggio degli spigoli è stato ridotto a 2693, formando 2 componenti.I bordi di peso inferiore sono stati mantenuti qui per mantenere meglio la connettività relazionale.Il grafico è stato raggruppato con MCLi = 2,00, risultando in 15 cluster.Il grafico iniziale dei geni di S. aureus conteneva 5368 nodi (geni) e 2,7 milioni di bordi, su 299 componenti.I geni sono stati rimossi se sono stati trovati in > 99% dei genomi (rimozione dei geni 2015) o < 1% dei genomi (rimozione di 1307 geni) e sono stati rimossi anche i bordi di peso JSC < 0,55.Queste trasformazioni hanno ridotto le reti a 2064 nodi e 41.700 edge su 314 componenti.L'algoritmo k-NN (k = 10) è stato utilizzato per ridurre ulteriormente la densità dei bordi a 9196. Il grafico risultante è stato raggruppato a MCLi = 1,50, fornendo 264 cluster e 95 componenti a nodo singolo.Il grafico di somiglianza gene-gene iniziale di L. pneumophila conteneva 6702 nodi e 1,5 M di bordi, su 118 componenti.I geni sono stati rimossi se sono stati trovati in > 99% dei genomi (rimozione di 910 geni) o < 1% dei genomi (rimozione di 1522 geni) e sono stati rimossi anche i bordi di peso JSC < 0,55.L'algoritmo k-NN (k = 20) ha rimosso altri 267.700 archi.Il grafico risultante di 194 componenti è stato raggruppato a MCLi = 1,50, fornendo 201 cluster.I grafici del profilo del cluster genico sono stati prodotti utilizzando lo script "plot_gene_cluster_profiles.R".I grafici di sintesi sono stati creati per i geni alla soglia id del 90% eseguendo lo script "pangenome_graph.pl" da PIRATE, con una matrice di presenza/assenza del gene modificata al 90% come input (spostando gli alleli alle famiglie di geni utilizzando "generate_edges.sh" script dal repository GraPPLE).Il file synteny è stato convertito nel formato ".layout" utilizzando lo script "py_edges_to_layout.py" dal repository GraPPLE con le impostazioni predefinite.Le trasformazioni di S. aureus sono descritte nella sezione Risultati per dimostrare la semplificazione.Il grafico di L. pneumophila è stato prodotto in modo simile ricreando il file ".edges" con gli script dell'adattatore PIRATE, alla soglia id del 90%.Questo file è stato convertito in ".layout" utilizzando lo script GraPPLE "edges_to_layout.py", caricato in Graphia e semplificato rimuovendo bordi di peso < 10 e contraendo bordi di peso > 370.Tutte le trasformazioni di rete sopra elencate sono state eseguite utilizzando l'interfaccia utente di Graphia se non diversamente specificato.Per ulteriori informazioni su trasformazioni specifiche, vedere la Guida per l'utente di Graphia (graphia.app/userguide.html).Analisi Graphia (v2.2) eseguita su un laptop con specifiche standard (Intel Core i7-7500U @ 2.70 GHz, 8 GB RAM, Intel HD Graphics 620 integrata, Windows 10 Pro).Tutte le sequenze e i metadati utilizzati in questo documento sono disponibili da repository pubblici;un elenco è fornito nel file aggiuntivo 2. Graphia è un software open source gratuito disponibile da graphia.app sotto una GNU General Public License v3.0.Gli script GraPPLE sono disponibili su GitHub (JDHarlingLee/GraPPLE).Alm RA, Ling L-SL, Moir DT, King BL, Brown ED, Doig PC, et al.Confronto della sequenza genomica di due isolati non correlati del patogeno gastrico umano Helicobacter pylori.Natura.1999;397:176–80.Welch RA, Burland V, Plunkett G, Redford P, Roesch P, Rasko D, et al.Ampia struttura a mosaico rivelata dalla sequenza completa del genoma di Escherichia coli uropatogeno.Proc Natl Acad Sci.2002;99:17020–4.Tettelin H, Masignani V, Cieslewicz MJ, Donati C, Medini D, Ward NL, et al.Articolo PubMed PubMed Central Google ScholarArticolo PubMed PubMed Central Google Scholar