PLoS ONE: en strømlinjeformet metode for påvisning av strukturelle varianter i Cancer genomer av Short Les parvise End Sekvensering

Abstract

Definere arkitekturen av en bestemt kreft genom, herunder strukturelle varianter, er avgjørende for å forstå tumorbiologi, mekanismer for onkogenese, og for å utforme effektive personlig terapi. Kort lese- parvise end sekvensering er for tiden den mest sensitive metoden for påvisning av somatiske mutasjoner som oppstår i løpet av svulst utvikling. Imidlertid kartlegge strukturelle varianter ved hjelp av denne metoden fører til et stort antall falske positive anrop, for det meste på grunn av den repeterende naturen til genomet, og vanskeligheten med å tildele riktige stillinger for å kartlegge kort leser. Denne studien beskriver en metode for effektivt å identifisere store tumorspesifikke delesjoner, inversjoner, duplikasjoner og translokasjoner fra lav dekningsdata ved hjelp av SVDetect eller Boy som programvare, og et sett av nye filtreringsfremgangsmåter for å redusere falske positive samtaler. Bruk av vår metode til en spontan T-celle lymfom oppstår i en kjerne RAG2 /p53-mangelfull mus, identifiserte vi 40 validerte tumor-spesifikke strukturelle rearrangements støttes av så få som to selvstendige lese par

Citation. Mijušković M, Brown SM, Tang Z, Lindsay CR, Efstathiadis E, Deriano L, et al. (2012) en strømlinjeformet metode for påvisning av strukturelle varianter i kreft genomer av Short Les parvise End Sequencing. PLoS ONE 7 (10): e48314. doi: 10,1371 /journal.pone.0048314

Redaktør: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapore

mottatt: 16 juli 2012; Godkjent: 24 september 2012; Publisert: 29 oktober 2012

Copyright: © 2012 Mijušković et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av tilskuddet PN1EY018244 fra National Institutes of Health Roadmap Initiative i nanomedisin (nanomedisin Development Center award) og National Institutes of Health gi R01CA104588 til DBR. SMB og ZT er delvis støttet av National Institutes of Health /National Center for Forskning Resources tilskuddet U54 RR024386-01A1 (Clinical Oversettelse Science Award) til New York University Medical Center. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Somatiske strukturelle varianter (SVS), inkludert store slettinger, innsettinger, inversjoner, duplikasjoner og trans er viktige kjennetegn på kreft genomer, ansvarlig for etableringen av fusjonsgener, kopiere nummer og regulatoriske endringer som fører til aktivering eller overekspresjon av onkogener og inaktivering av tumorsuppressorgener [1], [2], [3], [4], [5], [6]. Definere arkitekturen av en bestemt kreft genom er derfor viktig ikke bare som et første skritt mot å forstå biologien til svulsten og mekanismer for onkogenese, men også klinisk til å utforme effektive personlig terapi [7], [8].

Nylige fremskritt innen high throughput sekvenseringsteknologi [9], [10] har gjort det mulig å studere hele genomer ved enestående høy oppløsning og relativt lave kostnader. Men dagens korte lese parvise end sekvense teknologier bære mange utfordringer, spesielt tydelig når du forsøker å studere SVs i kreft. Først den iboende kompleksitet av tumorvev [11], [12], [13] er en utfordring i seg selv, ettersom svulster er sjelden monoklonale og er ofte blandet med normalt vev, så sekvenserings dekning må være dypere enn for SV deteksjon i germline. For det andre, kort leser generert av parvise endesekvensering (vanligvis 50-100 bp fra hver ende av 300-400 bp DNA-fragment) for å vise seg å være vanskelig å kartlegge riktig tilbake på henvisning genomet på grunn av den høye prosentandel av gjentagende genomiske sekvenser [14], [15], [16], [17]. Alt dette fører til et stort antall falske positive anrop, genererer uakseptable nivåer av støy. Retrotransposon aktivitet, vanlig i humane og muse genomer [18], [19], kompliserer i tillegg den dataanalyse som fører til visse typer av falske positive samtaler. Endelig DNA bibliotek forberedelse gjenstander som stammer fra PCR forsterkning kombinert med sekvensfeil legge til et annet nivå av kompleksitet

Dette arbeidet beskriver en hel genom sekvensebasert tilnærming for å identifisere 4 typer SVs:. Store strykninger, inversjoner, duplikasjoner og trans . Vi brukte SVDetect [20] og breakdancer [21] for å ringe SVs i en muslymfom genom fra et sett av parvise end leser innhentet på Illumina er HiSeq plattform. For å redusere det høye antall falske positive samtaler, har vi utviklet en filtreringsprosedyre som tillater påvisning av tumorspesifikke hendelser på forholdsvis lav dekning (17x). Først fant vi det nødvendig å sammenligne tumordatasettet til en germline prøve oppnådd fra samme dyr, for å fjerne et stort antall germline SVs (for det meste som følge av retrotransposon aktivitet) detektert i forsøksdyr sammenlignet med referanse genomet. For det andre, har vi utviklet metoder for å fjerne lese parene merket som uharmoniske på grunn av justeringsfeil, så vel som ufullkomne PCR duplikater som kommer fra DNA-biblioteket forberedelse og sekvenseringsfeil. For det tredje har vi brukt flere filtre på resultatene som produseres av SV ringer programmer, slik som overlapper med kommenterte enkle repetisjoner og lav mappability regioner, for å identifisere høy tillit SV kandidater. Vi viser PCR og Sanger-sekvense validering av 40 kreftspesifikke SVs i en enkelt svulst genom støttes av så få som to selvstendige lese par.

I sammendraget, den metoden som presenteres her forenkler analysen, økende prøvekapasitet. Det gir også høy følsomhet, slik at påvisning av sjeldne varianten kloner i komplekse blandinger som kan ha viktige prognostiske eller terapeutiske konsekvenser.

Resultater og Diskusjon

Etablering innledende analyse Parametere

brukt parvise end (PE) sekvense simuleringer som et verktøy for å etablere de første analyseparametere, for å kvantifisere effekten av sekvense dybde på deteksjon av kjente SVs, og å studere justering relatert falske positiver. Vi simulerte et rearrangert genom basert på C57BL /6J mus referanse (MM9), innføring av 10 interchromosomal translokasjoner og 10 store delesjoner i områder med varierende mappability (tabell 1). Les lengde, bety innskuddsstørrelse og standardavvik av størrelsen på innskuddet ble valgt til å være representativt for våre forsøksdata (50, 315, 44, henholdsvis). Ved hjelp av tre uavhengige simulerte datasett med 10, 20, 40, 80 og 160 millioner lese parene, vurdert vi antall oppdagede reelle og falske positiver, samt påvisning sannsynlighet som en funksjon av lokalt mappability.

PE-sekvensering viste seg å være en effektiv metode for SV deteksjon ved dekning nivåer som tilsvarer 80 eller flere millioner lese par. 90% av hendelser i vår simulerte omorganisert genom ble påvist med 160 millioner lese parene, om minimum for tiden tilgjengelig fra ett kjørefelt ved hjelp av Illumina HiSeq plattformen (fig. 1A). Som forventet, detectability av en viss omorganisering sterkt avhengig av stoppunkt mikromiljøet, med mer dekning for å oppdage hendelser i regioner med lavere mappability (Fig. 1B). Ved vurdering av falske positiver, fant vi at 97% av de totale SV samtaler ble tilskrevet leser med mer enn en like gyldig kartlegging posisjon. Disse leser stammer fra forskjellige repeterende genomiske regioner (for eksempel centromeric satellitt sekvenser, retroelements, RNA gener, etc.) og måtte fjernes fra analysen. Etter å ha gransket BWA kartlegging kvalitet score til leser bidra til reelle og falske positiver, valgte vi en cutoff av 23 for vår analyse (for videre diskusjon, se «falske positive som følge av BWA justeringsfeil

»

). Det bør bemerkes at cutoff er valgt basert på det ønskede forholdet mellom virkelige og falske positiver, med lavere cutoff å øke følsomheten på bekostning av spesifisitet. Etter bruk av BWA kartlegging kvalitet cutoff til våre simulerte datasett, observerte vi ingen flere falske positiver knyttet til lese kartlegging feil. Men vi la merke size-relaterte falske positiver som dukket opp med den økende dekning. Disse falske positive var små delesjoner som stammer fra høyere ende og duplikasjoner som stammer fra den nedre ende av den normale DNA-bibliotek-fragmentet størrelsesfordeling. For å korrigere for innsatsen størrelse relatert falske positiver, brukte vi en størrelse cutoff av 8 standardavvik og har brukt den til vår analyse. Denne parameteren bør bestemmes for hver enkelt bibliotek individuelt, avhengig av den ønskede følsomhet: Økning av standardavviket cutoff vil føre til økning av minimale detekterbare sletting og duplisering størrelse. Avhengig av analyse behov, kan det være fordelaktig å bruke lavere standardavvik cutoffs sammen med en vurdering av antall som støtter lese parene, som SVs med et høyere antall understøttelse lese parene kan indikere en reell hendelse. Imidlertid bør denne tilnærmingen brukes med forsiktighet ved analyse av tumorprøver der tap eller gevinst på kopiantall kan føre til falske konklusjoner.

A) Påvisning av SVs som en funksjon av dekning, B) Antall støtte lyder som en funksjon av mappability.

Simuleringer av PE-sekvensering viste seg å være et nyttig verktøy i å utvikle data filter strategi. Etter å optimalisere startparametre som er beskrevet ovenfor, og å fjerne alle falske positive anrop fra simulerte datasett, kaller SV i den eksperimentelle datasettet kunne tilbakeføres til prøven og den eksperimentelle prosedyren i seg selv, snarere enn analyse gjenstander. Simuleringer var også nyttig som et middel for å forutsi deknings nødvendig for detektering av visse typer arrangementer. Viktigere, når relatert simuleringer til den eksperimentelle dataanalyse, må det tas hensyn til den forventede frekvens av rearrangementer, og dermed den nødvendige dekning, vil normalt være 50% på grunn av den diploide karakter av genomet. Ved heteroclonal eller urene prøver (vanlig tilfelle når du arbeider med tumorprøver), er denne frekvensen forventet å bli enda lavere.

Datafiltrering

Som vår eksperimentelle datasettet, vi valgte en uncharacterized thymus lymfom hentet fra en Rag2

c /cp53

– /- mus. Thymus lymfomer som oppstår spontant i denne musemodell båtplass et stort antall strukturelle rearrangements som trans, store slettinger og presiseringer [22]. Illumina er parvise end sekvensering ble valgt over styrmannen paret strategi, som vi forlatt i den tidlige løpet av dette arbeidet på grunn av vanskeligheter i DNA-bibliotek forberedelse. Vi sekvensert to genomiske bibliotek, som ble oppnådd fra den faste tumorvev og den andre fra leveren av det samme dyret (kimlinje kontroll). Vi fant kontrollen biblioteket for å være nødvendig på grunn av et stort antall germline SVs stammer fra restene av en 129 belastning bakgrunn (musa ble opprinnelig opprettet som en 129SvEv /C57BL6 hybrid). Svulsten og kontroll biblioteket ble sekvensert til 17x og 9x fysisk dekning, henholdsvis (Tabell 2, fig. 2).

A) Tumor datasett, B) Kontroll datasett. Tumor datasett viser differensial relative fordelingen av dekning på grunn av genomisk ustabilitet. Kromosom nummer endringene er tydelig for chr1, chr2, chr15 (~3 eksemplarer), chr4 og chr14 (~4 eksemplarer), chr8 (~2.5 eksemplarer).

Vi brukte SVDetect (Fig . 3A) og breakdancer (fig. 3B) for å ringe innledende SVs, da disse er de to mest brukte store strukturelle variant deteksjon programmer som gjelder for 50 bp lese PE data. Vanligvis analysen bruker Breakdancer opprinnelig produsert mer intrachromosomal og mindre interchromosomal SV samtaler i forhold til SVDetect, kanskje på grunn av forskjeller i clustering strategi. Den samme analyseparametere og filtreringen ble påført til begge programmer, hvilket ga tilsvarende resultater ved enden.

Grafen viser totalt antall SV-anrop ved å SVDetect (A) eller Boy som (B), som etterfølgende filtreringstrinn blir tilført . NO FILT- Ingen filtrering (bortsett fra fjerning av perfekte PCR duplikater og leser med null BWA kartlegging kvalitet), M kvali- Fjerne leser med 23 BWA kartlegging kvalitet, jeg DUPL- Fjerne leser i kategorien «ufullkomne duplikater», kontroll- Sammenligning svulst datasett til kontroll, lAV kartet- Post-SV deteksjon filtrering av anrop overlappende lave mappability regioner, enkel og effekt represen- Post-SV deteksjon filtrering av anrop overlapp enkle repetisjoner, Custom- Custom filtrering av resterende samtaler basert på omorganisering type (se tekst for detaljer).

i motsetning til simuleringer, analyse av eksperimentelle data førte til et stort antall falske positive samtaler etter påføring opprinnelig etablert analyseparametere som er beskrevet ovenfor. Vi definerer disse falske positiver som hendelser som støttes av lyder kartlegging for å repetitive genomiske regioner, samt de som spenner over regioner med retroelement aktivitet. Antallet falske positiver var spesielt stor blant interchromosomal SVs, forklares med høyere sannsynlighet for en repeterende lese blir forskjøvet til et kromosom forskjellig fra sin kompis. For å finne og validere virkelige tumorspesifikke varianter, var det nødvendig å analysere kilden til disse ringe og redusere dem til et håndterlig antall. Vi identifiserte 3 hovedtyper av falske positive samtaler, avhengig av deres kilde: 1) falske positiver knyttet til variasjon mellom musestammer, 2) falske positiver som følge av justeringsfeil, og 3) falske positiver relatert til PCR duplikater stammer fra prøveopparbeidelse kombinert med sekvense feil. Vi utviklet forskjellig før og etter påvisning filtrerings prosedyrer for å omgå disse utfordringene.

falske positiver Relatert til Structural Variasjon mellom Laboratory musestammer

Strukturell variasjon blant brukte laboratorium musestammer, i likhet med strukturell variasjon mellom individuelle mennesker, har allerede blitt dokumentert i stor detalj [23], [24], [25]. Mest knock-in mus, inkludert den som brukes i denne undersøkelsen, kan klassifiseres som hybride stammene, selv om dyrene ble backcrossed et antall ganger i standard genomet stamme (C57BL /6J). Observert SVs kan det meste tilskrives germline retroelement aktivitet, og er manifestert som innsetting av SINE, LINE og LTR elementer samt revers-transkribert intronless gener (retrogenes). Når en eksperimentell datasett blir sammenlignet med C57BL /6J referanse-genomet, er flere typer strukturelle varianter kalt. Oftest retroelement innsettinger som er tilstede i referansen, men mangler i prøven belastning, vil bli kalt som slettinger, mens de som er til stede i prøven stamme, men mangler i referanse, vil bli kalt som balanserte translokasjoner. Innsetting av retrogenes kan bli anerkjent som en rekke slettinger som omfatter introner, ledsaget av en trans anrop fra kromosom opprinnelses til mottakeren kromosomet (fig. 4).

A) Retrotransposon innsetting til en annen kromosom som fører til en falsk trans anrop, B) Retrotransposon innsetting til den samme kromosom som den opprinnelige fører til et falsk anrop delesjon, C) revers transkribert intronless gen (retrogene) innsetting i et annet kromosom som fører til falske translokasjon og sletting anrop.

for å kunne filtrere ut germline SVs som er beskrevet ovenfor, har vi funnet det nødvendig for å oppnå en kontroll datasett ved sekvensering av normalt vev som stammer fra det samme dyr. I denne studien ble en kontroll datasett fremstilt ved anvendelse av levervev og i forhold til tumor datasett. Ved hjelp av denne strategien, var vi i stand til å fjerne det meste germline SVs. Men visse SVs mislyktes i å bli detektert som germline, på grunn av mangel av overlapping mellom bærelese par. Derfor fant vi det nødvendig å undersøke hver SV manuelt for potensielt savnet overlapping med kontrollen. Selv etter å ha påført sammenligning prosedyren, en rekke arrangementer vi identifisert som høykvalitets kandidater ble godkjent som germline (30% av intrachromosomal og 50% av interchromosomal SVs). Dette resultatet kan tilskrives lavere dekning i vår kontroll datasettet, som fører til lavere følsomhet av kimlinje SV deteksjon. Aneuploidy av svulstvev (flere eksemplarer av enkelte kromosomer eller tap av andre) skaper lokale forskjeller i dekningen mellom svulsten og kontroll datasett, som legger til kompleksiteten i analysen (fig. 2).

falske positiver Oppstandelse fra BWA justeringsfeil

for å fjerne falske positiver knyttet til justeringsfeil, testet vi effekten av BWA kartlegging kvalitet score-basert filtrering på antall resulterende SV samtaler. Selv BWA forfattere utpeke leser med 0-10 kartlegging kvalitet som «upålitelig kartlagt» [26], har vi funnet den beste cutoff utvalg for kartlegging kvalitetspoeng i vårt eksperiment for å være 0-22 (Fig. 5). Til delvis riktig for uønsket fjerning av fast SV kandidater i mindre unike genomiske regioner, samtaler med et stort antall støttelese parene ble undersøkt manuelt. Men ingen av de undersøkte fjernet SVs kunne bli utpekt som kandidater av høy kvalitet, siden de alle involverte genomiske regioner med lav mappability. Etter bruk denne lese kartlegging kvalitet filter før noen andre filtrering er brukt, antall kalt SVs ble redusert til 85% for intrachromosomal og 36-39% for interchromosomal hendelser (Fig. 3).

disharmonisk leser med kartlegging kvaliteter over 22 brukes for denne analysen (boks).

for ytterligere å redusere antall SV kaller følge av feiljustering av lyder som stammer fra repetitive regioner, testet vi strategien med å fjerne SVs med overlapping med RepeatMasker [27] og den enkle repetisjoner orden på UCSC Genome Browser. Vi fant ut at RepeatMasker strategi reduserer antallet falske positive samtaler betydelig, men filtrerer ut 12% av tidligere validerte rearrangements, inkludert noen med potensial biologisk viktige (f.eks. PTEN sletting). Viktigere, leser kommer fra RepeatMasker annotert regionene er ikke nødvendigvis vanskelig å kartlegge unikt, siden dette sporet inneholder mange gamle gjentatte elementer som har betydelig sin retning gjennom evolusjon. RepeatMasker filter strategi ble til slutt bare brukes til å identifisere høy tillit kandidater blant interchromosomal hendelser med lavt antall støtte lese par. I motsetning til RepeatMasker, ble overlapper med enkle repetisjoner spor funnet å være vellykket i å filtrere ut justeringsfeil relatert falske positiver bare.

Som en annen strategi for å håndtere repeterende element relaterte falske positiver, testet vi effektiviteten av filtrering SVs mot lave mappability regioner, beregnet basert på mappability data av UCSC Genome Browser (se Materialer og metoder). Denne strategien viste seg å meget vellykket, fjerne et betydelig antall falske positive samtaler, spesielt effektiv når det gjelder interchromosomal SVs (Fig. 3).

falske positiver knyttet til feil i Duplicate Calling

I i løpet av analysen, observerte vi falske positiver kalles fra små klynger av 2 eller 3 lese par, med både leser kartlegging ved posisjonene 0-2 bp bort fra hverandre (fig. 6). Som allerede diskutert av andre i området [28] har de fleste av disse «imperfect duplikater» sannsynligvis stammer fra en DNA-fragment og skilt enten under PCR-amplifikasjon, kanskje på grunn av templatkjeden gli, eller sekvenseringsfeil ved begynnelsen eller slutten av lese under sekvense prosedyren. Disse bona fide duplikater kan ikke fjernes ved hjelp av eksisterende verktøy som Picards MarkDuplicates siden de ikke har identiske kartlegging stillinger. Andel av ufullkomne duplikater synes å være korrelert med andelen perfekte PCR duplikater: spesifikke datasett med høy perfekt kopi andelen vil vise høyere prosentandel av ufullkomne duplikater (M. Mijušković, resulterer ikke en del av denne studien)

Tre. les par, sannsynligvis stammer fra en DNA fragment, viser 1-2 bp utlignet i genomisk koordinater.

Vi definerte ufullkomne duplikater som par med samme kartlegging posisjonen både leser med mulig forskjøvet opp til 2 bp. Påvisning av disse duplikatene ble gjort under gruppering av uharmoniske lese par av SVDetect eller breakdancer, ved hjelp av forskjellige strategier (se Materialer og metoder). Etter bruk dette filteret, ble antall intrachromosomal og interchromosomal SVs redusert med 0,3 til 1,7% og 3,9 til 19,5%, henholdsvis (figur 3). Viktigere, kan disse tallene undervurderer den totale ufullkommen kopi prosent siden i dette tilfellet ble de oppdaget etter fjerning lav kartlegging kvalitet lyder.

Validating Structural Varianter

Vi skapte den endelige listen over 61 høye tillit SVs (se Materialer og Metoder) etter manuell undersøkelse av 381 intrachromosomal og 130 interchromosomal SVs oppdaget av SVDetect og 328 intrachromosomal og 64 interchromosomal SVs oppdages av breakdancer oppnådd etter påføring vår filtreringen. De fleste av disse samtalene, kalt av begge programmene, ble funnet å enten være et resultat av justeringsfeil knyttet til repetisjoner (59%), eller tidligere uidentifiserte germline SVS som retroelement eller retrogene innsett (23%). Breakdancer oppdaget bare et delsett av høy tillit SVs funnet av SVDetect (47 av 61), selv før noen filtrering ble brukt, kanskje på grunn av forskjeller i clustering algoritmen.

Vi brukte PCR til å teste 57 intrachromosomal og 4 interchromosomal høy tillit SVs funnet av breakdancer og /eller SVDetect (tabell S1). Fra dette settet, validert vi 23 store (1-539 kb) delesjoner, inversjoner 10, 5 duplikasjoner og 2 translokasjoner som tumor-spesifikke, og spesifisiteten av PCR-produktene ble bekreftet ved Sanger-sekvensering (Tabell 3). Dermed 40 av de 61 høye tillit SVs identifisert av vår metode ble validert som tumor spesifikke SVs. De andre 19 intrachromosomal og to interchromosomal hendelsene ble PCR validert som germline SVs. 16 av 21 av disse SVs hadde minst ett støtte lese par i den opprinnelige styringsdatasettet og mislyktes i å bli detektert på grunn av vår to bære lese cutoff. Disse falske positiver kan unngås enten ved sekvensering av kontrollen datasettet til høyere dekning, når det er mulig, eller å undersøke kontroll datasett ved hjelp av en lese par cutoff.

Blant validerte kreftspesifikke SVs, fant vi flere tumor-suppressor genet slettinger, samt noen forventede kanoniske antigen reseptor genet rearrangements (Tabell 3). Spesielt, to kreftspesifikke trans, to inversjoner og ett validerte kreftspesifikke duplisering viser tegn på en kompleks omorganisering [29].

Konklusjoner

Først viser vårt arbeid at simulerer parvise end sekvensering kan være en effektiv måte å utvikle analysestrategi, spår dekning er nødvendig for å påvise DNA stoppunkter i ulike genomiske miljøer og å skille kilder til falske positive samtalene til prøven relaterte og de som oppstår på grunn av analyse gjenstander.

andre vi har funnet at en styre datasett oppnådd fra det samme dyr er nødvendig for å redusere et stort antall germline SVs som eksisterer mellom vanlig brukte laboratoriemusestammer, selv i tilfeller når dyrene backcrossed et antall ganger for å referanse genomet belastning.

for det tredje har vi definert to typer duplisert leser fører til falsk SV prediksjon, både som følge av PCR over-forsterkning under tillagingen: perfekte duplikater, med matchende genomisk koordinater, og de med 1-2 bp Koordinasjon offset som ikke oppdages ved hjelp av eksisterende verktøy. Vi presenterer en metode for å fjerne SVs følge av de leser ved hjelp av enten SVDetect eller breakdancer.

Fjerde, finner vi at fjerning leser med lav BWA kartlegging kvalitet, samt SV samtaler som overlapper med genomiske regioner med lav mappability, er en veldig effektiv måte å filtrere våre stort antall falske positiver som oppstår på grunn av justeringsfeil.

til slutt, ved hjelp av denne metoden, validert vi et ganske stort antall sanne tumorspesifikke SVs fra en ganske liten datasett. Starter med et stort antall kandidat hendelser, kunne vi raskt forkaste flertallet av falske positive og fokusere på en medgjørlig antall kandidater for manuell analyse (~ 5% av den opprinnelige antall samtaler fra dette datasettet). Vi validert vår filtrering metode med to mest brukte SV deteksjon programmer, SVDetect og breakdancer, som viser at det er allmenn gyldighet, i stedet for å være begrenset til et enkelt program, og dens mulige mangler. Endelig antall kandidat hendelser, så vel som antall falske negativer, er en funksjon av dekning og nivåene av filtreringsparametre. Avhengig av behovene til eksperimentet, kan disse parametrene settes til et ønsket nivå for å oppnå et akseptabelt antall falske positive kontra falske negative.

Vår metode bør være aktuelt for videre arbeid i modellorganismer som vel som i humane tumorer. I den kliniske sammenheng, ville høyere dekning være nødvendig å redusere antall uoppdaget germline SVs, samt å forbedre deteksjonen av lavfrekvente somatiske SVs.

Materialer og metoder

Simula PE Sequencing data

simulert PE sekvense datasett ble laget basert på en mutert mus referanse genom (MM9) inneholder 10 trans og 10 store strykninger innført ved hjelp av preging verktøy (https://emboss.sourceforge.net). Illumina format fastq filer ble skrevet ved hjelp av vår PE.pl program (https://sourceforge.net/projects/svdetection) som velger tilfeldige posisjoner i den bruker gitt genom, normalisert for ulike kromosom lengder. Brukerdefinerte parametrene inkluderer antall leste par, lese lengde, mener innskuddsstørrelse og standardavvik.

Innhenting eksperimentelle data

thymom og leveren (kontroll) vev ble høstet fra en Rag2

c /cp53

– /- mus [22], en 129SvEv /C57BL6 hybrid belastning, og genomisk DNA ble renset ved hjelp av Blood Cell Culture DNA Maxi Kit (Qiagen, # 13362). Parvise end bibliotekene ble generert fra en ug starter genomisk materiale fra både vev ved hjelp TruSeq DNA v2 Sample Prep Kit (Illumina, # FC-121-2001) i henhold til produsentens anbefalinger. Optimal PCR forsterkning av adapter-ligert DNA ble bestemt ved hjelp av en FlashGel DNA System (Lonza, # 57026). Bibliotekene ble analysert for størrelsefordeling ved hjelp av Agilent 2100 Bioanalyzer (Agilent Technologies, # 5067-4626), og DNA-konsentrasjonen ble bestemt ved anvendelse av dsDNA qubit HS-analysesett (Life Technologies, # Q32851). Prøvene ble sekvensert på Illumina HiSeq 2000 ved hjelp TruSeq PE Cluster Kit v3 (Illumina, # PE-401-3001) og TruSeq SBS Kit v3 (Illumina, # FC-401-3002), i henhold til produsentens anbefalinger. To baner ble brukt til å sekvensere svulsten og ett kjørefelt for kontroll DNA-bibliotek (SRA sjonsnummer: SRA055958).

PE Les Justering og kvalitets Filtrering

Fastq filene ble generert ved hjelp casava 1,8 ( Illumina) og leser ble justert ved hjelp BWA [26]. Output filene ble manipulert av Samtools etter behov [30]. Perfekt PCR duplikater ble fjernet ved hjelp av Picards MarkDuplicates verktøy (https://sourceforge.net/apps/mediawiki/picard). BWA-utpekt samstemmige lese par og lese parene med lave BWA kartlegging kvalitetspoeng ble fjernet ved hjelp av vår egen programvare (https://sourceforge.net/projects/svdetection) etter behov.

Ringe Structural Varianter og Fjerne Imperfect duplikater

SVDetect [20] eller Breakdancer [21] ble brukt til å ringe intrachromosomal og interchromosomal rearrangements fra uharmoniske, kvalitet pre-filtrert lese parene. Gjennomsnittlig innskuddsstørrelse og standardavvik brukes i denne analysen ble innhentet av Picards InsertSizeMetrics verktøy (https://sourceforge.net/apps/mediawiki/picard). SVDetect og Breakdancer ble konfigurert til å registrere rearrangements med 2 eller flere som støtter lese parene bruker 8 ganger standardavviket som terskel for både slettinger og duplikasjoner. SVDetect innebygde «sammenlign» -funksjon ble anvendt for sammenligning av tumor og kontrolldatasettene. Når man sammenligner samtalene, ble muligheten for å sammenligne bare den samme SV typen slått av. For SV deteksjon med breakdancer, ble svulsten til normal sammenligning gjøres ved hjelp BEDTools [31].

For å fjerne PCR duplikater med 1-2 bp offset i koordinater ( «ufullkomne duplikater»), vi manipulert utdatafilen opprettet av den SVDetect «linking» funksjon med vår egen programvare (https://sourceforge.net/projects/svdetection). Denne filen lister klynger av lese parene som støtter samme omorganisering og inneholder koordinatene til individuell støtte leser. Par der begge leser er plassert 0, 1 eller 2 basepar fra hverandre, i samme retning, ble fjernet som ufullkomne duplikater. I Breakdancer baserte SV analyse, endret vi minimum SV forankring region innstillingen til tre, for å unngå SVs blir kalt fra klynger av ufullkomne PCR duplikater. Vi har også undersøkt leser støtter SV samtaler i breakdancer-produsert seng filer og brukt vår egen programvare for å fjerne eventuelle SVs resultat av ufullkomne duplikater (https://sourceforge.net/projects/svdetection).

Definere Høy tillit SV kandidater

Strukturelle varianter kalt av SVDetect ble i tillegg filtreres basert på overlapp med lave mappability regioner, enkle repetisjoner og RepeatMasker data hentet fra UCSC Tabell Browser [32]. Overlapping mellom disse regionene og SVDetect lenker ble vurdert ved hjelp av Galaxy verktøy [33], [34], [35]. Lave mappability regioner ble satt sammen som tilstøtende intervaller på 50 bp med Duke kode unikhet scorer mindre enn 0,5 (50 bp sekvensen forekommer mer enn 2 ganger i genomet). SVs med koblinger som overlapper disse regionene ble fjernet, med cut-off på 85% og 50% overlapping for intrachromosomal og interchromosomal hendelser, respektivt. For overlapping med enkle gjentatte regioner, cutoff var 50% eller høyere. RepeatMasker overlapping ble anvendt som et filter bare for interchromosomal hendelser som støttes av 2 eller 3 lese par med cutoff satt til 80%. For intrachromosomal hendelser, ble ytterligere tilpasset filtrering brukes til å fjerne SVs kalles fra lese parene som kommer fra DNA-fragmenter som avviker fra den forventede biblioteket innsatsen størrelse område som ikke ble fjernet av vår standardavvik cutoff. For å veie opp for dette, ble størrelsen sletting cutoff satt til 600 bp og duplisering til 300 bp.

tumorspesifikt SVs kalt av SVDetect og breakdancer slutt ble undersøkt manuelt for å generere en liste av høye tillit kandidater. SVs stammer fra justeringsfeil (relatert til repetitive genomiske regioner), klarte ikke tumor-kontroll sammenligning filtrering, samt germline SVs (retroelement og retrogene innsett) ble fjernet fra listen eller utpekt som lav selvtillit kandidater.

Validation

Legg att eit svar