Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes

H Bjørn Nielsen; Mathieu Almeida; Agnieszka Sierakowska Juncker; Simon Rasmussen; Junhua Li; Shinichi Sunagawa; Damian R Plichta; Laurent Gautier; Anders G Pedersen; Emmanuelle Le Chatelier; Eric Pelletier; Ida Bonde; Trine Nielsen; Chaysavanh Manichanh; Manimozhiyan Arumugam; Jean-Michel Batto; Marcelo B Quintanilha Dos Santos; Nikolaj Blom; Natalia Borruel; Kristoffer S Burgdorf; Fouad Boumezbeur; Francesc Casellas; Joël Doré; Piotr Dworzynski; Francisco Guarner; Torben Hansen; Falk Hildebrand; Rolf S Kaas; Sean Kennedy; Karsten Kristiansen; Jens Roat Kultima; Pierre Léonard; Florence Levenez; Ole Lund; Bouziane Moumen; Denis Le Paslier; Nicolas Pons; Oluf Pedersen; Edi Prifti; Junjie Qin; Jeroen Raes; Søren Sørensen; Julien Tap; Sebastian Tims; David W Ussery; Takuji Yamada; MetaHIT Consortium; Pierre Renault; Thomas Sicheritz-Ponten; Peer Bork; Jun Wang; Søren Brunak; S Dusko Ehrlich; MetaHIT Consortium

doi:10.1038/nbt.2939

Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes

Nat Biotechnol. 2014 Aug;32(8):822-8. doi: 10.1038/nbt.2939. Epub 2014 Jul 6.

Authors

H Bjørn Nielsen¹, Mathieu Almeida², Agnieszka Sierakowska Juncker³, Simon Rasmussen⁴, Junhua Li⁵, Shinichi Sunagawa⁶, Damian R Plichta⁴, Laurent Gautier⁴, Anders G Pedersen⁴, Emmanuelle Le Chatelier⁷, Eric Pelletier⁸, Ida Bonde³, Trine Nielsen⁹, Chaysavanh Manichanh¹⁰, Manimozhiyan Arumugam¹¹, Jean-Michel Batto⁷, Marcelo B Quintanilha Dos Santos⁴, Nikolaj Blom¹², Natalia Borruel¹⁰, Kristoffer S Burgdorf⁹, Fouad Boumezbeur⁷, Francesc Casellas¹⁰, Joël Doré⁷, Piotr Dworzynski⁴, Francisco Guarner¹⁰, Torben Hansen¹³, Falk Hildebrand¹⁴, Rolf S Kaas¹⁵, Sean Kennedy⁷, Karsten Kristiansen¹⁶, Jens Roat Kultima⁶, Pierre Léonard⁷, Florence Levenez⁷, Ole Lund⁴, Bouziane Moumen⁷, Denis Le Paslier⁸, Nicolas Pons⁷, Oluf Pedersen¹⁷, Edi Prifti⁷, Junjie Qin¹⁸, Jeroen Raes¹⁹, Søren Sørensen²⁰, Julien Tap⁶, Sebastian Tims²¹, David W Ussery⁴, Takuji Yamada²²; MetaHIT Consortium; Pierre Renault²³, Thomas Sicheritz-Ponten³, Peer Bork²⁴, Jun Wang²⁵, Søren Brunak³, S Dusko Ehrlich²⁶; MetaHIT Consortium

Collaborators

H Bjørn Nielsen, Mathieu Almeida, Agnieszka S Juncker, Simon Rasmussen, Junhua Li, Shinichi Sunagawa, Damian R Plichta, Laurent Gautier, Anders G Pedersen, Emmanuelle Le Chatelier, Eric Pelletier, Ida Bonde, Trine Nielsen, Chaysavanh Manichanh, Manimozhiyan Arumugam, Jean-Michel Batto, Marcelo B Quintanilha Dos Santos, Nikolaj Blom, Natalia Borruel, Kristoffer S Burgdorf, Fouad Boumezbeur, Francesc Casellas, Joël Doré, Piotr Dworzynski, Francisco Guarner, Torben Hansen, Falk Hildebrand, Rolf S Kaas, Sean Kennedy, Karsten Kristiansen, Jens Roat Kultima, Pierre Leonard, Florence Levenez, Ole Lund, Bouziane Moumen, Denis Le Paslier, Nicolas Pons, Oluf Pedersen, Edi Prifti, Junjie Qin, Jeroen Raes, Søren Sørensen, Julien Tap, Sebastian Tims, David W Ussery, Takuji Yamada, Pierre Renault, Thomas Sicheritz-Ponten, Peer Bork, Jun Wang, Søren Brunak, S Dusko Ehrlich, Alexandre Jamet, Alexandre Mérieux, Antonella Cultrone, Antonio Torrejon, Benoit Quinquis, Christian Brechot, Christine Delorme, Christine M'Rini, Willem M de Vos, Emmanuelle Maguin, Encarna Varela, Eric Guedon, Falony Gwen, Florence Haimet, François Artiguenave, Gaetana Vandemeulebrouck, Gérard Denariaz, Ghalia Khaci, Hervé Blottière, Jan Knol, Jean Weissenbach, Johan E T van Hylckama Vlieg, Jørgensen Torben, Julian Parkhill, Keith Turner, Maarten van de Guchte, Maria Antolin, Maria Rescigno, Michiel Kleerebezem, Muriel Derrien, Nathalie Galleron, Nicolas Sanchez, Niels Grarup, Patrick Veiga, Raish Oozeer, Rozenn Dervyn, Séverine Layec, Thomas Bruls, Yohanan Winogradski, Zoetendal Erwin G

Affiliations

¹ 1] Center for Biological Sequence Analysis, Technical University of Denmark, Kongens Lyngby, Denmark. [2] Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kongens Lyngby, Denmark. [3].
² 1] INRA, Institut National de la Recherche Agronomique, UMR 14121 MICALIS, Jouy en Josas, France. [2] INRA, Institut National de la Recherche Agronomique, US 1367 Metagenopolis, Jouy en Josas, France. [3] Department of Computer Science, Center for Bioinformatics and Computational Biology, University of Maryland, USA. [4].
³ 1] Center for Biological Sequence Analysis, Technical University of Denmark, Kongens Lyngby, Denmark. [2] Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kongens Lyngby, Denmark.
⁴ Center for Biological Sequence Analysis, Technical University of Denmark, Kongens Lyngby, Denmark.
⁵ 1] BGI Hong Kong Research Institute, Hong Kong, China. [2] BGI-Shenzhen, Shenzhen, China. [3] School of Bioscience and Biotechnology, South China University of Technology, Guangzhou, China.
⁶ European Molecular Biology Laboratory, Heidelberg, Germany.
⁷ 1] INRA, Institut National de la Recherche Agronomique, UMR 14121 MICALIS, Jouy en Josas, France. [2] INRA, Institut National de la Recherche Agronomique, US 1367 Metagenopolis, Jouy en Josas, France.
⁸ 1] Commissariat à l'Énergie Atomique et aux Énergies Alternatives, Institut de Génomique, Évry, France. [2] Centre National de la Recherche Scientifique, Évry, France. [3] Université d'Évry Val d'Essonne, Évry, France.
⁹ The Novo Nordisk Foundation Center for Basic Metabolic Research, University of Copenhagen, Copenhagen, Denmark.
¹⁰ Digestive System Research Unit, University Hospital Vall d'Hebron, Ciberehd, Barcelona, Spain.
¹¹ 1] BGI-Shenzhen, Shenzhen, China. [2] European Molecular Biology Laboratory, Heidelberg, Germany. [3] The Novo Nordisk Foundation Center for Basic Metabolic Research, University of Copenhagen, Copenhagen, Denmark.
¹² Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kongens Lyngby, Denmark.
¹³ 1] The Novo Nordisk Foundation Center for Basic Metabolic Research, University of Copenhagen, Copenhagen, Denmark. [2] Faculty of Health Sciences, University of Southern Denmark, Odense, Denmark.
¹⁴ 1] Department of Structural Biology, VIB, Brussels, Belgium. [2] Department of Bioscience Engineering, Vrije Universiteit, Brussels, Belgium.
¹⁵ National Food Institute, Division for Epidemiology and Microbial Genomics, Technical University of Denmark, Kongens Lyngby, Denmark.
¹⁶ 1] BGI-Shenzhen, Shenzhen, China. [2] Department of Biology, University of Copenhagen, Copenhagen, Denmark.
¹⁷ 1] The Novo Nordisk Foundation Center for Basic Metabolic Research, University of Copenhagen, Copenhagen, Denmark. [2] Hagedorn Research Institute, Gentofte, Denmark. [3] Institute of Biomedical Science, Faculty of Health and Medical Sciences, University of Copenhagen, Copenhagen, Denmark. [4] Faculty of Health, Aarhus University, Aarhus, Denmark.
¹⁸ 1] BGI Hong Kong Research Institute, Hong Kong, China. [2] BGI-Shenzhen, Shenzhen, China.
¹⁹ 1] Department of Bioscience Engineering, Vrije Universiteit, Brussels, Belgium. [2] Department of Microbiology and Immunology, Rega Institute, KU Leuven, Belgium. [3] VIB Center for the Biology of Disease, Leuven, Belgium.
²⁰ Section of Microbiology, Department of Biology, University of Copenhagen, Copenhagen, Denmark.
²¹ Laboratory of Microbiology, Wageningen University, Wageningen, The Netherlands.
²² 1] European Molecular Biology Laboratory, Heidelberg, Germany. [2] Department of Biological Information, Tokyo Institute of Technology, Yokohama, Japan.
²³ INRA, Institut National de la Recherche Agronomique, UMR 14121 MICALIS, Jouy en Josas, France.
²⁴ 1] European Molecular Biology Laboratory, Heidelberg, Germany. [2] Max Delbrück Centre for Molecular Medicine, Berlin, Germany.
²⁵ 1] BGI-Shenzhen, Shenzhen, China. [2] The Novo Nordisk Foundation Center for Basic Metabolic Research, University of Copenhagen, Copenhagen, Denmark. [3] Department of Biology, University of Copenhagen, Copenhagen, Denmark. [4] Princess Al Jawhara Center of Excellence in the Research of Hereditary Disorders, King Abdulaziz University, Jeddah, Saudi Arabia.
²⁶ 1] INRA, Institut National de la Recherche Agronomique, UMR 14121 MICALIS, Jouy en Josas, France. [2] INRA, Institut National de la Recherche Agronomique, US 1367 Metagenopolis, Jouy en Josas, France. [3] King's College London, Centre for Host-Microbiome Interactions, Dental Institute Central Office, Guy's Hospital, United Kingdom.

PMID: 24997787
DOI: 10.1038/nbt.2939

Abstract

Most current approaches for analyzing metagenomic data rely on comparisons to reference genomes, but the microbial diversity of many environments extends far beyond what is covered by reference databases. De novo segregation of complex metagenomic data into specific biological entities, such as particular bacterial strains or viruses, remains a largely unsolved problem. Here we present a method, based on binning co-abundant genes across a series of metagenomic samples, that enables comprehensive discovery of new microbial organisms, viruses and co-inherited genetic entities and aids assembly of microbial genomes without the need for reference sequences. We demonstrate the method on data from 396 human gut microbiome samples and identify 7,381 co-abundance gene groups (CAGs), including 741 metagenomic species (MGS). We use these to assemble 238 high-quality microbial genomes and identify affiliations between MGS and hundreds of viruses or genetic entities. Our method provides the means for comprehensive profiling of the diversity within complex metagenomic samples.

Publication types

Research Support, Non-U.S. Gov't

MeSH terms

Cluster Analysis
Databases, Genetic
Metagenomics*