ISO 20397-2:2021
(Main)Biotechnology — Massively parallel sequencing — Part 2: Quality evaluation of sequencing data
Biotechnology — Massively parallel sequencing — Part 2: Quality evaluation of sequencing data
This document specifies general requirements and recommendations for quality assessments and control of massively parallel sequencing (MPS) data. It covers post raw data generation procedures, sequencing alignments, and variant calling. This document also gives general guidelines for validation and documentation of MPS data. This document does not apply to any processes related to de novo assembly.
Biotechnologie — Séquençage massivement parallèle — Partie 2: Évaluation de la qualité des données de séquençage
Le présent document spécifie les exigences générales et les recommandations applicables à l'évaluation et au contrôle de la qualité des données de séquençage massivement parallèle (SMP). Il traite des modes opératoires faisant suite à la production des données brutes, en incluant la génération des alignements de séquences et la détection des variants. Le présent document fournit également des lignes directrices générales applicables à la validation et à la documentation des données SMP. Le présent document ne s'applique pas aux processus relatifs à l'assemblage de novo.
General Information
Relations
Standards Content (Sample)
INTERNATIONAL ISO
STANDARD 20397-2
First edition
2021-02
Biotechnology — Massively parallel
sequencing —
Part 2:
Quality evaluation of sequencing data
Biotechnologie — Séquençage massivement parallèle —
Partie 2: Évaluation de la qualité des données de séquençage
Reference number
©
ISO 2021
© ISO 2021
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting
on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address
below or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2021 – All rights reserved
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Raw data . 6
4.1 General . 6
4.2 Raw data file . 6
4.3 Quality assessment of raw data . 6
4.3.1 General. 6
4.3.2 Basic statistics . 7
4.3.3 Quality metrics . 7
4.4 Raw data pre-processing . 8
5 Sequence alignment and mapping . 8
5.1 General . 8
5.2 Alignment and mapping file format . 9
5.3 Quality control of sequencing alignment and mapping . 9
5.3.1 Basic alignment statistics . 9
5.3.2 Quality indicators .10
5.3.3 Methods for alignment and mapping quality assessment .11
5.4 Alignment post-processing .11
6 Variant calling .11
6.1 General .11
6.2 Data file for variant calling .11
6.3 Quality metrics in the variant calling .12
6.4 Processing of false positive variants .12
6.5 Sequence annotation .12
7 Validation .12
7.1 General .12
7.2 Validation of quality metrics .13
8 Documentation .14
Annex A (informative) Quality metrics for specific example MPS platforms .15
Annex B (informative) Coverage and read recommendations by applications .16
Annex C (informative) Software for sequence alignment and mapping .18
Bibliography .19
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www .iso .org/ patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the
World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www .iso .org/
iso/ foreword .html.
This document was prepared by Technical Committee ISO/TC 276, Biotechnology
A list of all parts in the ISO 20397 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www .iso .org/ members .html.
iv © ISO 2021 – All rights reserved
Introduction
Massively parallel sequencing (MPS) is a high-throughput analytical approach to nucleic acid sequencing
utilizing massively parallel processing, that allows whole genomes, transcriptomes and specific nucleic
acid targets from different organisms to be investigated in a relatively short time.
MPS is used in many life science disciplines permitting determination and high throughput analysis of
millions and thousands of millions of nucleotide bases. The biological variability of deoxyribonucleic
and ribonucleic acid polymers from living organisms results in challenges in accurately determining
their sequences. The quality of sequence determination by MPS depends on many factors including but
not limited to sample quality, library preparation, platform selection, and sequencing data quality.
The analysis of sequencing data poses significant bioinformatics challenges in various areas such as
data storage, computation time and variant detection accuracy. One of the major challenges associated
with sequencing data that is sometimes easily overlooked is monitoring quality control metrics over
all stages of the data processing pipeline. Knowledge of data quality is essential for downstream
analysis of sequences. Quality control for nucleic acid sequencing data handling and analysis can be
separated into three stages: raw data, alignment and variant calling. This document provides a list of
considerations for quality evaluation of MPS sequencing data, and the specific recommendations for
different MPS platforms.
INTERNATIONAL STANDARD ISO 20397-2:2021(E)
Biotechnology — Massively parallel sequencing —
Part 2:
Quality evaluation of sequencing data
1 Scope
This document specifies general requirements and recommendations for quality assessments and
control of massively parallel sequencing (MPS) data. It covers post raw data generation procedures,
sequencing alignments, and variant calling.
This document also gives general guidelines for validation and documentation of MPS data.
This document does not apply to any processes related to de novo assembly.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminological databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at http:// www .electropedia .org/
3.1
adapter sequence
adapter
artificial oligonucleotide of a known sequence that can be added to the 3’ or 5’ ends of a nucleic acid
fragment
Note 1 to entry: It provides the primer site as well as other necessary sequences for sequencing the insert.
3.2
algorithm
completely determined finite sequence of instructions by which the values of the output variables may
be calculated from the values of the input variables
[SOURCE: IEC 60050-351:2013, 351-42-27, modified — The notes were deleted.]
3.3
base calling
computational process in massively parallel sequencing of translating raw electrical signals to
nucleotide sequence
Note 1 to entry: Base calling application and algorithm performance is characteristically defined by read and
consensus accuracy.
3.4
bioinformatics pipeline
individual programs, scripts, or pieces of software linked together, where raw data or output from one
program is used as input for the next step in data processing
EXAMPLE The output from a base quality trimming program may be used as input to a de-novo assembler.
3.5
capture efficiency
percent of all sequenced or mapped reads that overlap the targeted regions
3.6
coverage
coverage depth
number of times that a given base position is read in a sequencing run
Note 1 to entry: The number of reads that cover a particular position.
3.7
coverage breadth
fraction of the genome in assembled/target genome size in sequencing runs
3.8
cluster density
number of clusters for each tile
Note 1 to entry: The cluster density applied to the MPS (3.30) platforms requires an amplification step.
Note 2 to entry: The density of individual sequence clusters, each arising from a single molecule on some
sequencing platforms.
Note 3 to entry: Cluster density is usually expressed in thousands per mm .
3.9
CCS
circular consensus sequencing
sequencing mode where the insert size is sequen
...
NORME ISO
INTERNATIONALE 20397-2
Première édition
2021-02
Biotechnologie — Séquençage
massivement parallèle —
Partie 2:
Évaluation de la qualité des données
de séquençage
Biotechnology — Massively parallel sequencing —
Part 2: Quality evaluation of sequencing data
Numéro de référence
©
ISO 2021
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2021
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii © ISO 2021 – Tous droits réservés
Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Données brutes . 6
4.1 Généralités . 6
4.2 Fichier de données brutes . 7
4.3 Évaluation de la qualité des données brutes . 7
4.3.1 Généralités . 7
4.3.2 Statistiques élémentaires . 7
4.3.3 Mesures de qualité . 7
4.4 Prétraitement des données brutes . 8
5 Alignement et cartographie des séquences . 9
5.1 Généralités . 9
5.2 Format des fichiers d’alignement et de cartographie . 9
5.3 Contrôle qualité de l’alignement et de la cartographie des séquences .10
5.3.1 Statistiques sur les alignements de base .10
5.3.2 Indicateurs de qualité .11
5.3.3 Méthodes d’évaluation de la qualité d’alignement et de cartographie .12
5.4 Post-traitement de l’alignement .12
6 Détection de variants .12
6.1 Généralités .12
6.2 Fichier de données pour la détection de variants .12
6.3 Mesures de qualité lors de la détection de variants . .12
6.4 Traitement des variants faux-positifs .13
6.5 Annotation de séquences .13
7 Validation .13
7.1 Généralités .13
7.2 Validation des mesures de qualité .14
8 Documentation .15
Annexe A (informative) Mesures de qualité applicables aux plateformes SMP .16
Annexe B (informative) Recommandations applicables à la couverture et aux lectures en
fonction des applications .17
Annexe C (informative) Logiciel d’alignement et de cartographie des séquences .19
Bibliographie .20
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes
nationaux de normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est
en général confiée aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l'ISO participent également aux travaux.
L'ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents
critères d'approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www
.iso .org/ directives).
L'attention est attirée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l'élaboration du document sont indiqués dans l'Introduction et/ou dans la liste des déclarations de
brevets reçues par l'ISO (voir www .iso .org/ brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l'ISO liés à l'évaluation de la conformité, ou pour toute information au sujet de l'adhésion
de l'ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles
techniques au commerce (OTC), voir www .iso .org/ avant -propos.
Le présent document a été élaboré par le Comité technique ISO/TC 276, Biotechnologie.
Une liste de toutes les parties de la série ISO 20397 se trouve sur le site web de l'ISO.
Il convient que l'utilisateur adresse tout retour d'information ou toute question concernant le présent
document à l'organisme national de normalisation de son pays. Une liste exhaustive desdits organismes
se trouve à l'adresse www .iso .org/ members .html.
iv © ISO 2021 – Tous droits réservés
Introduction
Le séquençage massivement parallèle (SMP) est une approche analytique de séquençage de l’acide
nucléique à haut débit qui utilise un traitement massivement parallèle pour étudier des génomes
entiers, des transcriptomes et des séquences ciblées d’acides nucléiques de différentes origines, en un
laps de temps relativement court.
Le SMP est utilisé dans de nombreux domaines des sciences de la vie. Il permet une détermination et
une analyse à haut débit de milliards de nucléotides. Du fait de la variabilité biologique des polymères
d’acide désoxyribonucléique et d’acide ribonucléique à travers le vivant, la détermination précise de
leurs séquences constitue un véritable défi. La qualité des séquences générées par SMP dépend de
nombreux facteurs, notamment, entre autres, la qualité de l’échantillon, la préparation de la banque, le
choix de la plateforme de lecture et la qualité des données de séquençage.
L’analyse des données de séquençage peut représenter de véritables défis bio-informatiques liés
au stockage des données, au temps de calcul et à la précision de détection des variants. L’une des
principales difficultés associées aux données de séquençage, trop souvent négligée, porte sur les
mesures de contrôle qualité à tous les stades du pipeline de traitement des données, alors mêmes qu’ils
sont essentiels à toute l’analyse en aval des données de séquences. Le contrôle qualité applicable au
traitement et à l’analyse des données de séquençage de l’acide nucléique concerne trois niveaux distincts:
données brutes, alignement et détection des variants. Le présent document fournit une liste d’éléments
à prendre en compte lors de l'évaluation de la qualité des données de séquençage massivement parallèle,
ainsi que les recommandations spécifiques à différentes plateformes SMP.
NORME INTERNATIONALE ISO 20397-2:2021(F)
Biotechnologie — Séquençage massivement parallèle —
Partie 2:
Évaluation de la qualité des données de séquençage
1 Domaine d’application
Le présent document spécifie les exigences générales et les recommandations applicables à l'évaluation
et au contrôle de la qualité des données de séquençage massivement parallèle (SMP). Il traite des modes
opératoires faisant suite à la production des données brutes, en incluant la génération des alignements
de séquences et la détection des variants.
Le présent document fournit également des lignes directrices générales applicables à la validation et à
la documentation des données SMP.
Le présent document ne s’applique pas aux processus relatifs à l’assemblage de novo.
2 Références normatives
Le présent document ne contient aucune référence normative.
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en
normalisation, consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse http:// www .electropedia .org/
3.1
séquence d’adaptateur
adaptateur
oligonucléotide artificiel d’une séquence connue qui peut être ajouté aux extrémités 3’ ou 5’ d’un
fragment d’acide nucléique
Note 1 à l'article: Il fournit le site d’amorçage ainsi que les autres séquences nécessaires au séquençage de l’insert.
3.2
algorithme
séquence finie d'instructions complètement déterminée par laquelle les valeurs des variables de sortie
peuvent être calculées à partir des valeurs des variables d’entrée
[SOURCE: IEC 60050-351:2013, 351-42-27, modifiée — Les notes ont été supprimées.]
3.3
détection de bases
lors du séquençage massivement parallèle, processus de calcul consistant à traduire les signaux
électriques bruts en séquence nucléotidique
Note 1 à l'article: La performance de l’application de détection de bases et de l’algorithme est caractéristiquement
définie par une précision de lecture et un consensus.
3.4
pipeline bio-informatique
suite de programmes individuels, scripts ou briques logicielles liés entr
...
Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.