ISO 9241-154:2013
(Main)Ergonomics of human-system interaction — Part 154: Interactive voice response (IVR) applications
Ergonomics of human-system interaction — Part 154: Interactive voice response (IVR) applications
ISO 9241-154:2013 gives guidance on, and requirements for, the user interface design of interactive voice response (IVR) applications. It covers both IVR systems that employ touchtone input and those using automated speech recognition (ASR) as the input mechanism. It is equally applicable to cases in which the caller or the IVR system itself (e.g. in some telemarketing applications) initiates the call. It is intended to be used together with ISO/IEC 13714.
Ergonomie de l'interaction homme-système — Partie 154: Applications de serveur vocal interactif (SVI)
L'ISO 9241-154:2013 présente des recommandations et des exigences relatives à la conception de l'interface utilisateur des applications de serveur vocal interactif (SVI). Elle couvre à la fois les systèmes SVI qui utilisent l'entrée de touches et ceux utilisant la reconnaissance automatisée de la parole (RAP) comme un mécanisme d'entrée. Elle est également applicable aux cas où l'appelant ou le système SVI lui-même (par exemple, dans certaines applications de télémarketing) lance l'appel. Elle est destinée à être utilisée conjointement avec l'ISO/CEI 13714.
General Information
Relations
Standards Content (Sample)
INTERNATIONAL ISO
STANDARD 9241-154
First edition
2013-02-01
Ergonomics of human-system
interaction —
Part 154:
Interactive voice response (IVR)
applications
Ergonomie de l’interaction homme-système —
Partie 154: Applications de réponse vocale interactive (RVI)
Reference number
©
ISO 2013
© ISO 2013
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized otherwise in any form
or by any means, electronic or mechanical, including photocopying, or posting on the internet or an intranet, without prior
written permission. Permission can be requested from either ISO at the address below or ISO’s member body in the country of
the requester.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2013 – All rights reserved
Contents Page
Foreword .v
Introduction .vii
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Conformance . 7
5 Voice messaging systems . 8
6 Information input . 8
6.1 General . 8
6.2 Informing text telephone users of acceptable input types . 8
6.3 Non-duplication of information input . 8
6.4 Using system information to improve efficiency . 8
6.5 Changing information that has been entered . 9
7 Speech input . 9
7.1 Vocabulary choices for speech-enabled IVRs . 9
7.2 Phonetically distinct vocabulary in speech-enabled IVR applications . 9
7.3 State-specific grammar . 9
7.4 Synonyms in grammars . 9
7.5 Use of dynamic grammars .10
7.6 Enrolment .10
7.7 End-pointing and turn-taking .10
7.8 Handling time-outs for speech input .10
7.9 Speech IVRs with touchtone .11
8 Touchtone input .11
8.1 Indicating touchtone capability .11
8.2 Key assignment for delimiters .11
8.3 Pound (“#”) key in fixed length data entry .11
8.4 Handling time-outs for variable length touchtone input .11
8.5 Key assignments for affirmative and negative responses .11
8.6 Key assignment for the human “help” function .12
8.7 Minimization of caller key presses .12
9 Information output .12
9.1 General provisions for prompts and announcements.12
9.2 Construction of prompts and announcements .15
10 Navigation .19
10.1 Skip-forward function .19
10.2 Dial-through and talk-through .19
10.3 Dial-ahead and talk-ahead .20
10.4 Global commands .20
10.5 Barge-in as a default .20
10.6 Restricting barge-in .20
11 Help .20
11.1 Context-sensitive help .20
11.2 Caller-selectable help .20
11.3 Referencing help in initial prompt .21
11.4 Help commands .21
11.5 System-initiated help .21
12 Access to human representatives .21
12.1 General .21
12.2 Equal access .21
12.3 Prompting access .21
12.4 Initiating transfer .22
12.5 Delays in access .22
12.6 Assistance from human representatives .22
12.7 Human help not available .23
13 Feedback .23
13.1 General .23
13.2 Feedback to caller input .23
13.3 Feedback following selection of unavailable options .23
13.4 System response time .23
13.5 Appropriate context for feedback messages .23
13.6 Landmarks .24
13.7 Confirmation dialogues .24
13.8 Intelligent use of confirmation rejections .25
13.9 Additional feedback in delay situations .26
13.10 Managing extended hold situations .26
13.11 Suggesting that the caller call back .26
14 Errors .26
14.1 General .26
14.2 Unavailability of service .26
14.3 Input prompt repetitions .27
14.4 Error message content .27
14.5 Two consecutive input entry errors in touchtone-based IVRs .27
14.6 Two or more consecutive input entry errors in speech-enabled IVRs .27
14.7 Handling of numerous errors .27
14.8 Avoiding pejorative wording in error messages .27
14.9 Critical messages .28
14.10 Error recovery .28
14.11 Disconnection messages .28
14.12 Exiting due to exceeding error limit .28
14.13 Referencing help .28
14.14 Error prompt wording .28
14.15 Cueing the caller about desired speech input .28
14.16 Conversational repair .28
14.17 Handling too much speech input .29
14.18 Mentioning touchtone options for speech IVRs .29
Annex A (informative) Overview of the ISO 9241 series .30
Annex B (informative) The role of speech recognition errors in IVR design .31
Bibliography .34
iv © ISO 2013 – All rights reserved
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International
Standards adopted by the technical committees are circulated to the member bodies for voting.
Publication as an International Standard requires approval by at least 75 % of the member bodies
casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 9241-154 was prepared by Technical Committee ISO/TC 159, Ergonomics, Subcommittee SC 4,
Ergonomics of human–system interaction.
ISO/TS 9241 consists of the following parts, under the general title Ergonomic requirements for office
work with visual display terminals (VDTs):
— Part 1: General introduction
— Part 2: Guidance on task requirements
— Part 5: Workstation layout and postural requirements
— Part 6: Guidance on the work environment
— Part 11: Guidance on usability
— Part 12: Presentation of information
— Part 13: User guidance
— Part 14: Menu dialogues
— Part 15: Command dialogues
— Part 16: Direct manipulation dialogues
ISO 9241 also consists of the following parts, under the general title Ergonomics of human-system interaction:
— Part 20: Accessibility guidelines for information/communication technology (ICT) equipment and services
— Part 100: Introduction to standards related to software ergonomics [Technical Report]
— Part 110: Dialogue principles
— Part 129: Guidance on software individualization
— Part 143: Forms
— Part 151: Guidance on World Wide Web user interfaces
— Part 154: Interactive voice response (IVR) applications
— Part 171: Guidance on software accessibility
— Part 210: Human-centred design for interactive systems
— Part 300: Introduction to electronic visual display requirements
— Part 302: Terminology for electronic visual displays
— Part 303: Requirements for electronic visual displays
— Part 304: User performance test methods for electronic visual displays
— Part 305: Optical laboratory test methods for electronic visual displays
— Part 306: Field assessment methods for electronic visual displays
— Part 307: Analysis and compliance test methods for electronic visual displays
— Part 308: Surface-conduction electron-emitter displays (SED) [Technical Report]
— Part 309: Organic light-emitting diode (OLED) displays [Technical Report]
— Part 310: Visibility, aesthetics and ergonomics of pixel defects [Technical Report]
— Part 331: Optical characteristics of autosterescopic displays [Technical Report]
— Part 391: Requirements, analysis and compliance test methods for the reduction of photosensitive seizures
— Part 400: Principles and requirements for physical input devices
— Part 410: Design criteria for physical input devices
— Part 411: Evaluation methods for the design of physical input devices [Technical Specification]
— Part 420: Selection of physical input devices
— Part 910: Framework for tactile and haptic interaction
— Part 920: Guidance on tactile and haptic interactions
The following parts are under preparation:
— Part 940: Evaluation of tactile and haptic interactions
User-interface elements, ergonomic requirements for the reduction of visual fatigue from stereoscopic
images, and framework and guidance for gesture interactions are to form the subjects of future parts
161, 392 and 960.
vi © ISO 2013 – All rights reserved
Introduction
This part of ISO 9241 contains provisions specific to interactive voice response (IVR) systems, which
may involve a combination of voice technologies, but are distinguished by the use of the telephone as the
information transfer mechanism. These provisions assume no visual displays of information to the user
beyond the labels on the telephone’s keypad, with the notable exception of text telephones (TTYs), which
have a visual feedback display.
Although it is extremely important that IVR user interface designers take into account the cultural
and linguistic aspects of the user interface that impact the intended user population, these aspects are
beyond the scope of this part of ISO 9241 and are not addressed in this part of ISO 9241 . Similarly, because
automatic speech recognition (ASR) performs differently for different languages and the technology
continues to improve, it is beyond the scope of this document to provide detailed provisions on ASR user
interface design generally. Rather, this part of ISO 9241 focuses on the design of IVR dialogues and
discusses only those ASR user interface design issues that impact dialogue design.
Many current IVR systems pose significant accessibility challenges to callers with disabilities. Some of
the provisions in this part of ISO 9241 were developed specifically to accommodate callers with special
needs, particularly those who are deaf or who have hearing impairments.
The provisions in this document are intended to be compatible with ISO/IEC 13714.
Interactive voice response (IVR) systems became a common means of delivering customer service
in the late 1980s. These systems are designed to reduce or eliminate the need for human-in-the-loop
customer support by automating many of the functions that human customer service representatives
typically provide over the telephone with respect to processing of customer transactions. Thus, users
(i.e. callers) can now engage in such activities as checking train schedules, ordering a book or reporting
problems with their television cable service by interacting with an IVR system. In addition, IVRs often
automate call-routing functions so that the caller can be connected with the right assistance to handle
their specific request.
This part of ISO 9241 is concerned with the design of the human–IVR system dialogue and related topics.
As shown in Figure 1, callers typically interact with the IVR system through one of two methods: speech
or touchtone (DTMF) input via the telephone keypad. If an IVR system is speech-enabled, it employs
an ASR engine that recognizes the speech input from the caller. If it is not speech-enabled, it typically
recognizes only touchtone input from the telephone keypad or, sometimes, TTY input. Speech-enabled
IVR systems are a relatively recent development and many systems are now designed to accept both
touchtone and speech within a given dialogue with a caller. The IVR system responds via hardware
and/or software that presents synthesized, digitized or recorded speech to the caller and that may also
present non-speech audio. The fact that there is no assumed visual display of information to the caller
in these applications poses a challenge to dialogue designers because of the burden placed on the caller
to navigate the application and process and remember the relevant information without the aid of any
visual display.
Figure 1 — IVR system representation
This part of ISO 9241 provides provisions for the design of IVR dialogues in speech-enabled and touchtone-
based IVR systems. Therefore, its focus is on the interface between the caller and IVR software and
application databases, which is mediated by the hardware and software that recognize speech and/or
touchtones, and which present speech output to the caller. Both ASR systems and DTMF recognizers place
constraints on the design of IVR dialogues and those constraints have been considered in developing the
provisions of this part of ISO 9241. However, this document is not intended to address the design of ASR
or DTMF user interfaces generally, for two reasons: first, the technology, particularly for ASR systems,
is still evolving, and second, many ASR user interfaces are designed to include a visual display (e.g.
ASR dictation applications), which IVR applications are not assumed to have.
Lastly, most of the provisions for speech-enabled dialogues are intended for use with grammar-based
IVRs. Although some of the same principles apply to natural language systems (i.e. applications that
use statistical language models), detailed design provisions are not included for these applications in
this part of ISO 9241 because natural language understanding is implemented via a distinct technology
and the use of natural language in speech-enabled IVRs is still evolving. There are also some aspects of
applications design that are different for natural language dialogues, relative to grammar-based ones, in
addition to the differences in dialogue design that relate to speech recognizers specifically.
viii © ISO 2013 – All rights reserved
INTERNATIONAL STANDARD ISO 9241-154:2013(E)
Ergonomics of human-system interaction —
Part 154:
Interactive voice response (IVR) applications
1 Scope
This part of ISO 9241 gives guidance on, and requirements for, the user interface design of interactive
voice response (IVR) applications. It covers both IVR systems that employ touchtone input and those
using automated speech recognition (ASR) as the input mechanism. It is equally applicable to cases in
which the caller or the IVR system itself (e.g. in some telemarketing applications) initiates the call.
This part of ISO 9241 is intended to be used together with ISO/IEC 13714.
NOTE Its scope is thus more general than that of ISO/IEC 13714, which is specific to voice messaging systems.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO/IEC 13714, Information technology — Document processing and related communication — User
interface to telephone-based services — Voice messaging applications
ITU-T E 161, Arrangement of digits, letters and symbols on telephones and other devices that can be used for
gaining access to a telephone network
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
3.1
announcement
message presented by the IVR to the caller, which informs but does not instruct the caller to act
Note 1 to entry: Some industry standards do not distinguish between announcements and prompts and consider
all system-originated messages to be prompts.
Note 2 to entry: Prompts specifically instruct the caller except for subsequent input from the caller (see 3.33).
3.2
automatic speech recognition
automated speech recognition
ASR
conversion of spoken words to machine-readable input
3.3
barge-in
capability of an IVR system to accept input while a prompt (or an announcement) is being played
Note 1 to entry: The playback of speech ceases immediately and the system responds to the input of the caller.
Note 2 to entry: See dial-through (3.13) and talk-through (3.43). The term “barge-in” is synonymous with the term
“dial-through” for systems employing touchtone input. It is also synonymous with “talk-through” for systems
accepting speech input.
3.4
caller
user who calls for or is called by a service, gets connected to the IVR system, and interacts with it
Note 1 to entry: In an IVR system the caller is considered to be synonymous with the user.
3.5
coaching
instructions to the speakers of the prompts and announcements (also known as the voice talent) about
desired subtleties in the prompt recordings
3.6
concatenated prompts
prompts or announcements constructed by stringing together several individual prompts or
announcements
Note 1 to entry: Concatenated prompts are usually employed for the presentation of information that is dynamic
or context-specific.
3.7
confidence level
commitment with which the speech recognition system returns a recognition result for a given input
Note 1 to entry: See confidence score (3.8).
Note 2 to entry: Confidence levels are often defined by ranges of confidence scores, which are usually classified
as High, Medium and Low. Ranges are then used to trigger certain IVR responses, including acceptance, rejection
or confirmation of caller speech.
3.8
confidence score
score assigned by the ASR system indicating its degree of confidence that it correctly recognized the
caller’s utterance
Note 1 to entry: For every caller input, the ASR system returns a list of potential candidate words or phrases with
a numeric score representing the hypothesized probability of correctness.
3.9
continuous speech recognition
speech recognition that allows continuous input of words or phrases
Note 1 to entry: No minimum duration of silence is required at the beginning or end of words or phrases (other
than the pauses generally occurring in natural speech patterns). Contrast with “Discrete speech recognition”.
3.10
conversational repair
capability of an IVR system to resolve a conversational breakdown that occurs due to a speech or
touchtone input error, by making use of subsequent input by the caller to determine the appropriate
next step in the dialogue
EXAMPLE The caller in a travel arrangements application, when asked his destination, says “Buffalo”. The
IVR system replies, “You want to go to Chicago, correct?” In response, the caller says, “No, Buffalo.” If the system
employs conversational repair, it would be able to determine that the caller has provided “corrective” input and
would attempt to recognize that input and use it to move the dialogue along. Its response might then be. “Oh, you
meant Buffalo. I’m sorry. When would you like to depart?” rather than asking the caller the same initial question
again (i.e. “Where do you want to go?”).
2 © ISO 2013 – All rights reserved
3.11
deletion error
instance of a recognition error where part of a speaker’s utterance is incorrectly omitted in the speech
recognizer’s output
3.12
dial-ahead
capability of an IVR system to accept touchtone input before the system has requested it
Note 1 to entry: The touchtone input is then used by the system based on the order in which the input was received.
This allows callers to provide input without having to listen to the associated input prompts.
Note 2 to entry: See talk-ahead (3.42).
3.13
dial-through
capability in a touchtone-based IVR system to accept caller input while a prompt (or an announcement)
is being played
Note 1 to entry: See talk-through (3.43) and barge-in (3.3).
Note 2 to entry: In response to dial-through, the playback of speech ceases and the system responds to the key
that was pressed.
3.14
digitized speech
digital recording of human speech
Note 1 to entry: Contrast with synthesized speech (3.40), recorded speech (3.35) and text-to-speech (3.45).
3.15
discourse marker
word, phrase or sound that is used as an indication to the caller that a new prompt or announcement is
starting or that the caller is now expected to provide input
Note 1 to entry: Common discourse markers are “okay,” “alright,” and “now.”
3.16
discrete speech recognition
speech recognition that requires a silence of some minimum duration at the beginning and at the end of
the word or phrase to be recognized, to allow proper parsing of speech input
Note 1 to entry: Contrast with continuous speech recognition (3.9).
3.17
dual tone multiple frequency
DTMF
touchtones of the contemporary telephone keypad
3.18
dynamic grammar
grammar which is not predetermined and that is used for speech recognition
EXAMPLE A caller is asked to speak a prescription number for refill and the grammar is composed of only
that caller’s prescription numbers, not all possible numeric combinations.
Note 1 to entry: It is usually created in real-time based on variable data.
3.19
end-pointing
process intended to detect the beginning and end of speech input
Note 1 to entry: In IVR the beginning of speech is typically referred to as onset and the ending of speech is typically
referred to as offset.
3.20
enrolment
procedure by which callers provide training input for speaker-dependent speech recognition systems
that require training before they can be used
3.21
explicit confirmation
method whereby the caller is prompted to confirm his or her input to an IVR system
Note 1 to entry: Contrast with implicit confirmation.
3.22
grammar
body of syntactic, and sometimes morphologic, rules defining all caller utterances that are covered by
the speech recognition system
Note 1 to entry: The grammar specifies the input that is recognized by the application.
3.23
implicit confirmation
method of confirming the caller’s input to an IVR system in which the IVR system responds to that input
as if the input was correct
EXAMPLE 1 If a caller inputs “balance” to indicate that she wants the system to give her the balance in her
bank account, the IVR’s response of “Your balance is $452.19” implicitly indicates that it correctly recognized the
request for “balance” information, as opposed to some other information about the account.
EXAMPLE 2 “Tomorrow.” – IVR system: “At what time do you want to leave tomorrow?”
Note 1 to entry: In the case of implicit confirmation, the caller knows what input was received based on the
subsequent action of the IVR system
Note 2 to entry: Implicit confirmations are a natural way of speeding up the dialogue. However, in the case of an
error (disconfirmation), the mechanism of dialogue repair is not clear.
3.24
insertion error
instance of a recognition error where one or more words in the speech recognizer’s output do not
correspond with any word (or sequence of words) in the speaker’s utterance
3.25
interactive voice response
IVR
software application that a caller interacts with over a telephone line and which presents pre-recorded
and/or dynamically generated speech output and which can accept touchtone and/or speech input
from the caller
3.26
landmark
short phrase or a sound that acts as a heading or launch point for a portion of an IVR dialogue and
which can be used to facilitate navigation of the caller within an IVR application
EXAMPLE Short phrase: “Account Information”, “Repair Services”.
4 © ISO 2013 – All rights reserved
3.27
message
information in an IVR system that is provided by the system, other callers, other subscribers, or
system administrators to the caller
Note 1 to entry: Messages include both prompts (i.e. instructions for action) and announcements (i.e. no
action required).
3.28
mixed initiative
IVR flow that contains both caller and system initiative situations
3.29
natural language understanding
NLU
technology used to recognize certain words and phrases from a caller utterance spoken as if talking
with another human
Note 1 to entry: NLU does not actually understand the caller, but it is used with other technologies to derive the
caller’s meaning.
3.30
open-ended dialogue
dialogue that does not constrain the verbal responses from a caller
EXAMPLE “What can I do for you?”
Note 1 to entry: This is typically used in conjunction with NLU.
3.31
persona
set of personal, human characteristics conveyed by the application through the speakers of
prompts and announcements (sometimes called the voice talent), word choices for prompts and other
stylistic/aesthetic qualities of the IVR
Note 1 to entry: An IVR application persona differs from persona as used in other areas of human–computer
interface design. An IVR application persona gives the caller an impression of the company or organization that
is the focus of the application (e.g. a bank services centre, a retail company), as represented by the voice that
conveys the prompts and announcements within the application. In other areas of human-computer interface
design, a persona is a detailed description of a representative user that is used to guide application design.
3.32
priming
inclusion of example phrases or other prompt techniques to influence the caller’s utterance style and
length in speech-enabled IVR systems
EXAMPLE 1 An IVR banking application prompts caller word choices for menu items by using the specific
words it wants the caller to say in its prompt: “You can pay bills, check your account balance, or make a deposit.”
EXAMPLE 2 “Tell us what you would like to do. You can say ‘pay bills’, ‘check account balance’ or ‘make a
deposit.” Here, the application tells the caller exactly what to say.
Note 1 to entry: This is typically used for open-ended dialogues.
3.33
prompt
system output requesting input from the caller
Note 1 to entry: Contrast with announcement (3.1).
Note 2 to entry: This term is often used generically to mean any message played by the IVR.
3.34
recognition error
general term for any error made by the ASR system during the recognition of speech
Note 1 to entry: Substitution errors, deletion errors, insertion errors and rejection errors are specific types of
recognition errors.
3.35
recorded speech
stored human speech
Note 1 to entry: Contrast with synthesized speech (3.40), digitized speech (3.14) and text-to-speech (3.45).
Note 2 to entry: Sometimes called “canned speech”.
3.36
rejection error
instance of a recognition error in which the ASR system does not recognize the spoken input although
it is within the grammar
3.37
speaker dependent
speech recognition system in which distinct acoustic models are developed for each speaker using the system
3.38
state
contextual properties of an IVR application that remain constant during a designated period of time
Note 1 to entry: An IVR application is often conceived as a set of distinct states and transitions to and from one
state to another (cf. “finite state machines”). The current state defines the context of interaction and the valid
caller input events. A state within an IVR is usually associated with a specific system output — see message (3.27)
— the execution of internal system functions, a set of possible caller input events (i.e. legal DTMF input and/or an
active vocabulary or grammar) and a set of transitions, triggered by events, which initiate movement to another
specific state within the IVR.
[SOURCE: ISO 14915-3:2002, 3.6.11, modified.]
3.39
substitution error
instance of a recognition error in which a word (or sequence of words) in a speaker’s utterance is
incorrectly recognized as some other word or sequence of words in the recognizer’s active vocabulary
3.40
synthesized speech
speech generated by a computer that is modelled computationally or constructed from the fragments of
recorded human speech
Note 1 to entry: Contrast with digitized speech (3.14), recorded speech (3.35) and text-to-speech (3.45).
3.41
system initiative
situation in which the IVR is leading the turn-taking with the caller
3.42
talk-ahead
capability in an IVR system of accepting spoken input before the system has requested it
Note 1 to entry: See dial-ahead (3.12).
Note 2 to entry: The spoken input is then used by the system based on the order in which the input was received.
This allows callers to provide input without having to listen to the associated input prompts.
6 © ISO 2013 – All rights reserved
3.43
talk-through
capability in an IVR system of accepting speech input while a prompt (or an announcement) is being played
Note 1 to entry: In response to talk-through, playback of speech ceases and the system responds to the speech
of the caller.
Note 2 to entry: See dial-through (3.13) and barge-in (3.3).
3.44
text telephone
TTY
telecommunication device which allows two-sided conversations to occur via text, as opposed to voice,
communication
Note 1 to entry: In some environments this is referred to as TDD (telecommunication device for the deaf).
3.45
text-to-speech
TTS
process whereby a computer converts a representation of text into spoken, computer-generated speech
Note 1 to entry: The computer-generated speech is generally constructed from the fragments of recorded human
speech or human speech that has been modelled computationally.
Note 2 to entry: Contrast with synthesized speech (3.40), digitized speech (3.14) and recorded speech (3.35).
3.46
time-out
interval of no user input that causes the system to change state; state change resulting from such an interval
EXAMPLE A time-out during numeric input may be interpreted as end-of-string and cause the system to
change from a numeric input state to a command state or some appropriate action state.
3.47
tuning
process of analysing field data about the performance of a speech application and then using it to adjust
ASR parameters in order to improve speech recognition performance
3.48
turn-taking
process of the caller and the IVR alternating speaking and then listening
3.49
voice recognition
capability of a system to identify a specific person’s voice
Note 1 to entry: This differs from speech recognition, which recognizes spoken words.
Note 2 to entry: Voice recognition is often used for speaker identification, authentication or verification in security
applications.
4 Conformance
Conformance with this part of ISO 9241 is achieved by satisfying all the applicable requirements and by
the provision of a systematic list of all the recommendations that have been satisfied. Any requirements
that have been determined not to be applicable shall also be listed, together with a statement of the
reasons why they are not applicable.
Users of this part of ISO 9241 shall evaluate the appli
...
NORME ISO
INTERNATIONALE 9241-154
Première édition
2013-02-01
Ergonomie de l’interaction homme-
système —
Partie 154:
Applications de serveur vocal
interactif (SVI)
Ergonomics of human-system interaction —
Part 154: Interactive voice response (IVR) applications
Numéro de référence
©
ISO 2013
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2013
Droits de reproduction réservés. Sauf indication contraire, aucune partie de cette publication ne peut être reproduite ni utilisée
sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie, l’affichage sur
l’internet ou sur un Intranet, sans autorisation écrite préalable. Les demandes d’autorisation peuvent être adressées à l’ISO à
l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Publié en Suisse
ii © ISO 2013 – Tous droits réservés
Sommaire Page
Avant-propos .v
Introduction .vii
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Conformité . 8
5 Systèmes de messagerie vocale . 8
6 Entrée des informations . 8
6.1 Généralités . 8
6.2 Informer les utilisateurs d’appareil de télécommunication pour sourds sur les types
d’entrée acceptables . 8
6.3 Non-duplication d’entrée d’information . 8
6.4 Utilisation des informations système pour améliorer l’efficacité . 9
6.5 Modification d’informations entrées . 9
7 Entrée de parole . 9
7.1 Choix du vocabulaire pour les SVI à reconnaissance de parole . 9
7.2 Vocabulaire phonétiquement distinct dans les applications SVI à reconnaissance
de parole . 9
7.3 Grammaire spécifique à l’état . 9
7.4 Synonymes en grammaire .10
7.5 Utilisation de grammaires dynamiques .10
7.6 Apprentissage .10
7.7 Pointage de fin et prise de tour .10
7.8 Gestion des temporisations pour l’entrée de parole .11
7.9 SVI de reconnaissance de parole à touche .11
8 Entrée de touches .11
8.1 Indication de la capacité des touches .11
8.2 Affectation de touche pour les délimiteurs .11
8.3 Touche dièse («#») dans l’entrée de données de longueur fixe .11
8.4 Gestion des temporisations pour l’entrée de touche de longueur variable .12
8.5 Affectation de touche pour des réponses positives et négatives .12
8.6 Affectation de touche pour la fonction «aide» humaine .12
8.7 Minimisation du nombre d’appuis de touche par l’appelant .12
9 Sortie d’informations .12
9.1 Dispositions générales relatives aux invites et aux annonces .12
9.2 Construction des invites et des annonces .15
10 Navigation .20
10.1 Fonction «aller à» .20
10.2 Saisie en force et entrée vocale en force .20
10.3 Saisie par anticipation et parler par anticipation .20
10.4 Commandes globales .21
10.5 Intervention (barge-in) par défaut .21
10.6 Limitation d’intervention .21
11 Aide .21
11.1 Aide contextuelle .21
11.2 Aide sélectionnable par l’appelant .21
11.3 Référencement de l’aide dans l’invite initiale.22
11.4 Commande d’aide .22
11.5 Aide activée par le système .22
12 Accès à un être humain .22
12.1 Généralités .22
12.2 Égalité d’accès à un être humain .22
12.3 Invite à accéder à un être humain .22
12.4 Activation du transfert à un être humain .23
12.5 Délais pour l’accès à un être humain .23
12.6 Assistance assurée par un être humain .23
12.7 Aide humaine non disponible .24
13 Feedback .24
13.1 Généralités .24
13.2 Feedback à l’entrée de l’appelant .24
13.3 Feedback suite à la sélection d’options indisponibles .24
13.4 Temps de réponse du système.24
13.5 Contexte approprié pour des messages de feedback .24
13.6 Points de repère .25
13.7 Dialogues de confirmation .25
13.8 Utilisation intelligente des rejets de confirmation .27
13.9 Autres retours immédiats (feedback) dans les situations d’attente .27
13.10 Gestion des situations d’attente de longue durée .27
13.11 Suggestion de rappel .27
14 Erreurs .27
14.1 Généralités .27
14.2 Indisponibilité du service .28
14.3 Répétitions d’invite d’entrée .28
14.4 Contenu du message d’erreur .28
14.5 Deux erreurs consécutives d’entrée dans les SVI à reconnaissance de touche .28
14.6 Deux erreurs consécutives ou plus d’entrée dans les SVI à reconnaissance de la parole .28
14.7 Gestion d’erreurs multiples .28
14.8 Absence de formulation péjorative dans les messages d’erreur .29
14.9 Messages critiques .29
14.10 Récupération d’erreur .29
14.11 Messages de déconnexion .29
14.12 Sortie pour cause de dépassement de la limite d’erreur .29
14.13 Référencement de l’aide .29
14.14 Formulation d’invites d’erreur .29
14.15 Guidage de l’appelant sur l’entrée de parole requise .29
14.16 Réparation de conversation .30
14.17 Gestion d’entrée de parole de trop longue durée.30
14.18 Mention des options touche pour les SVI à reconnaissance de la parole .30
Annexe A (informative) Vue d’ensemble de la série de normes ISO 9241 .31
Annexe B (informative) Rôle des erreurs de reconnaissance de la parole dans la conception
de SVI .32
Bibliographie .35
iv © ISO 2013 – Tous droits réservés
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes
nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est
en général confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l’ISO participent également aux travaux.
L’ISO collabore étroitement avec la Commission électrotechnique internationale (CEI) en ce qui concerne
la normalisation électrotechnique.
Les Normes internationales sont rédigées conformément aux règles données dans les Directives
ISO/CEI, Partie 2.
La tâche principale des comités techniques est d’élaborer les Normes internationales. Les projets de
Normes internationales adoptés par les comités techniques sont soumis aux comités membres pour vote.
Leur publication comme Normes internationales requiert l’approbation de 75 % au moins des comités
membres votants.
L’attention est appelée sur le fait que certains des éléments du présent document peuvent faire l’objet de
droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable de
ne pas avoir identifié de tels droits de propriété et averti de leur existence.
L’ISO 9241-154 a été élaborée par le comité technique ISO/TC 159, Ergonomie, sous-comité SC 4, Ergonomie
de l’interaction homme/système.
L’ISO/TS 9241 comprend les parties suivantes, présentées sous le titre général Exigences ergonomiques
pour travail de bureau avec terminaux à écrans de visualisation (TEV):
— Partie 1: Introduction générale
— Partie 2: Guide général concernant les exigences des tâches
— Partie 5: Aménagement du poste de travail et exigences relatives aux postures
— Partie 6: Guide général relatif à l’environnement de travail
— Partie 11: Lignes directrices relatives à l’utilisabilité
— Partie 12: Présentation de l’information
— Partie 13: Guidage de l’utilisateur
— Partie 14: Dialogues de type menu
— Partie 15: Dialogues de type langage de commande
— Partie 16: Dialogues de type manipulation directe
L’ISO 9241 comprend également les parties suivantes, présentées sous le titre général Ergonomie de
l’interaction homme-système:
— Partie 20: Lignes directrices sur l’accessibilité de l’équipement et des services des technologies de
l’information et de la communication (TIC)
— Partie 100: Introduction aux normes relatives à l’ergonomie des logiciels [Rapport technique]
— Partie 110: Principes de dialogue
— Partie 129: Lignes directrices relatives à l’individualisation des logiciels
— Partie 143: Formulaires
— Partie 151: Lignes directrices relatives aux interfaces utilisateurs Web
— Partie 154: Applications de serveur vocal interactif (SVI)
— Partie 171: Lignes directrices relatives à l’accessibilité aux logiciels
— Partie 210: Conception centrée sur l’opérateur humain pour les systèmes interactifs
— Partie 300: Introduction aux exigences relatives aux écrans de visualisation électroniques
— Partie 302: Terminologie relative aux écrans de visualisation électroniques
— Partie 303: Exigences relatives aux écrans de visualisation électroniques
— Partie 304: Méthodes d’essai de la performance de l’utilisateur pour écrans de visualisation électroniques
— Partie 305: Méthodes d’essai de laboratoire optique pour écrans de visualisation électroniques
— Partie 306: Méthodes d’appréciation sur le terrain des écrans de visualisation électroniques
— Partie 307: Analyse et méthodes d’essais de conformité pour écrans de visualisation électroniques
— Partie 308: Écrans à émission d’électrons par conduction de surface (SED) [Rapport technique]
— Partie 309: Écrans à diodes électroluminescentes organiques (OLED) [Rapport technique]
— Partie 310: Visibilité, esthétique et ergonomie des défauts de pixel [Rapport technique]
— Partie 331: Caractéristiques optiques des écrans autostéréoscopiques [Rapport technique]
— Partie 391: Exigences, analyses et méthodes d’essai de conformité pour la réduction des saisies
photosensibles
— Partie 400: Principes et exigences pour les dispositifs d’entrée physiques
— Partie 410: Critères de conception des dispositifs d’entrée physiques
— Partie 411: Méthodes d’évaluation de la conception des dispositifs d’entrée physiques
— Partie 420: Sélection des dispositifs d’entrée physiques
— Partie 910: Cadre pour les interactions tactiles et haptiques
— Partie 920: Lignes directrices relatives aux interactions tactiles et haptiques
Les parties suivantes sont en cours de préparation:
— Partie 940: Évaluation des interactions tactiles et haptiques
Les éléments de l’interface utilisateur, les exigences ergonomiques pour diminuer la fatigue visuelle induite
par des images stéréoscopiques, l’évaluation des interactions tactiles et haptiques, et les cadre et les lignes
directrices relatives aux interactions gestuelles feront l’objet des futures parties 161, 392, 940 et 960.
vi © ISO 2013 – Tous droits réservés
Introduction
La présente partie de l’ISO 9241 contient des dispositions spécifiques aux systèmes de serveur vocal
interactif (SVI), qui peuvent comporter une combinaison de technologies vocales, mais se distinguent
par l’utilisation du téléphone comme mécanisme de transfert des informations. Ces dispositions ne
proposent aucun affichage visuel d’information à l’utilisateur en dehors des étiquettes sur le clavier
du téléphone, à l’exception notable des appareils de télécommunication pour sourds (TTY), qui ont un
affichage visuel à feedback.
Bien qu’il soit extrêmement important pour les concepteurs d’interface utilisateur SVI de tenir compte
des aspects culturels et linguistiques de l’interface utilisateur qui influencent la population d’utilisateurs
prévue, ces aspects sont en dehors du domaine d’application de la présente partie de l’ISO 9241 et ne
sont pas abordés dans la présente partie de l’ISO 9241. De même, du fait que les outils de reconnaissance
automatique de la parole (RAP) fonctionnent différemment pour différentes langues, et que la technologie
continue de s’améliorer, la fourniture de dispositions détaillées sur la conception d’interface utilisateur
RAP ne fait généralement pas partie du domaine d’application du présent document. En revanche,
la présente partie de l’ISO 9241 se concentre sur la conception des dialogues SVI et ne traite que les
questions relatives à la conception d’interface utilisateur RAP qui influencent la conception de dialogue.
De nombreux systèmes SVI actuels représentent des enjeux importants d’accessibilité pour les
appelants handicapés. Certaines dispositions de la présente partie de l’ISO 9241 ont été développées
spécifiquement pour convenir aux appelants ayant des besoins spéciaux, en particulier ceux qui sont
sourds ou qui ont une déficience auditive.
Les dispositions du présent document sont destinées à être compatibles avec l’ISO/CEI 13714.
Les systèmes de serveur vocal interactif (SVI) sont devenus un moyen courant pour offrir des services à
la clientèle à la fin des années 1980. Ces systèmes sont conçus pour réduire ou éliminer la nécessité d’une
assistance client humaine en automatisant la plupart des fonctions que les conseillers clientèle humains
fournissent généralement par téléphone pour la gestion des opérations des clients. Ainsi, les utilisateurs
(c’est-à-dire les appelants) peuvent désormais effectuer des activités telles que vérifier les horaires de
train, commander un livre, et signaler des problèmes avec leur câble en interagissant avec un système
SVI. De plus, les SVI automatisent souvent les fonctions de routage d’appels afin que l’appelant puisse
être connecté.
La présente partie de l’ISO 9241 concerne la conception du système de dialogue homme-système SVI
et des thèmes associés. Comme illustré à la Figure 1, les appelants interagissent généralement avec
le système SVI par l’une des deux méthodes: l’entrée de parole ou de touche (DTMF) via le clavier du
téléphone. Si un système SVI est activé par la parole, il utilise une machine de RAP qui reconnaît l’entrée
vocale de l’appelant. S’il ne s’agit pas de reconnaissance de la parole, il ne reconnaît généralement que les
entrées de touches à partir du clavier du téléphone ou parfois l’entrée d’appareil de télécommunication
pour sourds (TTY). Les systèmes SVI de reconnaissance de la parole sont une conception relativement
récente, et de nombreux systèmes sont maintenant conçus pour accepter aussi bien les touches
que la parole dans un dialogue avec un interlocuteur donné. Le système SVI répond via un matériel
informatique et/ou un logiciel qui présente un discours synthétisé, numérisé ou enregistré à l’appelant
et peut également présenter une réponse audio non vocale. Le fait qu’il n’y ait pas d’affichage visuel
supposé de l’information à l’appelant dans ces applications représente un enjeu pour les concepteurs de
dialogue, en raison de la charge qui pèse sur l’appelant pour naviguer dans l’application, progresser et se
souvenir des informations adéquates sans l’aide d’un affichage visuel.
Système SVI
Outil de
Reconnaissance
Parole
Automatique
de la Parole
(RAP)
Touche
Outil de Logiciel SVI et
bases de données
APPELANT reconnaissance
DTMF d’application
Discours synthétisé,
numérisé ou
Parole/Audio
enregistré/
Système de
réponse audio
Figure 1 — Représentation du système SVI
La présente partie de l’ISO 9241 fournit des dispositions relatives à la conception des dialogues SVI
dans les systèmes SVI de reconnaissance de la parole et de touche. Par conséquent, la présente partie de
l’ISO 9241 se focalise sur l’interface entre l’appelant et le logiciel SVI et les bases de données d’application,
qui est facilitée par le matériel et les logiciels qui reconnaissent la parole et/ou les touches, et présente
une sortie vocale à l’appelant. Aussi bien les systèmes RAP que les outils de reconnaissance DTMF
imposent des contraintes à la conception des dialogues SVI, et ces contraintes ont été prises en compte
dans la conception des dispositions de la présente partie de l’ISO 9241. Toutefois, le présent document
n’est pas prévu pour traiter de la conception des interfaces utilisateur RAP ou DTMF généralement pour
deux raisons. D’une part, la technologie, notamment pour les systèmes RAP, est toujours en évolution,
et d’autre part, de nombreuses interfaces utilisateur RAP sont conçues pour inclure un affichage visuel
(par exemple, les applications de diction RAP), que les applications SVI ne sont pas supposées posséder.
Enfin, la plupart des dispositions relatives aux dialogues de reconnaissance de la parole sont destinées
à être utilisées avec des SVI fondées sur la grammaire. Bien que certains des mêmes principes
s’appliquent aux systèmes à langage naturel (c’est-à-dire les applications qui utilisent des modèles de
langage statistique), les dispositions de conception détaillée ne sont pas inclues pour ces applications
dans la présente partie de l’ISO 9241, car la compréhension du langage naturel est mise en œuvre via
une technologie distincte, et l’utilisation de langage naturel dans les SVI de reconnaissance de la parole
est encore en évolution. Il existe également certains aspects de la conception des applications qui sont
différents pour les dialogues en langage naturel, par rapport à ceux à base de grammaire, en plus des
différences de conception de dialogue qui se rapportent particulièrement aux outils de reconnaissance
de la parole.
viii © ISO 2013 – Tous droits réservés
NORME INTERNATIONALE ISO 9241-154:2013(F)
Ergonomie de l’interaction homme-système —
Partie 154:
Applications de serveur vocal interactif (SVI)
1 Domaine d’application
La présente partie de l’ISO 9241 présente des recommandations et des exigences relatives à la
conception de l’interface utilisateur des applications de serveur vocal interactif (SVI). Elle couvre à la
fois les systèmes SVI qui utilisent l’entrée de touches et ceux utilisant la reconnaissance automatisée de
la parole (RAP) comme un mécanisme d’entrée. Elle est également applicable aux cas où l’appelant ou le
système SVI lui-même (par exemple, dans certaines applications de télémarketing) lance l’appel.
La présente partie de l’ISO 9241 est destinée à être utilisée conjointement avec l’ISO/CEI 13714.
NOTE Son domaine d’application est donc plus général que celui de l’ISO/CEI 13714, qui est spécifique aux
systèmes de messagerie vocale.
2 Références normatives
Les documents de référence suivants sont indispensables pour l’application du présent document. Pour
les références datées, seule l’édition citée s’applique. Pour les références non datées, la dernière édition
du document de référence s’applique (y compris les éventuels amendements).
ISO/CEI 13714, Technologies de l’information — Traitement de documents et communication connexe —
Interface de l’utilisateur et des services à base de téléphone — Applications de messagerie vocale
UIT-T E 161, Disposition des chiffres, des lettres et des symboles sur les appareils téléphoniques et les autres
dispositifs permettant d’accéder au réseau téléphonique
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
3.1
annonce
message présenté par le SVI à l’appelant, qui informe, sans demander à l’appelant d’agir
Note 1 à l’article: Certaines normes de l’industrie ne font pas de distinction entre les annonces et les invites et
considèrent tous les messages venant du système comme des invites.
Note 2 à l’article: Les invites adressent une demande spécifique à l’appelant dans l’attente d’une entrée suivante
de l’appelant (voir 3.33).
3.2
reconnaissance automatique de la parole
reconnaissance automatisée de la parole
RAP
conversion des paroles en entrées lisibles par la machine
3.3
intervention (barge-in)
capacité d’un système SVI à accepter une entrée alors qu’une invite (ou une annonce) est en cours de lecture
Note 1 à l’article: La lecture de la parole cesse immédiatement et le système répond à l’entrée de l’appelant.
Note 2 à l’article: Voir saisie en force (3.13) et entrée vocale en force (3.43). Le terme «intervention» est synonyme
du terme «saisie en force» pour des systèmes utilisant l’entrée de touches. Il est aussi synonyme de passe-voix
pour les systèmes acceptant l’entrée de parole.
3.4
appelant
utilisateur qui appelle ou qui est appelé par un service, se connecte au système SVI, et interagit avec lui
Note 1 à l’article: Dans un système SVI, l’appelant et l’utilisateur sont considérés comme des synonymes.
3.5
guidage
instructions destinées aux locuteurs de l’invite et des annonces (aussi connu comme la qualité vocale)
relatives aux subtilités souhaitées dans l’enregistrement de l’invite
3.6
invites concaténées
invites ou annonces construites par chaînage de plusieurs invites individuelles ou annonces
Note 1 à l’article: Les invites concaténées sont habituellement utilisées pour la présentation d’informations
dynamiques ou spécifiques à un contexte.
3.7
niveau de confiance
engagement avec lequel le système de reconnaissance de la parole renvoie un résultat de reconnaissance
pour une entrée donnée
Note 1 à l’article: Voir note de confiance (3.8).
Note 2 à l’article: Les niveaux de confiance sont souvent définis par des échelles d’évaluation de confiance
généralement classées comme suit: Élevé, Moyen et Faible. Les échelles de confiance sont ensuite utilisées pour
déclencher certaines réponses SVI, y compris l’acceptation, le rejet ou la confirmation de la parole de l’utilisateur.
3.8
note de confiance
note attribuée par le système RAP indiquant son degré de confiance dans le fait qu’il a correctement
reconnu l’énoncé de l’appelant
Note 1 à l’article: Pour chaque entrée d’appelant, le système RAP retourne une liste de mots ou de phrases
candidats possibles avec une note numérique représentant la probabilité hypothétique d’exactitude.
3.9
reconnaissance de la parole continue
reconnaissance de parole qui permet une entrée continue de mots ou de phrases
Note 1 à l’article: Aucune durée minimale de silence n’est nécessaire au début ou à la fin des mots ou des
phrases (autres que les pauses se produisant généralement dans les formes de parole naturelles). Comparer à
reconnaissance discrète de parole (3.16).
2 © ISO 2013 – Tous droits réservés
3.10
réparation de conversation
capacité d’un système SVI à résoudre une panne de conversation qui se produit en raison d’une entrée
erronée de parole ou de touche, par utilisation de l’entrée de parole de l’appelant pour déterminer l’étape
suivante appropriée pour le dialogue
EXEMPLE L’appelant dans une application d’organisation de voyage, lorsqu’on lui demande sa destination, dit
«Buffalo». Le système SVI répond «Vous souhaitez aller à Chicago, n’est ce pas?». En réponse, l’appelant dit «Non,
Buffalo». Si le système utilise la réparation de la conversation, il serait en mesure de déterminer que l’appelant a
fourni une entrée «corrective», et tentera de reconnaître cette entrée et de l’utiliser pour continuer le dialogue.
Sa réponse pourrait alors être «Oh, vous voulez dire Buffalo. Je suis désolé. Quand souhaitez-vous partir?» plutôt
que de poser à nouveau à l’appelant la même question initiale (c’est-à-dire «Où souhaitez-vous aller?»).
3.11
erreur de suppression
instance d’une erreur de reconnaissance où une partie de l’énoncé du locuteur est incorrectement omise
dans la sortie de l’outil de reconnaissance de parole
3.12
saisie par anticipation (dial-ahead)
capacité d’un système SVI à accepter l’entrée de touche avant que le système n’en fasse la demande
Note 1 à l’article: L’entrée de touche est ensuite utilisée par le système sur la base de l’ordre dans lequel les entrées ont
été reçues. Cela permet aux appelants d’apporter une contribution sans avoir à écouter les invites d’entrée associées.
Note 2 à l’article: Voir parler par anticipation (3.42).
3.13
saisie en force (dial-through)
capacité d’un système SVI à touches à accepter l’entrée d’un appelant pendant qu’une invite (ou une
annonce) est en cours de lecture
Note 1 à l’article: Voir entrée vocale en force (3.43) et intervention (3.3).
Note 2 à l’article: En réponse à une composition en force, la lecture de la parole s’arrête et le système répond à la
touche qui a été appuyée.
3.14
parole numérisée
enregistrement numérique de la parole humaine
Note 1 à l’article: Comparer à parole de synthèse (3.40), parole enregistrée (3.35) et texte vers parole (3.45).
3.15
marqueur de discours
mot, phrase ou son qui est utilisé comme indication à l’appelant qu’une nouvelle invite ou annonce
commence ou que l’appelant est maintenant sensé apporter une entrée
Note 1 à l’article: Les marqueurs de discours communs sont «OK», «d’accord» et «maintenant».
3.16
reconnaissance discrète de la parole
reconnaissance de la parole qui a besoin un silence d’une durée minimale au début et à la fin du mot ou
de la phrase pour être reconnu, afin de permettre l’analyse correcte de l’entrée de parole
Note 1 à l’article: Comparer à reconnaissance de la parole continue (3.9).
3.17
double tonalité multifréquence
DTMF
touches de clavier des téléphones contemporains
3.18
grammaire dynamique
grammaire qui n’est pas prédéterminée et qui est utilisée pour la reconnaissance de la parole
EXEMPLE Un appelant est invité à dire un numéro de prescription pour recharger et la grammaire n’est composée
que des numéros de prescription de cet appelant, et non pas de toutes les combinaisons numériques possibles.
Note 1 à l’article: Elle est généralement créée en temps réel sur la base de données variables.
3.19
pointage de fin
processus destiné à détecter le début et la fin de l’entrée de parole
Note 1 à l’article: Dans le système SVI, le début de la parole est généralement appelé «commencement» et la fin de
la parole est généralement appelée «terme».
3.20
apprentissage
procédure par laquelle les appelants fournissent une entrée de formation pour les systèmes de reconnaissance
de la parole dépendant du locuteur, qui nécessitent une formation avant de pouvoir être utilisés
3.21
confirmation explicite
méthode par laquelle l’appelant est invité à confirmer son entrée à un système SVI
Note 1 à l’article: Terme opposé de confirmation implicite.
3.22
grammaire
ensemble de règles syntaxiques, et parfois morphologiques qui définissent tous les énoncés d’appelant
qui sont couverts par le système de reconnaissance de la parole
Note 1 à l’article: La grammaire précise l’entrée qui est reconnue par l’application.
3.23
confirmation implicite
méthode de confirmation des entrées de l’appelant à un système SVI dans laquelle le système SVI répond
à cette entrée comme si l’entrée était correcte
EXEMPLE 1 Si un appelant entre «solde» pour indiquer qu’il souhaite que le système lui donne le solde de son
compte bancaire, la réponse du SVI «Votre solde est 452,19 $» indique implicitement qu’il a correctement reconnu
la demande d’informations sur le «solde», par opposition à d’autres informations sur le compte.
EXEMPLE 2 «Demain» – Système SVI: «À quelle heure souhaitez-vous partir demain?»
Note 1 à l’article: Dans le cas de confirmation implicite, l’appelant sait quelle entrée a été reçue sur l’action
subséquente du système SVI.
Note 2 à l’article: Les confirmations implicites sont un moyen naturel d’accélérer le dialogue. Toutefois, dans le cas
d’une erreur (infirmation), le mécanisme de réparation de dialogue n’est pas clair.
3.24
erreur d’insertion
instance d’une erreur de reconnaissance dans laquelle un ou plusieurs mots dans la sortie de l’outil de
reconnaissance de la parole ne correspondent à aucun mot (ou séquence de mots) dans l’énoncé du locuteur
3.25
serveur vocal interactif
SVI
application de logiciel avec laquelle l’appelant interagit par une ligne téléphonique, et qui présente une
sortie de parole préenregistrée et/ou générée dynamiquement et qui peut accepter l’entrée de touche
et/ou de parole de l’appelant
4 © ISO 2013 – Tous droits réservés
3.26
point de repère
courte expression ou son qui agit comme un point de position ou de lancement d’une partie d’un
dialogue SVI et qui peut être utilisé(e) pour faciliter la navigation de l’appelant dans une application SVI
EXEMPLE Expression courte: «Informations du compte», «Services de réparation».
3.27
message
information dans un système SVI qui est fournie à l’appelant par le système, d’autres appelants,
d’autres abonnés ou les administrateurs système
Note 1 à l’article: Les messages comprennent aussi bien des invites (c’est-à-dire des consignes à suivre) que des
annonces (par exemple aucune action nécessaire).
3.28
initiative mixte
flux SVI qui contient à la fois des situations d’initiative de l’appelant et du système
3.29
compréhension du langage naturel
CLN
technologie utilisée pour reconnaître certains mots et expressions d’un énoncé parlé de l’appelant
comme s’il parlait avec une autre personne
Note 1 à l’article: La CLN ne comprend pas réellement l’appelant, mais elle est utilisée avec une autre technologie
pour déterminer le sens de ce que dit l’appelant.
3.30
dialogue ouvert
dialogue qui ne limite pas les réponses verbales d’un appelant
EXEMPLE «Que puis-je faire pour vous?»
Note 1 à l’article: Ceci est généralement utilisé en conjonction avec la CLN.
3.31
persona
ensemble de caractéristiques personnelles humaines transportées par l’application par les
locuteurs des invites et des annonces (parfois appelé qualité vocale), choix des mots pour les invites, et
autres qualités esthétiques/stylistiques du SVI
Note 1 à l’article: Le persona d’une application SVI diffère du persona utilisé dans d’autres domaines de la
conception d’interface homme-système. Un persona d’application SVI donne à l’appelant une impression de
l’entreprise ou de l’organisation qui fait l’objet de l’application (par exemple, un centre de services bancaires, une
entreprise de vente au détail), représentée par la voix qui transmet les invites et les annonces dans l’application.
Dans d’autres domaines de la conception de l’interface homme-système, un persona est une description détaillée
d’un utilisateur représentatif qui est utilisée pour guider la conception d’applications.
3.32
amorce
inclusion d’exemples d’expressions ou d’autres techniques d’invite pour influencer le style d’énoncé de
l’appelant et la durée dans les systèmes SVI à reconnaissance de la parole
EXEMPLE 1 une application SVI bancaire présente des choix de mots à l’appelant pour des éléments de menu en
utilisant les mots spécifiques qu’il souhaite que l’appelant dise dans son invite: «Vous pouvez payer vos factures,
consulter le solde de votre compte, ou faire un dépôt».
EXEMPLE 2 «Dites-nous ce que vous souhaiteriez faire. Vous pouvez dire “payer des factures”, “consulter le
solde de compte” ou “faire un dépôt”». Dans ce cas, l’application indique à l’utilisateur exactement ce qu’il doit dire.
Note 1 à l’article: Ceci est généralement utilisé pour les dialogues ouverts.
3.33
invite
sortie de système demandant une entrée de l’appelant
Note 1 à l’article: Comparer à annonce (3.1).
Note 2 à l’article: Ce terme est souvent utilisé de façon générique pour désigner tout message activé par le SVI.
3.34
erreur de reconnaissance
terme général pour toute erreur commise par le système RAP au cours de la reconnaissance de la parole
Note 1 à l’article: Les erreurs de substitution, les erreurs de suppression, les erreurs d’insertion et les erreurs de
rejet sont des types particuliers d’erreurs de reconnaissance.
3.35
parole enregistrée
parole humaine mémorisée
Note 1 à l’article: Comparer à parole de synthèse (3.40), parole numérisée (3.14) et texte vers parole (3.45).
Note 2 à l’article: Parfois appelé «discours enregistré».
3.36
erreur de rejet
instance d’une erreur de reconnaissance dans laquelle le système RAP ne reconnaît pas l’entrée parlée
bien que celle-ci soit grammaticalement correcte
3.37
dépendant du locuteur
système de reconnaissance de la parole dans lequel des modèles acoustiques distincts sont élaborés
pour chaque locuteur utilisant le système
3.38
état
propriétés contextuelles d’une application SVI qui demeurent constantes au cours d’une période
de temps définie
Note 1 à l’article: Une application SVI est s
...










Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.
Loading comments...