Le codage ISO (des noms) des pays et territoires, des langues, des écritures des signes écrits et des monnaies

La production de l’organisme mondial de normalisation ISO[1] comprend un ensemble particulier de normes visant un codage à vocation universelle d’entités géopolitiques et culturelles de base utilisées massivement dans le fonctionnement quotidien de la plupart des grands systèmes d’information traitant de l’international. Ces normes particulières dissimulent une quantité insoupçonnée de sujets de discussion pouvant soulever des questions fort délicates et réveiller des conflits souvent restés dans l’implicite. 

 Contrairement à l’Union Internationale des Télécommunications (UIT/ITU) qui dépend de l’ONU, dont l’une des trois missions principales est la normalisation mondiale dans le domaine des télécommunications l’ISO qui a la responsabilité de la normalisation mondiale générale, recouvrant tous les domaines normalisés à l’exception des télécommunications et de l’électrotechnique[2], n’est pas une organisation intergouvernementale. L’ISO est instituée comme une fédération rassemblant 164 organismes nationaux, chacun chargé de la normalisation générale par le pays dans lequel il opère.

Parmi les plus de 23 000 normes ISO, un petit nombre d’entre elles se signale par un niveau d’abstraction conceptuel et générique élevé, souvent relié à des aspects touchant à la géopolitique et à la culture.

Le codage des pays et des territoires

La principale norme de ce type est la norme ISO 3166 « Codes pour la représentation des noms des pays et de leurs subdivisions », qui comprend trois parties : les pays (ISO 3166-1), les subdivisions de pays (ISO 3166-2) et les codes pour les noms de pays antérieurement utilisés (ISO 3166-3), qui prend en compte l’histoire des noms de pays depuis 1973 et à laquelle on peut préférer la norme expérimentale française AFNOR XP Z 44-002[3], qui remonte l’histoire jusqu’en 1815 (Congrès de Vienne).

L’ISO 3166-1 code une liste de 249 entrées reflétant la situation géopolitique du monde actuel, correspondant (à une exception près, l’île de Sercq/Sark, qui n’est pas prise en compte dans la partie officielle de la norme ISO) à la liste des entrées du code M 49[4] géré par la division de statistique des Nations Unies. À cette fin, l’ISO 3166-1 propose trois codes distincts permettant de représenter chacune des 249 entrées de la liste des pays et territoires :

  • « alpha-2 » constitué d’une suite de deux lettres choisies chacune parmi les vingt-six lettres de l’alphabet latin, écrites en majuscule ;
  • « alpha-3 », constitué d’une suite de trois lettres choisies chacune parmi les vingt-six lettres de l’alphabet latin, écrites en majuscule ;
  • « num-3», constitué d’une suite de trois chiffres choisis chacun parmi les dix chiffres de la numérotation décimale.

Ainsi, les trois codets correspondant à l’entrée « France » sont « FR », « FRA » et « 250 ».

Pour représenter les subdivisions administratives (de premier niveau, ou parfois des deux premiers niveaux) de la plupart des 249 entrées de l’ISO 3166-1, l’ISO 3166-2 construit un code alphanumérique de longueur 4 à 6, dont les deux premiers caractères sont le codet alpha-2 de l’entrée de l’ISO 3166 considérée, suivi d’un tiret, puis d’un code alphanumérique de longueur 1 à 3 (ainsi le département du Finistère est représenté par le codet « FR-29 » et fait partie de la région Bretagne, représentée par le codet « FR-E »).

Pour représenter la situation des territoires correspondant à des pays qui ont été retirés de l’ISO 3166 depuis sa création, en 1974, l’ISO 3166-3 construit un code alpha-4 dont les deux premières lettres sont le codet alpha-2 de l’entrée retirée (ainsi le codet PZPA signale que la zone du canal de Panama a été réintégrée dans le territoire du Panama en 1980).

Pour sa part, la norme expérimentale AFNOR XP Z 44-002[5] construit un code alpha-5 dont les trois premières lettres font référence au nom du pays considéré (et qui peut donc être le codet alpha-3 d’une entrée de l’ISO 3166-1), la quatrième lettre étant relative à l’éventuel « Empire historique » sous le contrôle politique duquel ce pays a pu se trouver (ainsi la Valachie, Principauté tributaire de l’Empire ottoman de 1829 à 1861 est représentée par le codet « VALOC », dont le « O » signale le contrôle par l’Empire ottoman).

Les codets alphabétiques sont construits généralement à partir de la partie significative du nom du pays ou territoire considéré en anglais ou en français, tel que fourni par le service de terminologie des Nations Unies qui publie les versions linguistiques de la forme longue et de la forme courte de chacun des 193 Etats membres de l’ONU dans chacune des six langues officielles (anglais, arabe, chinois, espagnol, français et russe) des Nations Unies.

Toutefois, le nom d’un pays dont la langue nationale s’écrit dans une variante de l’alphabet latin tel qu’il s’écrit dans cette langue nationale (« autonyme ») peut également être utilisé, comme c’est le cas pour « DEUTSCHLAND » qui sert à construire les codets alphabétiques « DE » et « DEU » correspondants.

Dans le cas où aucune des langues en vigueur dans le pays concerné ne s’écrit avec une variante de l’alphabet latin, les codets alphabétiques correspondants sont construits à partir d’une version « romanisée » de l’autonyme écrit dans une de ces langues.

Ainsi, la version romanisée du nom de l’Algérie écrit en arabe s’écrit « DJAZAIR », dont dérivent les codets alphabétiques correspondants « DZ » et « DZA ».

Les procédés de romanisation utilisés, transcription, translittération (ou même éventuellement phonétisation), sont spécifiques à chacune des langues concernées et suivent les recommandations du manuel[6] écrit par le Groupes des experts des Nations Unies sur les noms géographiques. En effet, l’exemple d’utilisation le plus ancien et le plus utilisé de transformation du nom d’un lieu géographique écrit dans la langue en vigueur dans ce lieu en une version écrite en latin est celui de la cartographie.

Les procédures utilisées sont identiques pour ce qui concerne les 56 autres entrées de l’ISO 3166-1, qui sont d’une part l’Antarctique (considéré comme un territoire unique, sans mention des revendications de souveraineté de certains Etats sur des parties de ce territoire. Ainsi le territoire des Terres australes et antarctiques françaises (TAAF) est-il réduit dans l’ISO 3166-1 au territoire des Terres australes françaises), le Saint-Siège (l’Etat de la cité » du Vatican), l’Etat palestinien et le Sahara occidental et d’autre part 52 territoires placés sous la souveraineté d’un Etat membre de l’ONU (dont 15 britanniques, 12 français, 6 américains, 4 australiens, 4 néerlandais, 3 chinois, 3 néo-zélandais, 2 danois, 2 norvégiens et 1 finlandais).

Codage des langues et des écritures

Pour arriver à ses fins dans ce registre, la norme ISO 3166-1 donne, à titre indicatif, la liste des « langues administratives » en vigueur dans chacune de ses 249 entrées. Définie comme une langue écrite couramment utilisée au niveau national par l’administration dans le pays ou territoire concerné, notamment pour l’écriture des lois et règlements, cette définition des « langues administratives » a l’avantage d’être opératoire. En effet, cela n’est pas le cas des notions de « langue nationale » ou de « langue officielle », qui ne sont pas universelles. Par exemple, la Constitution et le droit des Etats-Unis d’Amérique ne reconnaissent aucune langue possédant un tel statut (le néerlandais étant la seule langue ayant eu une chance d’y parvenir sous Peter Stuyvesant). Ainsi, la norme ISO 3166 utilise le codage des noms de langues proposé par la norme ISO 639[7] pour représenter les langues administratives (sauf deux exceptions, voir le paragraphe suivant). La norme ISO 639 compte cinq parties en vigueur en 2021[8]. Les codets alpha-2 et alpha-3 de la norme ISO 639 utilisent tous des lettres latines écrites en minuscule.

Pour coder les 118 langues administratives qu’elle reconnait, la norme ISO 3166 (parties 1 et 2) utilise préférentiellement les codets alpha-2 de l’ISO 639-1 dès que possible, mais cela peut ne pas suffire ; ainsi, assez inexplicablement, l’ISO 639-1 code dix des onze langues officielles de l’Afrique du Sud et l’Agence d’enregistrement chargée de la gestion de cette norme[9], refuse obstinément d’attribuer un codet alpha-2 pour le sotho du nord (ou pedi), qui est la dernière langue officielle en cause. En cas de nécessité, il faut se tourner vers les codets alpha-3 donnés par l’ISO 639-2, mais l’exercice se complique alors du fait que cette norme construit deux variantes dites l’une « B », bibliographique » et l’autre « T », « terminologique » dont les codets alpha-3 relatifs à une même langue peuvent ne pas être identiques. Ainsi, concernant la langue française, son codet ISO 639-2/B est « fre » et son codet ISO 639-2/T est « fra ». Les parties 1 et 2 de l’ISO 3166 n’utilisent que la variante « T ». Cela ne suffit pas encore et il faut parfois utiliser la « vocation à l’exhaustivité » des codets alpha-3 de l’ISO 639-3. Il se trouve malheureusement que cette « exhaustivité » n’est que relative car le seselwa et le shikomor, qui sont deux langues créoles ayant statut respectivement aux Seychelles et aux Comores ne sont codées nulle part dans la norme ISO 639.

En fait, la norme ISO 639 est encore plus délicate à gérer que lISO 3166, la définition d’une langue par « l’intercompréhension entre ses locuteurs », s’agissant des langues parlées, ou d’un « langage national des signes » (devenu pour l’occasion une « langue nationale des signes » pour devenir politiquement correct) étant difficile à mettre en œuvre, sans compter les fortes implications politiques et culturelles liées à la reconnaissance d’une langue. Ainsi, la considération de l’existence d’une seule et unique langue parlée chinoise, le mandarin, est une décision de nature politique qui est loin de faire l’unanimité, lorsque le critère de compréhension mutuelle est pris en compte et alors qu’une langue chinoise locale comme le cantonais (yue) compte plus de 70 millions de locuteurs, de même pour le chinois wu, qui compte plus de 80 millions de locuteurs. Par ailleurs, la disparition de la norme ISO 639 des codets représentant le « serbo-croate » résultant de la pression conjuguée des gouvernements croates et serbes a mis en fureur la Bibliothèque du Congrès des Etats-Unis, qui gouverne les normes ISO 639-2, 4 et 5, et gère le système MARC[10], format d’échange de données bibliographiques informatisées de catalogues de bibliothèques, cependant que la reconnaissance du monténégrin (nom de la langue officielle du Monténégro, peu différente du serbe), a été longue à être adoptée.

La norme ISO 15924 « Codes pour la représentation du nom des écritures » est intimement liée à l’ISO 639 ; et si elle n’apparait pas explicitement dans l’ISO 3166, elle lui est clairement liée implicitement.  L’ISO 15924 construit, d’une part, un code alpha-4, en lettres minuscules et, d’autre part, un code num-3 pour coder une liste d’environ 200 « noms d’écritures » (dont certains parfois contestables, comme « Zinh » et « 924 » pour représenter « codet pour écriture héritée »).

Cela est d’autant plus vrai que la norme ISO 15924 est également liée à la norme ISO/CEI 10646 « Technologies de l’information – Jeu universel de caractères », qui se donne pour objectif ultime de coder l’ensemble des systèmes d’écriture, c’est-à-dire l’ensemble des signes utilisés dans l’histoire de l’écriture.

Cette norme (qui spécifie le « Universal Coded Character Set (UCS) et construit 3 codes représentant chacun actuellement les plus de 120 000 signes écrits pris en compte) est désormais explicitement et « industriellement » utilisée par la norme ISO 3166 depuis que celle-ci est désormais disponible, à partir de 2020, à côté de ses versions linguistiques sur support papier écrites en anglais et en français, sous forme d’une base de données. En effet, le passage à ce support électronique nécessite le codage exhaustif et rigoureux par l’ISO 10646 de chacun des caractères utilisés dans l’écriture de la norme ISO 3166.

Les utilisations innombrables de la norme ISO 3166

Les utilisations de la norme ISO 3166 sont innombrables et nous n’en donnons ici qu’un aperçu.

Une des utilisations les plus importantes du code alpha-2 de l’ISO 3166-1 est son intervention dans le « Domain Net System » de l’Internet qui est maintenant géré directement par l’ICANN[11]. Chaque site présent dans l’Internet et chaque adresse électronique utilisant l’Internet sont identifiés par un nom, dont une partie est un « nom de domaine » de l’Internet.

Dans le cas d’une adresse électronique, le nom de cette adresse est formé d’une chaine de caractères séparée en deux parties par un signe « @ » (arobase). La partie située à droite de l’arobase constitue le nom de domaine correspondant à cette adresse, et la partie située le plus à droite de ce nom de domaine constitue (en y intégrant le signe « . ») le domaine de premier niveau/Top level domain » correspondant. Les noms des sites Internet ne comprennent pas de signe arobase, mais le domaine de premier niveau correspondant est encore la partie du nom de site située le plus à droite du « . ».  Les domaines de premier niveau appartiennent à l’une des deux catégories suivantes :

i) Les Generic Top Level Domains étaient initialement formés d’un point « . » suivi d’une suite formée de trois lettres de l’alphabet latin écrites en minuscule (« .com », « org», « net », « edu », « gov » et « mil » ). La contrainte des trois lettres a ensuite été levée, conduisant à une foison de nouveaux domaines génériques de premier niveau, dont les premiers créés ont été « aero », « biz », « coop », « info », « museum », « name » et « pro ».

ii) Les Country Code Top Level Domains (ccTLD)”, formés d’un point “.” suivi d’une suite de deux lettres de l’alphabet latin.

Les seules suites de deux lettres autorisées pour construire un ccTLD correspondent aux codets alpha-2 de la norme ISO 3166-1, à l’exception de « .uk » au lieu de « .gb », qui résulte d’une entourloupe faite par ses correspondants britanniques à Jon Postel, l’un des pionniers fondateurs de l’Internet, ainsi que de « .eu » qui résulte d’une décision prise exceptionnellement par l’ISO 3166/MA de réserver le codet « EU » à la demande de l’Union européenne.

L’introduction des langues administratives dans l’édition 2013 de la norme ISO 639 a joué un rôle moteur dans le mouvement dit « d’internationalisation des noms de domaine de l’Internet ». En effet, on ne pouvait initialement écrire le nom d’un site Internet, et en particulier le nom de domaine correspondant, qu’en utilisant uniquement et strictement les 26 lettres de l’alphabet latin de base. Il se trouve que cet alphabet est suffisant pour l’écriture d’une version simplifiée de la langue anglaise (et c’est un avantage considérable pour cette langue), alors que quasiment toutes les autres langues d’écriture latine ont besoin de signes supplémentaires, notamment diacritiques, même dans leur version la plus simple. Cette situation a engendré un grand nombre de plaintes auprès de l’ICANN, qui a d’abord tenté de résister en continuant de défendre fermement la rigueur et la simplicité de la syntaxe initiale, mais qui a finalement été obligé de céder. Tout le monde s’est alors mis d’accord pour n’accepter que les noms de sites (et de domaines) écrits dans l’une des langues administratives (et des écritures correspondantes) reconnues par l’ISO 3166 pour le pays ou territoire du lieu du siège de ce site.

La réservation exceptionnelle consentie par l’ISO 3166/MA du codet alpha-2 « EU » (et dans la foulée du codet alpha-3 « EUR ») de l’ISO 3166-1 a également permis à l’Union européenne d’obtenir le codet alpha-3 « EUR » pour coder sa monnaie, l’Euro, dans la norme ISO 4217 « Codes pour la représentation (du nom) des monnaies ». En effet cette norme construit deux codes pour la représentation du nom des monnaies :

i) d’une part, un code « num-3 »

ii)  d’autre part, un code « alpha-3 », écrit en majuscules et  dont les deux premières lettres sont celles du codet alpha-2 de la norme ISO 3166-1 du pays émetteur de la monnaie considérée et dont la troisième lettre représente le nom de cette monnaie, comme «CHF » pour le franc suisse, « CNY » pour le yuan chinois, « USD » pour le dollar américain, « GBP » pour la livre sterling britannique, « JPN » pour le yen japonais ou « RUB » pour le rouble russe (et dans ce cas, tous les pays concernés disposent d’une seule monnaie, à l’unique exception de Cuba qui semble encore disposer de deux monnaies, le peso cubain interne « CUP » et le peso cubain convertible « CUC »). Dans les autres cas, la première lettre du codet alpha-3 de l’ISO 4217 est la lettre « X », comme dans « XAF » pour le franc CFA, « XCD » pour le dollar des Caraïbes orientales, etc.

Le codet « EUR » représente l’Euro, monnaie de la zone euro de l’Union européenne, laquelle avait été fort marrie de ne pouvoir obtenir le codet alpha-3 « ECU » de l’ISO 4217 pour représenter l’ecu[12], en raison du fait que le codet alpha-2 « EC » (et d’ailleurs aussi le codet alpha-3 « ECU ») représentent l’Equateur dans l’ISO 3166-1, et avait dû se satisfaire du codet alpha-3 « XEU ».

La norme ISO 9362 « Banque – Messages bancaires télétransmis – Code d’identification des banques » utilise également les codets alpha-2 de l’ISO 3166-1 pour construire le code BIC[13], géré par SWIFT[14], qui identifie chaque banque du monde par un code alphabétique écrit en lettres majuscules utilisant 8 lettres (ou 11 lettres, s’agissant des succursales) dont le codet alpha-2 du pays du lieu d’implantation de la banque en position 5 et 6.

Il en va aussi ainsi pour la norme ISO 13616[15] qui construit, pour identifier l’ensemble des comptes bancaires du monde, le code IBAN, constitué de 34 caractères alphanumériques au maximum (27 en France), dont les deux premiers sont obligatoirement le codet alpha-2 de l’ISO 3166-1 représentant le pays (ou le territoire) dans lequel est située la banque qui tient ce compte.

De même, la norme ISO 10383[16] fournit une structure uniforme pour les codes d’identification des échanges et des marchés par le code MIC[17], code « alpha-4 » écrit en majuscule, dont chaque codet est relié au codet alpha-2 de l’ISO 3166-1 du lieu du marché concerné.

De même, encore, la norme ISO 6166 construit le code ISIN[18], qui identifie les valeurs mobilières cotées sur les marchés par un code alphanumérique à 12 caractères, dont les deux premiers sont le codet alpha-2 de l’ISO 3166-1 du pays (ou territoire) d’émission de la valeur mobilière concernée.

Dans un tout autre domaine, la norme ISO 6346[19] établit un système d’identification visuelle de chaque conteneur qui comprend un numéro de série unique (avec une clé de contrôle), géré par le Bureau international des conteneurs, comprenant l’identification du propriétaire, le code pays correspondant à ce propriétaire (codé par le codet alpha-2 de l’ISO 3166-1), ainsi qu’une taille, un type et une catégorie d’équipement.

Pour sa part, la norme ISO 7372[20], relative aux données commerciales, utilise le code alpha-2 de l’ISO 3166-1. Il en va de même pour le LOCODE[21], devenu le « United Nations Code for Trade and Transport », qui utilise un code alpha-5 dont les deux premières lettres sont les codets alpha-2 pour coder 103 034 lieux situés dans les 249 pays et territoires de l’ISO 3166-1.

Finalement, la principale utilisation du code alpha-3 de l’ISO 3166-1 est celle qu’en fait la norme ISO/IEC 7501-1[22] pour les documents de voyage. En fait, les trois parties de la norme ISO /IEC 7501 ne font qu’entériner le texte des trois parties de document de spécification technique 9303 « Documents de voyage lisibles par machine » publié par l’Organisation de l’aviation civile internationale (OACI). La partie 1 « Passeports lisibles par machine » du document 9303 de l’OACI construit dans l’appendice 7 de sa section 4 un code à trois lettres, en majuscule, explicitement présenté comme une extension du code alpha-3 de l’ISO 3166-1 qui est utilisé, notamment, dans tous les aéroports internationaux du monde lors du passage en douane.

Ce code à trois lettres comprend trois parties :

  • La partie A « Code pour la désignation de la nationalité, du lieu de naissance ou de l’Etat émetteur/autorité émettrice » reprend la quasi-totalité des codets alpha-3 de l’ISO 3166-1;
  • La partie B « Codes pour le Laissez-passer des Nations Unies » compte les trois codets, « UNO » (désigne l’ONU ou un de ses fonctionnaires), « UNA » (désigne une agence spécialisée des Nations Unies, ou l’un de ses fonctionnaires) et « UNK » (désigne un résident du Kosovo à qui un document de voyage a été délivré par la MINUK[23] ;
  • La partie C « Codes pour personnes sans nationalité définie » compte les quatre codets « XXA » (Apatride, selon la définition figurant à l’article 1er de la Convention de 1954 relative aux apatrides), « XXB » (Réfugié, selon la définition figurant à l’article 1er de la Convention  de 1951 relative au statut des réfugiés, amendée par le Protocole de 1967), « XXC » (Réfugié, autre que selon la définition donnée sous le code XXB ci-dessus) et « XXD » (Personne de nationalité non spécifiée, pour qui l’Etat émetteur ne juge nécessaire de spécifier aucun des codes ci-dessus, quel que puisse être le statut de cette personne. Cette catégorie peut comprendre une personne qui n’est ni apatride ni réfugiée mais qui est de nationalité inconnue et qui réside légalement dans l’Etat d’émission).

 

Mots-clés : Normes pour le Codage des Entités Géopolitiques et Culturelles


[1] ISO n’est ni un sigle, ni un acronyme, mais un nom construit à partir du préfixe iso-, qui a pour origine le grec ancien « isos qui signifie « égal »

[2] Domaine géré, parfois conjointement avec l’ISO, par la Commission électrotechnique internationale, CEI/IEC

[3] Code pour la représentation des noms de pays historiques 

[4] Code normalisé des pays et des zones à usage statistique 

[5] Dont l’annexe B utilise un partage du territoire mondial en 34 « ensembles géohistoriques »

[6] Technical reference manual for the standardization of geographical names 

[7] Codes pour la représentation des noms de langue 

[8] L’ISO 639-1 « Partie 1 ; Code alpha-2 », l’ISO 639-2 « Partie 2 : Code alpha-3 », l’ISO 639-3 « Partie 3 : Code alpha-3 pour un traitement exhaustif des langues », l’ISO 639-4 « Partie 4 : Principes généraux pour le codage et la représentation des noms de langues et d’entités connexes et lignes directrices pour la mise en œuvre » et l’ISO 639-5 « Partie 5 : Code alpha-3 pour les familles de langues et groupes de langues ».

[9] International Information Centre for Terminology (INFOTERM)

[10] Machine Readable Cataloging

[11] Internet Corporation for Assigned Names and Numbers

[12] European Currency Unit/ Unité de compte européenne

[13] Bank Identifier Code

[14] Society for worldwide Interbank Financial Telecommunications

[15] Financial Services – International bank account number IBAN 

[16] Codes pour échange et identification de marchés (MIC, Market Identification Code)

[17] Market Identification Code

[18] Système international de numérotation pour l’identification des valeurs mobilières/International Securities Identification Number

[19] Conteneurs pour le transport des marchandises – Codage, identification et marquage 

[20] « Echange de données dans le commerce – Répertoire d’éléments de données commerciales »

[21] United Nations Code for Ports and other Locations

[22] Cartes d’identification – Documents de voyage lisibles par machines – Passeports lisibles par machines 

[23] Mission d’administration intérimaire des Nations Unies au Kosovo

Gérard Lang
Les derniers articles par Gérard Lang (tout voir)