La liste de caractères unicode et ses codages n'est pas [parfaite].
Je ne crois pas qu'elle y prétende non plus. Elle cherche juste à être
meilleure que ce qui précédait.
Parmi les critiques qui lui sont faites, plusieurs concernent les
caractères Kanji et hanzi.
Plusieurs ? Je n'en vois qu'une ici...
Les sinogrammes varient en apparence selon le
[pays] (Chine, Corée, Japon), mais ils ne sont écrit que une seule
[fois] dans unicode,
Oui.
donc les différences d'apparence ne peuvent être rendues
que par les polices d'affichage.
Non. Il est parfaitement possible avec Unicode de rendre un mot "chinois"
avec les idéogrammes utilisés normalement au Japon. Le résultat peut être
resenti comme plus lisible ou moins lisible, selon l'interlocuteur (japonais
bien sûr, les autres n'ont pas de raison d'avoir d'avis).
Reprenons un exemple similaire mais qui est plus commun aux Français :
l'allemand, jusqu'à peu, était écrit soit avec les mêmes caractères que le
français, soit avec les caractères gothiques imités de la bible de
Gutemberg. D'après ce que je comprends, il y a 70 ans, en Allemagne, il
était mieux vu de le présenter de la deuxième manière (je n'y étais pas pour
en être sûr, mais c'est l'impression que cela a donné à mon père et à mon
grand père). D'un autre côté, ou plutôt de l'autre côté (du Rhin), tout le
monde préfère la première forme ! Évidemment, il n'y a aucune différence de
signification.
Maintenant, si on veut mettre en exergue un mot allemand dans un texte en
français, il est (était) possible de l'écrire en gothique plutôt qu'en
italique. La seule différence, c'est la facilité de lecture du résultat, il
n'y a pas de différence sur le fond.
Unicode ne se préoccupe que du fond, pas de savoir si c'est du français ou
de l'allemand. Donc il donne les mêmes codes aux deux formes. Et fait de
même avec les caractères chinois.
On doit donc spécifier la langue ou la police pour obtenir l'apparence
désirée.
Exactement. De la même manière que pour lire ce texte, TU as spécifié au
logiciel qui te le montre une police à utiliser. C'est une constante de la
présentation des textes.
Or du texte brut, tels que
les fichierse informatiques *.txt sous DOS, ne possède pas ces
informations (au contraire de HTML, par exemple, dont les balises
peuvent avoir une valeur lang ou xml:lang). Est-ce réhibitoire ?
Je ne le pense pas. D'autant moins pour l'exemple que tu choisis: avant
Unicode, les fichiers *.txt sous DOS (contrairement à ceux dans un mainframe
IBM, ou aux messages e-mail en ISO-2022) ne portaient aucune information
pour savoir s'il s'agissait de chinois ou de japonais, il fallait un
contexte. Ce n'était pas _rédhibitoire_, que je sache (en tous cas, cela ne
l'était pas pour moi ;-)).
Bien sûr, le dit contexte est TRÈS différent: avant, l'esprit humain faisait
instantanément la différence, et si le résultat était indéchiffrable, cela
signifiait qu'il fallait changer d'idée sur l'encodage. Avec Unicode, le
résultat n'est jamais indéchiffrable (en l'absence d'erreur de transmission,
et en présence des polices adéquates), mais par contre il peut être
«illisible» si tu n'as pas les «bonnes» polices. L'esprit humain va là
encore faire très rapidement la différence: par exemple, toute apparition de
hiragana ou de hangeûl dénonce immédiatement du japonais ou du coréen.
Par contre, Unicode offre des possibilités supplémentaires, par exemple
insérer du chinois dans un texte en japonais. Et il le fait d'une manière
différente de ce qui se pouvait faire par le passé, donc certains types de
mélanges apparaissent de manière plus évidente. De la même manière que
l'utilisation du gothique dans un texte en français vers 1960 dénonçait
immanquablement une portion en allemand, vers 1990 l'utilisation de
caractères chinois non communs en japonais sautait immédiatement aux yeux.
Dans le premier cas, la culture a évolué.
Antoine