Discussion:
Kanji, hanzi et Unicode
(trop ancien pour répondre)
Nicolas Krebs
2004-05-12 14:55:50 UTC
Permalink
Bonjour,

Corrigez moi si je me trompe.

La liste de caractères unicode et ses codages n'est pas pafaite.
Parmi les critiques qui lui sont faites, plusieurs concernent les
caractères Kanji et hanzi. Les sinogrammes varient en apparence selon le
payus (Chine, Corée, Japon), mais ils ne sont écrit que une seule faois
dans unicode, donc les différences d'apparence ne peuvent être rendues
que par les polices d'affichage. On doit donc spécifier la langue ou la
police pour obtenir l'apparence désirée. Or du texte brut, tels que les
fichierse informatiques *.txt sous DOS, ne possède pas ces informations
(au contraire de HTML, par exemple, dont les balises peuvent avoir une
valeur lang ou xml:lang). Est-ce réhibitoire ?

http://www.w3.org/International/tutorials/tutorial-lang/
Loading Image...
est une image montrant différentes graphies de sinogrammes.
Laurent Wacrenier
2004-05-12 15:16:31 UTC
Permalink
Post by Nicolas Krebs
police pour obtenir l'apparence désirée. Or du texte brut, tels que les
fichierse informatiques *.txt sous DOS, ne possède pas ces informations
(au contraire de HTML, par exemple, dont les balises peuvent avoir une
valeur lang ou xml:lang). Est-ce réhibitoire ?
C'est un bug connu du format texte. Il n'y a pas besoin d'invoquer le
chinois pour s'en rendre compte, par exemple si vous voulez que votre
document puisse être compris oralement, il faut qu'il soit prononcé en
tenant compte de la langue.
Antoine Leca
2004-05-12 16:25:07 UTC
Permalink
La liste de caractères unicode et ses codages n'est pas [parfaite].
Je ne crois pas qu'elle y prétende non plus. Elle cherche juste à être
meilleure que ce qui précédait.
Parmi les critiques qui lui sont faites, plusieurs concernent les
caractères Kanji et hanzi.
Plusieurs ? Je n'en vois qu'une ici...
Les sinogrammes varient en apparence selon le
[pays] (Chine, Corée, Japon), mais ils ne sont écrit que une seule
[fois] dans unicode,
Oui.
donc les différences d'apparence ne peuvent être rendues
que par les polices d'affichage.
Non. Il est parfaitement possible avec Unicode de rendre un mot "chinois"
avec les idéogrammes utilisés normalement au Japon. Le résultat peut être
resenti comme plus lisible ou moins lisible, selon l'interlocuteur (japonais
bien sûr, les autres n'ont pas de raison d'avoir d'avis).

Reprenons un exemple similaire mais qui est plus commun aux Français :
l'allemand, jusqu'à peu, était écrit soit avec les mêmes caractères que le
français, soit avec les caractères gothiques imités de la bible de
Gutemberg. D'après ce que je comprends, il y a 70 ans, en Allemagne, il
était mieux vu de le présenter de la deuxième manière (je n'y étais pas pour
en être sûr, mais c'est l'impression que cela a donné à mon père et à mon
grand père). D'un autre côté, ou plutôt de l'autre côté (du Rhin), tout le
monde préfère la première forme ! Évidemment, il n'y a aucune différence de
signification.

Maintenant, si on veut mettre en exergue un mot allemand dans un texte en
français, il est (était) possible de l'écrire en gothique plutôt qu'en
italique. La seule différence, c'est la facilité de lecture du résultat, il
n'y a pas de différence sur le fond.

Unicode ne se préoccupe que du fond, pas de savoir si c'est du français ou
de l'allemand. Donc il donne les mêmes codes aux deux formes. Et fait de
même avec les caractères chinois.
On doit donc spécifier la langue ou la police pour obtenir l'apparence
désirée.
Exactement. De la même manière que pour lire ce texte, TU as spécifié au
logiciel qui te le montre une police à utiliser. C'est une constante de la
présentation des textes.
Or du texte brut, tels que
les fichierse informatiques *.txt sous DOS, ne possède pas ces
informations (au contraire de HTML, par exemple, dont les balises
peuvent avoir une valeur lang ou xml:lang). Est-ce réhibitoire ?
Je ne le pense pas. D'autant moins pour l'exemple que tu choisis: avant
Unicode, les fichiers *.txt sous DOS (contrairement à ceux dans un mainframe
IBM, ou aux messages e-mail en ISO-2022) ne portaient aucune information
pour savoir s'il s'agissait de chinois ou de japonais, il fallait un
contexte. Ce n'était pas _rédhibitoire_, que je sache (en tous cas, cela ne
l'était pas pour moi ;-)).

Bien sûr, le dit contexte est TRÈS différent: avant, l'esprit humain faisait
instantanément la différence, et si le résultat était indéchiffrable, cela
signifiait qu'il fallait changer d'idée sur l'encodage. Avec Unicode, le
résultat n'est jamais indéchiffrable (en l'absence d'erreur de transmission,
et en présence des polices adéquates), mais par contre il peut être
«illisible» si tu n'as pas les «bonnes» polices. L'esprit humain va là
encore faire très rapidement la différence: par exemple, toute apparition de
hiragana ou de hangeûl dénonce immédiatement du japonais ou du coréen.

Par contre, Unicode offre des possibilités supplémentaires, par exemple
insérer du chinois dans un texte en japonais. Et il le fait d'une manière
différente de ce qui se pouvait faire par le passé, donc certains types de
mélanges apparaissent de manière plus évidente. De la même manière que
l'utilisation du gothique dans un texte en français vers 1960 dénonçait
immanquablement une portion en allemand, vers 1990 l'utilisation de
caractères chinois non communs en japonais sautait immédiatement aux yeux.
Dans le premier cas, la culture a évolué.


Antoine
Nicolas Krebs
2004-10-16 21:46:57 UTC
Permalink
Bonjour,
Post by Antoine Leca
Post by Nicolas Krebs
Les sinogrammes varient en apparence selon le
[pays] (Chine, Corée, Japon), mais ils ne sont écrit que une seule
[fois] dans unicode,
Oui.
l'allemand, jusqu'à peu, était écrit soit avec les mêmes caractères que
le français, soit avec les caractères gothiques imités de la bible de
Gutemberg.
Pourtant, des rumeurs datant de cette année parlent d'inscriptions
séparées dans unicodes des caractères des alphabets grec et copte,
hébreu et phénicien (et même latin et latin en écriture gothique) ???
Xavier Roche
2004-10-18 06:14:29 UTC
Permalink
Post by Nicolas Krebs
(et même latin et latin en écriture gothique) ???
L'intervalle 10330–1034F y est consacré
(<http://www.unicode.org/charts/PDF/U10330.pdf>), mais c'est bien du
"vrai" gothique (pas du "style" gothique)
Nicolas Krebs
2005-04-01 19:30:58 UTC
Permalink
Bonjour,
Post by Nicolas Krebs
Post by Antoine Leca
Post by Nicolas Krebs
Les sinogrammes varient en apparence selon le
[pays] (Chine, Corée, Japon), mais ils ne sont écrit que une seule
[fois] dans unicode,
Oui.
l'allemand, jusqu'à peu, était écrit soit avec les mêmes caractères que
le français, soit avec les caractères gothiques imités de la bible de
Gutemberg.
Pourtant, des rumeurs datant de cette année parlent d'inscriptions
séparées dans unicodes des caractères des alphabets grec et copte,
hébreu et phénicien (et même latin et latin en écriture gothique) ???
Je faisai allusion à des discussions dans le forum de discussion
principal d'unicode (1) en mai 2004 (2). Les articles|messages dont le
titre contient « Greek », « Coptic », « Hebrew », « Phoenician »,
ou « Fraktur » (3).

La version 4.1.0 de unicode ( http://www.unicode.org/versions/Unicode4.1.0/ ),
annoncée hier, comprend, codés spécifiquement, les caractères grecs
(code ISO 15924 Grek) et coptes (code ISO 15924 Copt), hébreux (code ISO
15924 Hebr) mais pas (prévu pour la version 5 d'après
http://www.unicode.org/charts/ ) phéniciens (code ISO 15924 Phnx),
latins (code ISO 15924 Latn) mais pas latins de style gothique (bien que
presque tous ou tous soient inscrits dans unicode 4 comme caractères
mathématiques, code ISO 15924 Latf), ainsi que les caractères gotiques
(ou gothiques, les caractères pour la langue des Goths, code ISO 15924
Goth, lire news:ckvn05$j2i$***@news.httrack.net ), glagolitiques (code
ISO 15924 Glag), tifinagh(s?) (code ISO 15924 Tfng).

ISO 15924 ( http://www.unicode.org/iso15924/ ) c'est vraiment une bonne
idée et une création utile.

Vivement rfc 3066 bis (cf. http://users.adelphia.net/~dewell/ ).

1 : Sous la forme d'une « liste de discussion » (« mailling list ») par
courrier électronique ***@unicode.org. Cf.
http://www.unicode.org/consortium/distlist.html .
2 : http://www.unicode.org/mail-arch/unicode-ml/y2004-m05/
3 : Par exemple les messages
http://www.unicode.org/mail-arch/unicode-ml/y2004-m05/1308.html et
http://www.unicode.org/mail-arch/unicode-ml/y2004-m05/1491.html

Loading...