Discussion:
l'allemand et le français -- problèmes sous UTF-8
(trop ancien pour répondre)
Anya
2004-12-03 20:50:13 UTC
Permalink
Chers gurus,

Ma société maintient des sites en plusieurs langues, dont le chinois,
le russe, l'allemand, le français, etc., etc.. Jusqu'à hier, nous
n'indiquions pas l'encodage et le CODEPAGE que pour les pages en
dehors de iso-8859-1, pas pour l'allemand ou le français. Aujourd'hui,
nous avons commencé à définir l'encodage (utf-8) globalement, au
niveau serveur ("http header"). Cela fonctionne très bien pour le
chinois, le japonais, et le russe, mais, d'un coup, c'est l'allemand
et le français qui posent des problèmes. Le navigateur (IE 6) devient
fixé sur l'encodage utf-8 et interprète les umlaut et les accents
comme du charabia. Si je change l'encodage manuellement dans le
navigateur à "Western European - Windows", tout redevient normal, mais
ce n'est pas pratique comme solution.

Les caractères windows-1252, ne font-ils pas partie de l'ensemble de
caractères Unicode?
Où est l'erreur?

Merci d'avance.

==Anya
Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
2004-12-03 22:29:07 UTC
Permalink
Bonsoir !

Je n'y connais pas grand chose, mais il me semble que, entre cp-1252 et
utf-8, seuls les 127 premiers caractères ont un codage commun.
Sinon, le problème que tu signales arrive régulièrement avec les e-mails en
HTML, si l'on n'a pas fait attention.

@-salutations
--
Michel Claveau
Olivier Miakinen
2004-12-03 22:57:25 UTC
Permalink
Post by Anya
Ma société maintient des sites en plusieurs langues, dont le chinois,
le russe, l'allemand, le français, etc., etc.. Jusqu'à hier, nous
n'indiquions pas l'encodage et le CODEPAGE que pour les pages en
dehors de iso-8859-1, pas pour l'allemand ou le français.
C'était en effet l'encodage par défaut il y a quelques années, défaut
qui a été vivement critiqué par tous ceux dont la langue n'est pas
représentable en ISO-8859-1. Tu fais bien de vouloir changer et déclarer
tous les encodages.
Post by Anya
Aujourd'hui, nous avons commencé à définir l'encodage (utf-8)
globalement, au niveau serveur ("http header"). Cela fonctionne très
bien pour le chinois, le japonais, et le russe, mais, d'un coup,
c'est l'allemand et le français qui posent des problèmes.
Normal si vous ne changez pas l'encodage réel des pages.
Post by Anya
[...]
Les caractères windows-1252, ne font-ils pas partie de l'ensemble de
caractères Unicode?
Attention, il ne faut pas confondre !

1) Tous les caractères de tous les encodages standards font partie de
l'ensemble des caractères Unicode MAIS aucun encodage (sauf ASCII 7
bits) n'est identique à UTF-8.

2) UTF-8 peut représenter tous les caractères Unicode MAIS UTF-8 n'est
pas Unicode.

3) En dehors de la partie commune à ASCII 7 bits, l'encodage de
windows-1252 n'est PAS identique à UTF-8.

4) TOUS les caractères valides de ISO-Latin-1 existent aussi dans
windows-1252, et s'encodent de la même façon.

5) TOUS les caractères valides de ISO-Latin-1 existent aussi dans
Unicode, et portent le même numéro dans ISO-Latin-1 et dans Unicode
MAIS ils ne s'encodent pas de la même façon en ISO-Latin-1 et en
UTF-8.


Par exemple, un /é/ (numéro unicode 233, numéro ISO-Latin-1 233,
numéro windows-1252 233), sera encodé par un simple octet valant
233 en ISO-Latin-1 et en windows-1252, mais par deux octets valant
respectivement 195 et 169 en UTF-8.

------------------------------------------------------------------------

En conclusion : soit tu déclares un encodage différent pour les pages en
français et en allemand et pour les autres, soit tu traduis en UTF-8
toutes les pages qui étaient en ISO-Latin-1 ou en windows-1252.
Jacques Andre
2004-12-06 07:45:59 UTC
Permalink
Post by Anya
Les caractères windows-1252, ne font-ils pas partie de l'ensemble de
caractères Unicode?
Non...
Post by Anya
Où est l'erreur?
de croire que les codages propriétaires sont universels.

Pour être concrêt : il faut que vousr ecodiez tous vos textes en
utilisant par exemple recode (monde unix/linux) (voire des choses comme
MSWord,et autres éditeurs qui peuvent changer le codage)

J.A.
nurka7
2004-12-06 15:05:24 UTC
Permalink
Merci à tous! C'est beaucoup plus clair maintenant.

==Anya

Loading...