l'UTF-8 sur Usenet-fr

Discussion:

(trop ancien pour répondre)

JL Picard

2004-01-03 11:12:41 UTC

Article posté sur fud, fr.soc.culture.[japon|chine] et
fr.comp.normes.unicode. Suivi sur fud, merci de le respecter.

Bonjour à tous,

Près de 80 articles en réponse au message titré "Test Code".. content de
voir que le sujet suscite l'attention.
Je me permet un petit résumé de la discussion, un peu à la manière d'un
message titré [AAD N+1] sur fufe :

Jean-Victor Gruat a signalé un filtrage nouveau sur le serveur de
free : impossible de poster en UTF-8 sur fr.soc.culture.chine et
fr.soc.culture.japon. En effet, les règles en vigueur sur fr.* ne
permettent pas de poster en UTF-8 en dehors de quelques forums de
fr.lettres.langue.*, et François Pétillon (newsmaster chez free.fr) a
décidé de respecter ces règles à la lettre [A].

Ce fût donc l'occasion de rappeler qu'il est bien difficile de parler
de la culture d'une région ou d'un peuple, sans pouvoir utiliser sa
langue et, a fortiori, représenter son écriture.
L'utilisation d'iso-8859-1(5), en vigueur sur fr, est incompatible avec
la représentation des caractères non-latins utilisés dans les parties du
monde en question. L'utilisation de jeux de caractères locaux (GB, BIG5,
JIS, ..) est proscrite, car bien trop difficile à harmoniser, et de
toutes façons incompatible avec un codage correct des particularités de
l'écriture française (lettres accentuées, cédille, ligature, ..).

Une solution semble pointer le bout de son nez : permettre, quand celà
est nécessaire, l'utilisation d'UTF-8 - UTF-8 étant un codage d'Unicode,
offrant la possibilité de coder les caractères latins d'iso-8859-1 et
iso-8859-15, mais aussi les caractères non latins des langues grecque,
arabe, chinoise, japonaise, ...
L'inconvénient d'Unicode est que quelques utilisateurs (dont je fais,
pour le moment, partie) ne peuvent pas le lire, et voient les accents
français remplacés par des Ã© et autres Ã .

Les articles postés dans fr.* sont, d'après les regles de la hiéarchie,
censés être postés en iso-8859-1 (ou, par défaut en ASCII). Pour
certains groupes, la charte prévoit qu'un autre jeu de caractère comme
l'UTF soit utilisable.

Au passage, j'en profite pour répondre à quelques remarques qui ont

Non, sinon d'un point de vue plus large et en mettant Free à part,
certes, l'iso 8859-1 / 15 est en règles, mais ne serait-il pas temps
d'accepter que l'Unicode puisse être utilisée sur toute la hiérarchie ?

Aucun intéret d'étendre Unicode à toute la hiérarchie pour le moment,
il me semble. Unicode présente un inconvénient : il n'est pas
(complètement) décodable par tout le monde. La grande majorité des
intervenants d'Usenet-fr écrivent en Français uniquement, et se fichent
des avantages apportés par Unicode ; cela me parrait inutile de leur
imposer l'inconvénient donné un peu plus haut.

Pour ce qui est des articles en Français, et ne nécessitant pas d'écrire
des caractères non-latins, Florent Faessel pose la bonne quesiton dans

Et ça apporterait quoi de plus par rapport à l'iso-8859-15 ?

=> rien.

Michel Guillou enfonce le clou dans

l'utilisaient déjà en 97 mais il y avait toujours un dino énervé,
perfide et
rétif à tout progrès pour faire la remarque de l'inutilité des
accents.

Si je puis me permettre, c'est aussi en soit le cas pour l'unicode.

Non, aucun rapport. Fr est francophone, ce qui légitimait l'utilisation
d'une table sur 8 bits. Le français n'a pas besoin d'Unicode.

A propos de l'encodage des caractères :

Justin Pochard, malgré la grande pertinence à laquelle il nous avait

Le codage n'est pas important: c'est que qui est exprimé avec qui doit
primé.

Oui mais non.
Si je veux parler de certains aspects de la culture chinoise, et
illustrer mon propos par quelques exemples, l'iso-8859-1 est parfois
une vraie limitation. Certes, il restera toujours la possibilité de
transcrire en pinyin, mais c'est tout à fait insuffisant pour exprimer
certains concepts.

Je donne un exemple : certains jeux de mots chinois consistent à
utiliser des mots dont les prononciations sont proches (forte ambiguïté),
mais dont l'écriture et le sens sont tout à fait différents.
Une transcription Pinyin montrera deux phrases quasiment identiques, et
rendra la subtilité quasiment impossible à comprendre pour le lecteur.
Là, utiliser un codage adapté représente une vraie valeur ajoutée !

(si vous ne comprennez pas ce que je veux dire, essayez de faire un jeu
de mot français sans utiliser la langue française, pour voir...)

Oui ben ce sera non. Unicode c'est 2 octets par caractère et les
lecteurs actuels ne le supportent pas, tandis que l'ISO-truc est
compatible.

C'est complètement faux. Unicode ne prend pas 2 octets par caractère,
d'une part parce qu'Unicode n'est pas un système de codage mais une
(des) table(s) de caractères, ensuite parceque les caractères ASCII
standards (0-127 dans la table ASCII) sont représentés de la même façon
(donc 1 octet/caractère) et enfin parce que les caractères "exotiques"
peuvent être codés sur plus de 2 octets.

Voir la réponse de Denis Liégeois dans <***@neottia.net>.

En gros, un texte en français comprenant 5% de caractères n'appartenants
pas à la table ASCII standard pèsera 5% de plus. Si cela génait vraiment
qui que ce soit, les signatures seraient limitées à 2 lignes de 40
caractères :-)

Ou alors il est grand temps de mettre son
lecteur de news favori (ou son système d'exploitation) à jour...

Pourquoi faire ?
Première règle de l'utilisateur : quand ça marche, ne toucher à RIEN.

Justement : actuellement, ca ne marche pas, donc il faudrait envisager
de toucher un peu.
Il est admis qu'UTF-8 est une bonne solution pour les forums traitant
des langues ne disposant pas d'un système d'écriture latin.
Ca n'est pas le cas pour les forums ou l'on parle de la culture d'un pays
qui utilise ce même type de systèmes d'écriture.

Pourquoi ?
Pourquoi fllj peut-il accueillir de l'utf-8, et pas fscj ?

J'ai beau retourner la question dans tous les sens, je ne vois aucune
bonne raison.

Répéter à tous les messages
qu'unicode est l'avenir n'en fera pas une vérité pour autant. Vous n'en
savez strictement rien.

Absolument.
Cependant, actuellement, c'est la solution la plus aboutie et efficace.
Je ne vois aucune alternative possible, dans les 2 ou 3 années à venir.
Et vous ?

Pour conclure :

Ne pensez-vous pas que l'on pourrait permettre l'UTF-8 dans les forums
qui en ont vraiment besoin ?

Pensez-vous que l'on puisse arriver à un consensus (et éventuellement à
la rédaction ou la modification d'un document) sur fr.usenet.divers, ou
faudrait-il envisager un passage sur fufe, avec modification de charte à
la clef ?

Merci de vos suggestions et commentaires.

--
Jean-Laurent Picard
Hi! I'm a .signature virus! Copy me into your ~/.signature, please!

Lo' (par cybercafe)

2004-01-29 12:34:32 UTC