Désormais plus de pages internet en Unicode qu'en ASCII ou dans les,codages Latin-1

Discussion:

(trop ancien pour répondre)

Pierre Bleau

2008-07-18 20:36:05 UTC

Lu sur Unicode-afrique :

Désormais plus de pages internet en Unicode qu'en ASCII ou dans les
codages Latin-1 (ISO 8859-1 et Windows 1252)

http://hapax.qc.ca/Unicode-depasse-les-autres-codages.html

moky

2008-07-18 21:58:57 UTC

Permalink

D�sormais plus de pages internet en Unicode qu'en ASCII ou dans les
codages Latin-1 (ISO 8859-1 et Windows 1252)
http://hapax.qc.ca/Unicode-depasse-les-autres-codages.html

Tu postes ça un vendredi. Y'a un message caché, ou bien tu voulais
juste partager l'information ?

Moi je trouve que c'est une bonne nouvelle.

bonne nuit
Laurent

mpg

2008-07-18 23:38:19 UTC

Permalink

Post by moky
Moi je trouve que c'est une bonne nouvelle.

M'itou ! :-)

Manuel.

PS : une bonne nouvelle n'est jamais un troll, non ?

Méta-MCI (MVP)

2008-08-03 05:12:57 UTC

Permalink

'soir !

Quoi ? Quoi ? Quoi ? Des pages en Unicode ?
Ne serait-ce pas, plutôt, des pages encodées en UTF-8, UTF-16, CJK, etc.
?
Auquel cas, on pourrait aussi considérer les pages en Latin-1 (et
consorts), comme des pages Unicode encodée en Latin-1.

Bonne soirée.

Michel Claveau

Mayeul

2008-08-04 09:48:15 UTC

Permalink

Post by MÃ©ta-MCI (MVP)
Quoi ? Quoi ? Quoi ? Des pages en Unicode ?
Ne serait-ce pas, plutôt, des pages encodées en UTF-8, UTF-16, CJK, etc.

Hmm, non, quand on parle d'Unicode, c'est pas plutôt du CJK.

Post by MÃ©ta-MCI (MVP)
Auquel cas, on pourrait aussi considérer les pages en Latin-1 (et
consorts), comme des pages Unicode encodée en Latin-1.

Pas bête. Et on pourrait aussi considérer le russe comme du togolais
encodé en russe.
Et le cyan comme du rouge encodé en cyan.

--
Mayeul

Olivier Miakinen

2008-08-04 21:31:14 UTC

Permalink

Post by Mayeul

Post by MÃ©ta-MCI (MVP)
Quoi ? Quoi ? Quoi ? Des pages en Unicode ?
Ne serait-ce pas, plutôt, des pages encodées en UTF-8, UTF-16, CJK, etc.

La page <http://hapax.qc.ca/Unicode-depasse-les-autres-codages.html>
citée dans l'article initial montre bien qu'il s'agit en fait d'UTF-8.

Post by Mayeul
Hmm, non, quand on parle d'Unicode, c'est pas plutôt du CJK.

À mon humble avis, la boutade de 3M était une façon de rappeler
qu'Unicode est censé rassembler la totalité des caractères que l'on
trouve dans les encodages habituels, donc par exemple ceux d'ASCII,
d'ISO Latin1, ou de CJK.

Cela dit, les numéros de caractères en ASCII ou en ISO Latin1 sont les
mêmes dans la numérotation Unicode, mais je doute qu'il en aille de même
pour CJK.

Post by Mayeul

Post by MÃ©ta-MCI (MVP)
Auquel cas, on pourrait aussi considérer les pages en Latin-1 (et
consorts), comme des pages Unicode encodée en Latin-1.

Pas bête. Et on pourrait aussi considérer le russe comme du togolais
encodé en russe.
Et le cyan comme du rouge encodé en cyan.

Voilà de fort jolies métaphores, mais qui passent à côté du trait
d'humour de 3M. Je propose : « on pourrait considérer les pages en
russe comme des pages dans une langue terrienne écrites en russe »
et « on pourrait considérer le cyan comme une couleur qui est du
cyan ».

Mayeul

2008-08-06 09:47:53 UTC

Permalink

En fait, je ne crois pas être passé à côté de quoi que ce soit. Ce que
je voulais dire, c'est que quelle que soit la manière dont on le
regarde, elle marchait pas, la boutade.

--
Mayeul

Méta-MCI (MVP)

2008-08-08 15:16:50 UTC

Permalink

Re !

Post by Mayeul
elle marchait pas, la boutade.

En fait, il y a peut-être un bug dans :
humour.decode('MCI').encode('Mayeul')...

@+

MCI

Antoine Leca

2008-08-22 10:22:46 UTC

Permalink

Post by MÃ©ta-MCI (MVP)
Quoi ? Quoi ? Quoi ? Des pages en Unicode ?
Ne serait-ce pas, plutôt, des pages encodées en UTF-8, UTF-16, CJK,
etc. ?

C'est pire. En fait, c'est (probablement) des pages *déclarées* comme
encodées _ou_ basées sur Unicode (UTF-8) plutôt que déclarées en
us-ascii|iso-8859-*|windows-1252.

Et bien évidemment, cela n'a rien à voir avec le contenu, et beaucoup à voir
avec le fait que les outils de production de pages HTML (PHP ?) et les
serveurs HTTP (Apache v2) ont modifié les paramétrages par défaut, en
particulier pour atteindre la plus grande audience possible avec le moins de
paramètres à modifier, globalisation oblige.

Auquel cas il est intéressant de noter que le point d'inflexion de
iso-8859-x est en 2006, à comparer avec la date de sortie de HTML4 (qui a
remplacé ISO 8859-1 par Unicode comme jeu de caractères par défaut), à
savoir décembre 1997...

Autre truc intéressant : en préparant cet article, je suis tombé (tête de
liste pour http://www.google.com/search?q=frontpage+unicode) sur
http://lists.ibiblio.org/pipermail/biblical-languages/2001-January/000143.html.
Très instructif (y compris pour les confusions qu'y fait l'auteur, en
particulier il ne semble pas faire la différence entre la machine où est
composé le texte et celle où il est lu...)
Et donc avec FP2000 il fallait modifier le réglage par défaut dans un coin
obscur...

Post by MÃ©ta-MCI (MVP)
Auquel cas, on pourrait aussi considérer les pages en Latin-1 (et
consorts), comme des pages Unicode encodée en Latin-1.

Voui.
Ou le contraire.
Par exemple, sur ma propre chaîne (artisanale) de production de documents,
le document initial est en Latin-1 (parce que c'est plus facile pour mes
outils d'édition), et ensuite il est modifié pour utiliser des entités HTML
(é).

Au final, le document envoyé est stocké et servi en ASCII, ce qui est
nécessaire pour être compatible avec les bandeaux publicitaires et autres
qui peuvent éventuellement entourer la page, certains déclarant iso-8859-1
et d'autres utf-8 mais aucuns ne prennent la peine de recoder réellement le
contenu...

Si c'est mon serveur qui sert seul la page, elle sera /déclarée/ (HTTP et
<head>/<meta> Content-type/charset) comme basée sur "utf-8", pour des
raisons de compatibilité avec le plus grand nombre de navigateurs (raisons
determinées en 1998-99, soit dit en passant, et probablement à réviser).
Mais reste /encodée/ en us-ascii...

Et mon petit doigt me dit que les « statistiques » de Mark et Patrick sont
basées sur le paramètre transmis (l'un ou l'autre, mais étant donné la pente
de la courbe et le déploiement d'Apache v2, je pencherais pour une priorité
donnée au premier, celui servi dasn l'entête HTTP), et qu'elles n'ont que
faire de la réalité de l'encodage.
C'est à mon sens la seule façon d'expliquer que le contenu en «
anglais » --signifiant en fait sans accent ni guillemets ou apostrophe
décoratifs-- serait passé de 50 % en 2001 à 25 % aujourd'hui.

Antoine