Discussion:
table unicode
(trop ancien pour répondre)
Olivier Miakinen
2005-11-13 17:26:01 UTC
Permalink
on m'avait donné une table unicode qui ressemblait à ca
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt
[...]
est ce que qqn voit de quoi je veux parler ?
Non
Si l'idée est de pouvoir connaitre tous les caractères Unicode, il y a tout
ce qu'il faut sur le site unicode.org, par exemple
http://www.unicode.org/charts/
En français : <http://hapax.qc.ca/>.

Par ailleurs, il existe un groupe <news:fr.comp.normes.unicode> (vers
lequel je place le suivi), dont les archives pourraient t'intéresser.
--
Olivier Miakinen
Troll du plus sage chez les conviviaux : le nouveau venu, avec
son clan, s'infiltre dans les groupes de nouvelles. (3 c.)
Thomas
2005-11-15 21:51:18 UTC
Permalink
Post by Olivier Miakinen
on m'avait donné une table unicode qui ressemblait à ca
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt
[...]
est ce que qqn voit de quoi je veux parler ?
Non
Si l'idée est de pouvoir connaitre tous les caractères Unicode, il y a tout
ce qu'il faut sur le site unicode.org, par exemple
http://www.unicode.org/charts/
j'allais dire : c'etait peut etre une table utf-8 plutot qu'unicode,
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
(au fait, unicode = utf-16 ?)

(je preferes au format texte que pdf, comme l'url que j'ai donné)
Post by Olivier Miakinen
En français : <http://hapax.qc.ca/>.
Par ailleurs, il existe un groupe <news:fr.comp.normes.unicode> (vers
lequel je place le suivi), dont les archives pourraient t'intéresser.
merci :-)
--
http://tDeContes.hd.free.fr/
http://palestine-hn.org/
http://www.aapel.org/bdp/BLpas_concerne.html

"don't put your PC out of the window, put windows out of your PC"
"petit Free qui devient grand, gêne les requins blancs"
Olivier Miakinen
2005-11-15 22:40:54 UTC
Permalink
Post by Thomas
j'allais dire : c'etait peut etre une table utf-8 plutot qu'unicode,
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
Les numéros Unicode s'écrivent plutôt U+nnnn mais il y a de cela.

UTF-8, c'est un codage possible d'Unicode sur un nombre variable
d'octets. Par exemple, l'€ (U+20AC) se code E2 82 AC en UTF-8. Mais
un navigateur qui supporte les entités numériques hexadécimales
comprendra la syntaxe &#x20AC; tandis que l'entité numérique décimale
&#8364; est comprise par à peu près tous les navigateurs.
Post by Thomas
(au fait, unicode = utf-16 ?)
Presque. Les deux versions d'UTF-16 (little endian ou big endian) sont
d'autres codages possibles d'Unicode sur un nombre en général fixe
d'octets, à savoir 2 octets par caractère Unicode (je simplifie un
tout petit peu). Il se trouve que pour les caractères qui se codent
effectivement sur deux octets, la conversion est tellement triviale
qu'on a l'impression que c'est la même chose. Pour l'€ (U+20AC), le
codage est soit 20 AC, soit AC 20, selon qu'il s'agit de la version
big endian ou little endian.

Pour les conversions, voici un outil extraordinaire de simplicité :
<http://people.w3.org/rishida/scripts/uniview.fr/conversion.html>.
--
Olivier Miakinen
Troll du plus sage chez les conviviaux : le nouveau venu, avec
son clan, s'infiltre dans les groupes de nouvelles. (3 c.)
Antoine Leca
2005-11-16 10:00:27 UTC
Permalink
Post by Olivier Miakinen
un navigateur qui supporte les entités numériques hexadécimales
comprendra la syntaxe &#x20AC; tandis que l'entité numérique décimale
&#8364; est comprise par à peu près tous les navigateurs.
Mmmhhh. C'est peut-être vrai en 2005 (et encore, j'ai mes doutes), mais
historiquement c'est inexact : beaucoup de navigateurs avant 2000, et la
quasi-totalité de ceux d'avant 1997 (approximativement), n'utilisaient pas
Unicode pour leur jeu de caractères internes, et étaient incapables de de
comprendre un numéro d'entité supérieur à 255.

Et comme le changement pour utiliser JUC/Unicode plutôt que Latin-1 comme
répertoire de base fut fait si ma mémoire est bonne avec HTML 4.0 (je
considère que 3.0 n'existe pas), qui est aussi la version qui a introduit
les entités hexadécimales...


Antoine
Olivier Miakinen
2005-11-16 12:03:19 UTC
Permalink
Post by Antoine Leca
Post by Olivier Miakinen
un navigateur qui supporte les entités numériques hexadécimales
comprendra la syntaxe &#x20AC; tandis que l'entité numérique décimale
&#8364; est comprise par à peu près tous les navigateurs.
Mmmhhh. C'est peut-être vrai en 2005 (et encore, j'ai mes doutes), mais
historiquement c'est inexact : beaucoup de navigateurs avant 2000, et la
quasi-totalité de ceux d'avant 1997 (approximativement), n'utilisaient pas
Unicode pour leur jeu de caractères internes, et étaient incapables de de
comprendre un numéro d'entité supérieur à 255.
Puis-je au moins prétendre que tout navigateur sachant représenter un
caractère Unicode qui n'est pas présent dans un ISO-8859-X (avec X
inférieur à 10) sait le faire quand on le lui donne sous forme d'entité
numérique décimale ?

Et puis-je prétendre que tout navigateur sachant afficher simultanément
l'euro et le symbole monétaire trou-du-cul reconnaît aussi les entités
numériques décimales ?
--
Olivier Miakinen
Troll du plus sage chez les conviviaux : le nouveau venu, avec
son clan, s'infiltre dans les groupes de nouvelles. (3 c.)
Bobe
2005-11-16 01:36:03 UTC
Permalink
Post by Thomas
j'allais dire : c'etait peut etre une table utf-8 plutot qu'unicode,
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
C'est le point de code (ou numéro de caractère si on veut) unicode
représenté en hexadécimal.
Post by Thomas
(au fait, unicode = utf-16 ?)
Non, non, Unicode est un jeu de caractères. utf-16 est un des encodages
possibles pour Unicode.
--
Aurélien Maille
Pierre Goiffon
2005-11-16 09:18:37 UTC
Permalink
Post by Thomas
c'etait peut etre une table utf-8 plutot qu'unicode
Alors voir :
http://www.unicode.org/versions/Unicode4.0.0/ch03.pdf#G7404
La table 6-6 en particulier, qui donne la représentation en UTF-8 des
caractères suivant leur code point.
Post by Thomas
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
(au fait, unicode = utf-16 ?)
Euh attention
Contrairement aux codages 8 bits "classiques" pour lesquels il n'y a pas
de distinction entre table des caractères et codage, en Unicode on a
bien d'un côté la table des caractères, et de l'autre des codages
possibles (encoding schemes) : utf-7, utf-8, utf-16, utf-32.

Chaque caractère référencé dans Unicode est identifié par un numéro : le
code point. On peut noter que les premiers code points sont identiques
au numéros de caractères dans la table ISO Latin-1. Un caractère est
noté U+<code point en hexadécimal>. Par exemple, le "A" est au code
point 65 en décimal, 41 en hexa, c'est le caractère U+0041.

En (x)HTML, il est possible de spécifier un caractère dont on connait le
code point :
http://www.w3.org/TR/html401/charset.html#h-5.3.1
Le caractère précédent peut donc être noté &#65; ou &#x41;.
A noter que :
- la recommandation parle de ISO 10646, mais les code point Unicode et
les numéro de caractères dans ISO 10646 sont identiques
- la version &#x...; est assez récente et visiblement relativement peu
supportée.
Post by Thomas
Post by Olivier Miakinen
Par ailleurs, il existe un groupe <news:fr.comp.normes.unicode>
Je laisse le suivi, mais n'étant pas abonné à ce groupe (les journées
n'ont que 24h...), j'arrête là.
Webmestre Hapax
2005-11-16 23:36:41 UTC
Permalink
Post by Pierre Goiffon
Post by Thomas
c'etait peut etre une table utf-8 plutot qu'unicode
http://www.unicode.org/versions/Unicode4.0.0/ch03.pdf#G7404
La table 6-6 en particulier,
Dans le chapitre 3, le tableau 6-6 ?
Post by Pierre Goiffon
qui donne la représentation en UTF-8 des
caractères suivant leur code point.
En français :

http://hapax.qc.ca

http://hapax.qc.ca/pdf/intro-Unicode.pdf
Post by Pierre Goiffon
Post by Thomas
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
(au fait, unicode = utf-16 ?)
Euh attention
Contrairement aux codages 8 bits "classiques" pour lesquels il n'y a pas
de distinction entre table des caractères et codage, en Unicode on a
bien d'un côté la table des caractères, et de l'autre des codages
possibles (encoding schemes) : utf-7, utf-8, utf-16, utf-32.
C'est en gros juste.

Mais "encoding scheme" comprend la sérialisation. Vous mentionnez les
"encoding form" (sans indication de sérialisation, en mémoire). Et UTF-7
n'en n'est pas une.

En français, c'est nettement plus simple : forme en mémoire et forme
sérialisée (je ne peux jamais me rappeler lequel est "scheme" en anglais
et lequel est "form").


Formes (stockées) en mémoire : UTF-8, UTF-16, UTF-32.
Mécanismes de sérialisation/formes sérialisées : UTF-8, UTF-16, UTF-16BE
(gros-boutien), UTF-16LE (petit-boutien), UTF-32, UTF-32BE et UTF-32LE.

Pour couvrir ces deux formes on peut parler de format transformé (UTF).

http://hapax.qc.ca/glossaire.htm#"mecanisme_de_serialisation_de_caracteres

http://hapax.qc.ca/pdf/intro-Unicode.pdf
loufoque
2005-11-17 01:09:47 UTC
Permalink
Post by Thomas
j'allais dire : c'etait peut etre une table utf-8 plutot qu'unicode,
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
(au fait, unicode = utf-16 ?)
Peut-être trouveras-tu des informations utiles dans ce billet :
http://blogloufoque.free.fr/index.php/2005/10/26/4-jeux-de-caracteres-unicode
Loading...