table unicode

Discussion:

table unicode

(trop ancien pour répondre)

Olivier Miakinen

2005-11-13 17:26:01 UTC

on m'avait donné une table unicode qui ressemblait à ca
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt
[...]
est ce que qqn voit de quoi je veux parler ?

Non
Si l'idée est de pouvoir connaitre tous les caractères Unicode, il y a tout
ce qu'il faut sur le site unicode.org, par exemple
http://www.unicode.org/charts/

En français : <http://hapax.qc.ca/>.

Par ailleurs, il existe un groupe <news:fr.comp.normes.unicode> (vers
lequel je place le suivi), dont les archives pourraient t'intéresser.

--
Olivier Miakinen
Troll du plus sage chez les conviviaux : le nouveau venu, avec
son clan, s'infiltre dans les groupes de nouvelles. (3 c.)

Thomas

2005-11-15 21:51:18 UTC

Permalink

Post by Olivier Miakinen

on m'avait donné une table unicode qui ressemblait à ca
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt
[...]
est ce que qqn voit de quoi je veux parler ?

Non
Si l'idée est de pouvoir connaitre tous les caractères Unicode, il y a tout
ce qu'il faut sur le site unicode.org, par exemple
http://www.unicode.org/charts/

j'allais dire : c'etait peut etre une table utf-8 plutot qu'unicode,
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
(au fait, unicode = utf-16 ?)

(je preferes au format texte que pdf, comme l'url que j'ai donné)

Post by Olivier Miakinen
En français : <http://hapax.qc.ca/>.
Par ailleurs, il existe un groupe <news:fr.comp.normes.unicode> (vers
lequel je place le suivi), dont les archives pourraient t'intéresser.

merci :-)

--
http://tDeContes.hd.free.fr/
http://palestine-hn.org/
http://www.aapel.org/bdp/BLpas_concerne.html

"don't put your PC out of the window, put windows out of your PC"
"petit Free qui devient grand, gêne les requins blancs"

Olivier Miakinen

2005-11-15 22:40:54 UTC

Permalink

Post by Thomas
j'allais dire : c'etait peut etre une table utf-8 plutot qu'unicode,
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?

Les numéros Unicode s'écrivent plutôt U+nnnn mais il y a de cela.

UTF-8, c'est un codage possible d'Unicode sur un nombre variable
d'octets. Par exemple, l'€ (U+20AC) se code E2 82 AC en UTF-8. Mais
un navigateur qui supporte les entités numériques hexadécimales
comprendra la syntaxe € tandis que l'entité numérique décimale
€ est comprise par à peu près tous les navigateurs.

Post by Thomas
(au fait, unicode = utf-16 ?)

Presque. Les deux versions d'UTF-16 (little endian ou big endian) sont
d'autres codages possibles d'Unicode sur un nombre en général fixe
d'octets, à savoir 2 octets par caractère Unicode (je simplifie un
tout petit peu). Il se trouve que pour les caractères qui se codent
effectivement sur deux octets, la conversion est tellement triviale
qu'on a l'impression que c'est la même chose. Pour l'€ (U+20AC), le
codage est soit 20 AC, soit AC 20, selon qu'il s'agit de la version
big endian ou little endian.

Pour les conversions, voici un outil extraordinaire de simplicité :
<http://people.w3.org/rishida/scripts/uniview.fr/conversion.html>.

--
Olivier Miakinen
Troll du plus sage chez les conviviaux : le nouveau venu, avec
son clan, s'infiltre dans les groupes de nouvelles. (3 c.)

Antoine Leca

2005-11-16 10:00:27 UTC

Permalink

Post by Olivier Miakinen
un navigateur qui supporte les entités numériques hexadécimales
comprendra la syntaxe € tandis que l'entité numérique décimale
€ est comprise par à peu près tous les navigateurs.

Mmmhhh. C'est peut-être vrai en 2005 (et encore, j'ai mes doutes), mais
historiquement c'est inexact : beaucoup de navigateurs avant 2000, et la
quasi-totalité de ceux d'avant 1997 (approximativement), n'utilisaient pas
Unicode pour leur jeu de caractères internes, et étaient incapables de de
comprendre un numéro d'entité supérieur à 255.

Et comme le changement pour utiliser JUC/Unicode plutôt que Latin-1 comme
répertoire de base fut fait si ma mémoire est bonne avec HTML 4.0 (je
considère que 3.0 n'existe pas), qui est aussi la version qui a introduit
les entités hexadécimales...

Antoine

Olivier Miakinen

2005-11-16 12:03:19 UTC

Permalink

Post by Antoine Leca

Puis-je au moins prétendre que tout navigateur sachant représenter un
caractère Unicode qui n'est pas présent dans un ISO-8859-X (avec X
inférieur à 10) sait le faire quand on le lui donne sous forme d'entité
numérique décimale ?

Et puis-je prétendre que tout navigateur sachant afficher simultanément
l'euro et le symbole monétaire trou-du-cul reconnaît aussi les entités
numériques décimales ?

--
Olivier Miakinen
Troll du plus sage chez les conviviaux : le nouveau venu, avec
son clan, s'infiltre dans les groupes de nouvelles. (3 c.)

Bobe

2005-11-16 01:36:03 UTC

Permalink

Post by Thomas
j'allais dire : c'etait peut etre une table utf-8 plutot qu'unicode,
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?

C'est le point de code (ou numéro de caractère si on veut) unicode
représenté en hexadécimal.

Post by Thomas
(au fait, unicode = utf-16 ?)

Non, non, Unicode est un jeu de caractères. utf-16 est un des encodages
possibles pour Unicode.

--
Aurélien Maille

Pierre Goiffon

2005-11-16 09:18:37 UTC

Permalink

Post by Thomas
c'etait peut etre une table utf-8 plutot qu'unicode

Alors voir :
http://www.unicode.org/versions/Unicode4.0.0/ch03.pdf#G7404
La table 6-6 en particulier, qui donne la représentation en UTF-8 des
caractères suivant leur code point.

Post by Thomas
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
(au fait, unicode = utf-16 ?)

Euh attention
Contrairement aux codages 8 bits "classiques" pour lesquels il n'y a pas
de distinction entre table des caractères et codage, en Unicode on a
bien d'un côté la table des caractères, et de l'autre des codages
possibles (encoding schemes) : utf-7, utf-8, utf-16, utf-32.

Chaque caractère référencé dans Unicode est identifié par un numéro : le
code point. On peut noter que les premiers code points sont identiques
au numéros de caractères dans la table ISO Latin-1. Un caractère est
noté U+<code point en hexadécimal>. Par exemple, le "A" est au code
point 65 en décimal, 41 en hexa, c'est le caractère U+0041.

En (x)HTML, il est possible de spécifier un caractère dont on connait le
code point :
http://www.w3.org/TR/html401/charset.html#h-5.3.1
Le caractère précédent peut donc être noté A ou A.
A noter que :
- la recommandation parle de ISO 10646, mais les code point Unicode et
les numéro de caractères dans ISO 10646 sont identiques
- la version &#x...; est assez récente et visiblement relativement peu
supportée.

Post by Thomas

Post by Olivier Miakinen
Par ailleurs, il existe un groupe <news:fr.comp.normes.unicode>

Je laisse le suivi, mais n'étant pas abonné à ce groupe (les journées
n'ont que 24h...), j'arrête là.

Webmestre Hapax

2005-11-16 23:36:41 UTC

Permalink

Post by Pierre Goiffon

Post by Thomas
c'etait peut etre une table utf-8 plutot qu'unicode

http://www.unicode.org/versions/Unicode4.0.0/ch03.pdf#G7404
La table 6-6 en particulier,

Dans le chapitre 3, le tableau 6-6 ?

Post by Pierre Goiffon
qui donne la représentation en UTF-8 des
caractères suivant leur code point.

En français :

http://hapax.qc.ca

http://hapax.qc.ca/pdf/intro-Unicode.pdf

Post by Pierre Goiffon

Post by Thomas
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
(au fait, unicode = utf-16 ?)

C'est en gros juste.

Mais "encoding scheme" comprend la sérialisation. Vous mentionnez les
"encoding form" (sans indication de sérialisation, en mémoire). Et UTF-7
n'en n'est pas une.

En français, c'est nettement plus simple : forme en mémoire et forme
sérialisée (je ne peux jamais me rappeler lequel est "scheme" en anglais
et lequel est "form").

Formes (stockées) en mémoire : UTF-8, UTF-16, UTF-32.
Mécanismes de sérialisation/formes sérialisées : UTF-8, UTF-16, UTF-16BE
(gros-boutien), UTF-16LE (petit-boutien), UTF-32, UTF-32BE et UTF-32LE.

Pour couvrir ces deux formes on peut parler de format transformé (UTF).

http://hapax.qc.ca/glossaire.htm#"mecanisme_de_serialisation_de_caracteres

http://hapax.qc.ca/pdf/intro-Unicode.pdf

loufoque

2005-11-17 01:09:47 UTC

Permalink

Post by Thomas
j'allais dire : c'etait peut etre une table utf-8 plutot qu'unicode,
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
(au fait, unicode = utf-16 ?)

Peut-être trouveras-tu des informations utiles dans ce billet :
http://blogloufoque.free.fr/index.php/2005/10/26/4-jeux-de-caracteres-unicode