Discussion:
question de débutant : utl-8 / utf-16 et zéro terminal
(trop ancien pour répondre)
Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
2004-09-14 20:52:01 UTC
Permalink
Bonsoir !

Je m'excuse de troubler la quiétude de ce newsgroup, en posant une question
aussi triviale ; mais je cherche à savoir si une chaîne unicode, codée en
utf-8 risque de contenir des octets zéro (0x00).

Et puis le même question avec l'utf-16.

A défaut (ou en complément) d'une réponse, si vous connaissez l'url d'un
site, EN FRANCAIS, qui explique la structure de l'utf-8 et de l'utf-16, je
la noterai bien volontiers.

Merci d'avance, et @-salutations
--
Michel Claveau
mél : http://cerbermail.com/?6J1TthIa8B
Olivier Miakinen
2004-09-14 21:46:11 UTC
Permalink
Le 14/09/2004 22:52, Michel Claveau - abstraction méta-galactique non
Post by Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
Je m'excuse de troubler la quiétude de ce newsgroup, en posant une question
aussi triviale ; mais je cherche à savoir si une chaîne unicode, codée en
utf-8 risque de contenir des octets zéro (0x00).
À moins que tu ne codes le caractère nul (celui qui vaut aussi 0x00 en
ASCII 7 bits), tu ne peux pas avoir d'octet à 0. Mieux que cela : en
dehors des caractères ASCII 7 bits qui restent inchangés en UTF-8,
*tous* les octets ont leur bit de poids fort à 1.
Post by Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
Et puis le même question avec l'utf-16.
Pour UTF-16, je ne sais pas.
Post by Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
A défaut (ou en complément) d'une réponse, si vous connaissez l'url d'un
site, EN FRANCAIS, qui explique la structure de l'utf-8 et de l'utf-16, je
la noterai bien volontiers.
Si jamais tu as quelques notions d'anglais quand même, je te recommande
cette page qui m'a appris pratiquement tout ce que je voulais savoir sur
Unicode et UTF-8 :
http://www.cl.cam.ac.uk/~mgk25/unicode.html

Pour les ressources en français, je passe la main...
Olivier Miakinen
2004-09-14 21:50:55 UTC
Permalink
Post by Olivier Miakinen
À moins que tu ne codes le caractère nul (celui qui vaut aussi 0x00 en
ASCII 7 bits), tu ne peux pas avoir d'octet à 0. Mieux que cela : en
dehors des caractères ASCII 7 bits qui restent inchangés en UTF-8,
*tous* les octets ont leur bit de poids fort à 1.
Voici un petit tableau, à l'appui de ce que je viens d'écrire. À gauche
tu as les numéros Unicode, et à droite leur conversion en UTF-8. Note
que la toute première ligne correspond aux caractères ASCII 7 bits.

<cit. http://www.cl.cam.ac.uk/~mgk25/unicode.html#utf-8>
Post by Olivier Miakinen
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
</cit.>
Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
2004-09-15 07:15:44 UTC
Permalink
Bonjour !

Merci pour les réponses, qui vont me permettre de manipuler de l'unicode,
avec un certain logiciel qui ne le gère pas.

@-salutations
--
Michel Claveau
Jean-Marc Bourguet
2004-09-15 06:46:37 UTC
Permalink
Post by Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
Bonsoir !
Je m'excuse de troubler la quiétude de ce newsgroup, en posant une question
aussi triviale ; mais je cherche à savoir si une chaîne unicode, codée en
utf-8 risque de contenir des octets zéro (0x00).
Sauf pour 0x00 naturellement.
Post by Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
Et puis le même question avec l'utf-16.
Oui. Pour tout ce qui equivaut a Latin-1.
Post by Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
A défaut (ou en complément) d'une réponse, si vous connaissez l'url
d'un site, EN FRANCAIS, qui explique la structure de l'utf-8 et de
l'utf-16, je la noterai bien volontiers.
Ca devrait se trouver sur http://hapax.ifrance.com/hapax/.

A+
--
Jean-Marc
Site de usenet-fr: http://www.usenet-fr.news.eu.org
Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
2004-09-15 07:23:02 UTC
Permalink
Bonjour !

Merci également pour la réponse, remplie de liens et d'informations bien
intéressantes.

Bonne journée
--
Michel Claveau
Antoine Leca
2004-09-16 11:49:05 UTC
Permalink
Post by Jean-Marc Bourguet
Post by Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
je cherche à savoir si une chaîne unicode, codée en
[utf-16] risque de contenir des octets zéro (0x00).
Oui. Pour tout ce qui equivaut a Latin-1.
Et aussi pour tous les caractères dont l'indice est modulo 256 (U+0100,
U+0200, etc.), et aussi pour ceux de certaines zones: U+10001..U+103FF,
U+50001..U+5003FF, U+90001..U+9003FF, U+D0001..U+D003FF.


Antoine
...for the lucky and the strong...
2004-09-16 23:10:00 UTC
Permalink
30 fructidor an CCXII (le 17 septembre 2004 d. c.-d. c. g.), 01h06.
Post by Antoine Leca
Post by Jean-Marc Bourguet
Post by Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
je cherche à savoir si une chaîne unicode, codée en
[utf-16] risque de contenir des octets zéro (0x00).
Oui. Pour tout ce qui equivaut a Latin-1.
Et aussi pour tous les caractères dont l'indice est modulo 256 (U+0100,
U+0200, etc.),
« dont l'indice est modulo 256 », qué que ça veut dire ? : dont l'indice est /nul/ modulo 256.
Post by Antoine Leca
et aussi pour ceux de certaines zones: U+10001..U+103FF,
U+50001..U+5003FF, U+90001..U+9003FF, U+D0001..U+D003FF.
Antoine
¤
From: Antoine Leca <***@localhost.gov>
Newsgroups: fr.comp.normes.unicode
Subject: =?iso-8859-1?Q?Re:_question_de_d=E9butant_:_utl-8_/_utf-16_et_z=E9ro_term?=
=?iso-8859-1?Q?inal?=
Date: Thu, 16 Sep 2004 13:49:05 +0200
Message-ID: <cibune$sjg$***@shakotay.alphanet.ch>
References: <***@news.bourguet.org>
NNTP-Posting-Date: Thu, 16 Sep 2004 11:51:11 +0000 (UTC)
Xref: uni-berlin.de fr.comp.normes.unicode:1960
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Antoine Leca
2004-09-17 09:25:05 UTC
Permalink
Post by ...for the lucky and the strong...
Post by Antoine Leca
Et aussi pour tous les caractères dont l'indice est modulo 256
« dont l'indice est modulo 256 », qué que ça veut dire ?
« [...] dont l'indice est un multiple de 256. »

On dirait que je me suis emmêlé les pinceaux. Je suis désolé.
Merci d'avoir attiré mon attention.


Antoine
Michel Claveau - abstraction méta-galactique non triviale en fuite perpétuelle.
2004-09-17 10:11:24 UTC
Permalink
Bonjour !

Ou alors : "...dont (l'indice modulo 256) est égal à zéro", car Null n'est
pas égal à zéro dans tous les systèmes.

Mais, de toutes façons, on avait bien compris.
--
Michel Claveau
Andreas Prilop
2004-09-15 15:23:29 UTC
Permalink
User-Agent: Microsoft-Outlook-Express/6.00.2800.1437
Hamster-Fr/2.0.2.3(Stable;0)
Tu devrais choisir

Outils > Options > Envoyer
Format d'envoi du courrier > Texte brut > Parametres > Format du message MIME
Format d'envoi des News > Texte brut > Parametres > Format du message MIME
Coder le texte: Aucun

pour envoyer les caractères spéciaux (non-ASCII).
Je m'excuse de troubler la qui?tude de ce newsgroup, en posant une question
aussi triviale ; mais je cherche ? savoir si une cha?ne unicode, cod?e en
utf-8 risque de contenir des octets z?ro (0x00).
Non.
Et puis le m?me question avec l'utf-16.
Qui.
A d?faut (ou en compl?ment) d'une r?ponse, si vous connaissez l'url d'un
site,
http://www.unicode.org/unicode/faq/utf_bom.html
EN FRANCAIS,
Err ...
Loading...