Discussion:
UTF-8
(trop ancien pour répondre)
Denis Liégeois
2006-12-09 06:18:51 UTC
Permalink
Je constate sinon que tout caractère prenant un octet
dans les jeux ISO en prend un, deux, voire trois en UTF-8.
C'est techniquement erroné, ce que vous dites. Dans la
phrase que je cite (la vôtre), la totalité des caractères
passeraient sur un seul octet. Le seul qui en nécessiterait
deux, c'est le « e » avec accent grave du mot « caractère ».

Par ailleurs, pour que ça nécessite trois octets, il faut
vraiment aller chercher de l'exotique. Non seulement ça
n'arriverait jamais avec des langues comme le français,
l'anglais, l'espagnol, l'allemand etc., mais ça n'arriverait
même pas avec les langues slaves, ni même avec le grec,
y compris le grec ancien.

[Copie et suivi dans le forum news:fr.comp.normes.unicode]
Xavier Roche
2006-12-09 08:50:04 UTC
Permalink
Post by Denis Liégeois
Par ailleurs, pour que ça nécessite trois octets, il faut
vraiment aller chercher de l'exotique. Non seulement ça
n'arriverait jamais avec des langues comme le français,
l'anglais, l'espagnol, l'allemand etc., mais ça n'arriverait
même pas avec les langues slaves, ni même avec le grec,
y compris le grec ancien.
Pas plus pour l'arabe, l'hébreu, ou le syriac. Il faut vraiment aller du
côté du telugu ou du thai pour attaquer les exotismes.

Table 3.1B. Legal UTF-8 Byte Sequences
<http://www.unicode.org/reports/tr28/tr28-3.html>

The Unicode Character Code Charts By Script
<http://www.unicode.org/charts/>

Et vu la proportion d'accents dans un texte français, avoir un ou deux
octets ne fait au final aucune différence (d'autant que les en-têtes
font bien souvent plus de la moitié du poids de l'article sur Usenet..)
Nicolas Krebs
2006-12-09 14:48:11 UTC
Permalink
Xavier Roche écrivit dans l'article news:eldtbs$p2a$***@news.httrack.net
dans news:fr.comp.normes.unicode
Post by Xavier Roche
Pas plus pour l'arabe, l'hébreu, ou le syriac. Il faut vraiment aller du
syriaque
Post by Xavier Roche
côté du telugu
télougou
Post by Xavier Roche
ou du thai pour attaquer les exotismes.
thaï ou thaïlandais
Bernd
2006-12-09 10:35:54 UTC
Permalink
Post by Denis Liégeois
Je constate sinon que tout caractère prenant un octet
dans les jeux ISO en prend un, deux, voire trois en UTF-8.
C'est techniquement erroné, ce que vous dites. Dans la
phrase que je cite (la vôtre), la totalité des caractères
passeraient sur un seul octet. Le seul qui en nécessiterait
deux, c'est le « e » avec accent grave du mot « caractère ».
Par ailleurs, pour que ça nécessite trois octets, il faut
vraiment aller chercher de l'exotique. Non seulement ça
n'arriverait jamais avec des langues comme le français,
l'anglais, l'espagnol, l'allemand etc., mais ça n'arriverait
même pas avec les langues slaves, ni même avec le grec,
y compris le grec ancien.
Tout à fait - sur 3 octets, il faudrait vraiment aller chercher des
signes peu courants - perso je n'ai quasiment pas de chance de les
rencontrer.
Pour t'en assurer et si ça te chante, lis "Passeport pour Unicode" et tu
comprendras.
--
A+

Romer
Serge Paccalin
2006-12-09 16:10:53 UTC
Permalink
Le samedi 9 décembre 2006 à 11:35:54, Bernd a écrit dans
Post by Bernd
Post by Denis Liégeois
Par ailleurs, pour que ça nécessite trois octets, il faut
vraiment aller chercher de l'exotique. Non seulement ça
n'arriverait jamais avec des langues comme le français,
l'anglais, l'espagnol, l'allemand etc., mais ça n'arriverait
même pas avec les langues slaves, ni même avec le grec,
y compris le grec ancien.
Tout à fait - sur 3 octets, il faudrait vraiment aller chercher des
signes peu courants - perso je n'ai quasiment pas de chance de les
rencontrer.
Comme celui-là, par exemple : « € ».
--
___________
_/ _ \_`_`_`_) Serge PACCALIN -- sp ad mailclub.net
\ \_L_) Pour bien répondre avec Google, ne pas cliquer
-'(__) « Répondre », mais « Afficher les options »,
_/___(_) puis cliquer « Répondre » (parmi les options).
Olivier Miakinen
2006-12-09 21:32:41 UTC
Permalink
Post by Bernd
Post by Denis Liégeois
Par ailleurs, pour que ça nécessite trois octets, il faut
vraiment aller chercher de l'exotique. Non seulement ça
n'arriverait jamais avec des langues comme le français,
l'anglais, l'espagnol, l'allemand etc., mais ça n'arriverait
même pas avec les langues slaves, ni même avec le grec,
y compris le grec ancien.
Tout à fait - sur 3 octets, il faudrait vraiment aller chercher des
signes peu courants - perso je n'ai quasiment pas de chance de les
rencontrer.
Comme celui-là, par exemple : « € ».
Oui. Je me demandais combien de temps s'écoulerait avant que quelqu'un
ne le signale. ;-)

Dans la table ASCII, tous les caractères s'écrivent en un seul octet
en UTF-8. Dans la table ISO-8859-1, tous les caractères non-ASCII
nécessitent deux octets exactement. Il en va de même pour ISO-8859-15
sauf pour l'euro (€) qui a besoin de trois octets.

Dans CP1252, ils sont 17 à nécessiter trois octets, parmi lesquels huit
sortes de guillemets. Dans CP850 je compte 30 caractères ayant besoin de
trois octets, mais ce ne sont que des caractères servant à faire de
simili graphiques en police à chasse fixe (c'était bien utile dans les
années 1990 mais c'est bien démodé maintenant). Enfin, dans CP437 je
ne compte pas les caractères nécessitant trois octets tant ils sont
nombreux ; je signale juste que parmi eux ce sont surtout les symboles
mathématiques qui restent utiles en 2006.

Voir <http://www.miakinen.net/vrac/charsets/>, où je suis bien content
de mon code des couleurs même si je n'y avais pas pensé initialement :
- les caractères sur fond gris n'utilisent qu'un octet ;
- les caractères sur fond blanc, jaune ou vert utilisent deux octets ;
- les autres (fond bleu ou mauve) ont besoin de trois octets.
Pierre Hallet
2006-12-10 10:32:10 UTC
Permalink
Post by Olivier Miakinen
Post by Bernd
Tout à fait - sur 3 octets, il faudrait vraiment
aller chercher des signes peu courants - perso je
n'ai quasiment pas de chance de les rencontrer.
Comme celui-là, par exemple : « € ».
Oui. Je me demandais combien de temps s'écoulerait
avant que quelqu'un ne le signale. ;-)
Pour les typographes qui tiennent aux tirets cadratins,
aux espaces fines, etc., les caractères à trois octets
ne sont pas si rares. On aurait pu coder la ponctuation
générale et les symboles monétaires dans une partie de
U+07xx pour que ça tienne en deux octets, quitte à
repousser un peu plus loin l'arménien et le thaana.
Bon, trop tard.

Pour l'euro, je travaille dans une banque où on écrit
toujours "EUR", jamais avec le glyphe. Ça prend trois
octets. Quelle coïncidence !
Post by Olivier Miakinen
Voir <http://www.miakinen.net/vrac/charsets/>
Ah le bel effort ! C'est déjà dans mes favoris. C'est
exprès que le soft hyphen (U+00AD) n'a pas de glyphe ?
--
Pierre Hallet.
Site (dont FAQ) du forum fllf : <http://www.langue-fr.net>.
Pascal Bourguignon
2006-12-10 11:15:40 UTC
Permalink
Post by Pierre Hallet
Post by Olivier Miakinen
Post by Bernd
Tout à fait - sur 3 octets, il faudrait vraiment
aller chercher des signes peu courants - perso je
n'ai quasiment pas de chance de les rencontrer.
Comme celui-là, par exemple : « € ».
Oui. Je me demandais combien de temps s'écoulerait
avant que quelqu'un ne le signale. ;-)
Pour les typographes qui tiennent aux tirets cadratins,
aux espaces fines, etc., les caractères à trois octets
ne sont pas si rares. On aurait pu coder la ponctuation
générale et les symboles monétaires dans une partie de
U+07xx pour que ça tienne en deux octets, quitte à
repousser un peu plus loin l'arménien et le thaana.
Bon, trop tard.
Pour l'euro, je travaille dans une banque où on écrit
toujours "EUR", jamais avec le glyphe. Ça prend trois
octets. Quelle coïncidence !
Post by Olivier Miakinen
Voir <http://www.miakinen.net/vrac/charsets/>
Ah le bel effort ! C'est déjà dans mes favoris. C'est
exprès que le soft hyphen (U+00AD) n'a pas de glyphe ?
Bin oui. On n'é-crit pas les mots a-vec des ti-rets en plein mil-lieu
au mil-lieu des phra-ses!
--
__Pascal Bourguignon__ http://www.informatimago.com/

The world will now reboot. don't bother saving your artefacts.
Pierre Hallet
2006-12-10 14:10:54 UTC
Permalink
Post by Pascal Bourguignon
C'est exprès que le soft hyphen (U+00AD) n'a pas
de glyphe ?
Bin oui. On n'é-crit pas les mots a-vec des ti-rets
en plein mil-lieu au mil-lieu des phra-ses!
C'est un point de vue, mais qui se discute :

<http://www.cs.tut.fi/~jkorpela/shy.html>.

Pierre Hallet
Pascal Bourguignon
2006-12-10 15:07:35 UTC
Permalink
Post by Pierre Hallet
Post by Pascal Bourguignon
C'est exprès que le soft hyphen (U+00AD) n'a pas
de glyphe ?
Bin oui. On n'é-crit pas les mots a-vec des ti-rets
en plein mil-lieu au mil-lieu des phra-ses!
<http://www.cs.tut.fi/~jkorpela/shy.html>.
Je suis d'accord, que de toutes façons, ce caractère ne devrait pas
être présent dans du texte. Il ne devrait apparaître que dans les
dictionnaires. Et alors, il vaudrait mieux qu'il soit visible.
--
__Pascal Bourguignon__ http://www.informatimago.com/
You never feed me.
Perhaps I'll sleep on your face.
That will sure show you.
Olivier Miakinen
2006-12-11 00:38:57 UTC
Permalink
Post by Pierre Hallet
Pour les typographes qui tiennent aux tirets cadratins,
aux espaces fines, etc., les caractères à trois octets
ne sont pas si rares. On aurait pu coder la ponctuation
générale et les symboles monétaires dans une partie de
U+07xx pour que ça tienne en deux octets, quitte à
repousser un peu plus loin l'arménien et le thaana.
Bon, trop tard.
C'est surtout un bon choix, à mon humble avis. La perte pour les
typographes occidentaux n'est que d'un octet à chaque signe de
ponctuation générale, signes relativement rares, tandis que le gain
pour les arméniens est pratiquement d'un octet par caractère.
Jean-Marc Desperrier
2006-12-11 11:20:46 UTC
Permalink
Post by Olivier Miakinen
Post by Pierre Hallet
Pour les typographes qui tiennent aux tirets cadratins,
aux espaces fines, etc., les caractères à trois octets
ne sont pas si rares. [...]
C'est surtout un bon choix, à mon humble avis. La perte pour les
typographes occidentaux n'est que d'un octet à chaque signe de
ponctuation générale, signes relativement rares, [...]
Pour moi, c'est surtout un bon choix parceque l'inclusion d'une bonne
partie d'entre eux dans Unicode est une erreur.

Il ne faut pas imposer à l'utilisateur d'entrer autre chose qu'un espace
standard, et c'est au système de composition typographiquement correct
de déterminer selon le contexte quelle variante d'espace est à afficher
(s'il a besoin en interne de manipuler une représentation de la chaîne
après résolution des espace, la bonne méthode est d'utiliser les
caractères réservés pour usage interne, pas de prendre pour cet usage
des caractères utilisables pour les échanges publics).

Pour les tirets, techniqument ce serait probablement aussi faisable
comme cela, mais là on peut vraiment dire qu'ils ont chacun une valeur
sémantique propre et qu'il est normal de les séparer. En allant
cependant jusqu'au bout de l'option valeur sémantique pour les tirets,
il faudrait plutôt un signe qui ne garde que cette valeur sémantique et
dont le glyphe sera différent en fonction de la langue/contexte
culturel. D'ailleurs ça serait beaucoup plus pratique d'utiliser un
système de ce genre pour les guillemets, on peut remarquer que Word
exprime ce problème quand il modifie le caractère unicode associé à la
touche " en fonction de la langue sélectionnée pour le texte.

Loading...