Discussion:
Base de donnée Unihan / recherche par radical
(trop ancien pour répondre)
JL Picard
2003-08-06 22:11:08 UTC
Permalink
Bonjour,

Je viens de découvrir le merveilleux outil de recherche mis à
disposition ici :
http://www.unicode.org/charts/unihan.html

Une chose m'intrigue : en utilisant la recherche par nombre de traits,
on a la possibilité de sélectionner un radical.
Le site permet d'accéder à l'ensemble des caractères basés sur le
radical selectionné.

Savez-vous à partir de quelle source les gens d'Unicode.org ont réussi à
obtenir des information sur le radical de chaque caractère ?

Je n'ai pas trouvé d'infos dans Unihan.txt.. mais j'ai peut-être mal
cherché.

Merci de votre aide.
--
Jean-Laurent Picard
http://assos.efrei.fr/robot/
JL Picard
2003-08-07 11:54:58 UTC
Permalink
Post by JL Picard
Savez-vous à partir de quelle source les gens d'Unicode.org ont réussi à
obtenir des information sur le radical de chaque caractère ?
Il y a des vrais experts derrière :-)
Comment ? Tu veux dire de vrais gens ? et qui en plus tirent leur savoir
d'autre part que de Google ? :-)
Consulte l'historique de Unicode disponible par ailleurs sur le site et
tu verra que le travail réalisé a été en collaboration avec beaucoup
d'organismes nationaux asiatiques, en particulier un organisme chinois
qui a basé beaucoup de temps a créer une base unifiée des caractères
entre les deux divers pays asiatiques les utilisant.
C'est ce que je lisais dans Unihan.txt, ils indiquent le nom des
autorité qui ont validé certains champs comme kMandarin ou kGB*.
Je n'ose imaginer l'ampleur du travail qui se cache derrière ce 'petit'
fichier..

A tout hasard, et même s'il ne s'agit pas du bon forum, quelqu'un
connait une source de données liant des caractères chinois à leur
radical ?
Il y a un mythe comme quoi Unicode a été créé par des occidentaux qui
ont imposé leur vision aux asiatiques, mais en réalité l'idée
d'unification des caractères était présente en Asie et ce sont les
meilleurs experts sur place qui ont fournis les informations utilisé par
Unicode. Surtout pour les extentions récentes jusque environ 70 000
caractères où seuls les meilleurs spécialistes sont capables de
connaître les caractères en question.
Une question : j'imagine qu'Unicode dispose de la représentation
graphique de chacun des caractères intégrés.
Ces représentations sont-elles publiques ?
Les japonais sont peut-être effectivement réellement resté un peu en
retrait, et leur réticences par exemple ont mené assez récemment au
développement du code JIS-213 avec une concertation pas terrible avec
Unicode.
Dommage.. je suis surpris que des gens continuent à travailler en
faisant concurrence à Unicode.
--
Jean-Laurent Picard
http://perso.fixion.net/~picard/
http://assos.efrei.fr/robot/
Jean-Marc Desperrier
2003-08-07 21:04:42 UTC
Permalink
Post by JL Picard
Une question : j'imagine qu'Unicode dispose de la représentation
graphique de chacun des caractères intégrés.
Ces représentations sont-elles publiques ?
Oui, il faut télécharger le pdf de 13 Mo.

Sur http://www.unicode.org/charts/, il te prévienne à coté quand le pdf
est *gros*.

Mais les fabricants de polices qui ont donné l'autorisation d'utiliser
leurs caractères pour produire ces documents ont restreint cette
autorisation à ces documents-là. Pas le droits de réutiliser les images
des caractères en dehors.
Post by JL Picard
Les japonais sont peut-être effectivement réellement resté un peu en
retrait, et leur réticences par exemple ont mené assez récemment au
développement du code JIS-213 avec une concertation pas terrible avec
Unicode.
Dommage.. je suis surpris que des gens continuent à travailler en
faisant concurrence à Unicode.
C'est pas vraiment en faisant concurrence, c'est juste que dans la
manière de travailler, le résultat n'aura pas été optimum et un peu
bordélique avec un double mapping entre JIS213 et unicode, l'un officiel
utilisant des caractères en dehors du BMP, et l'autre utilisant la zone
privée pour ces caractères problématiques (je me demande s'il n'y a pas
eut aussi un /brouillon/ aussi diffusé qui proposait des correspondances
avec des positions de caractères dans unicode qui par la suite n'ont pas
été validées).
Jean-Marc Desperrier
2003-08-07 21:08:59 UTC
Permalink
Sur http://www.unicode.org/charts/, ils te préviennent à coté quand le pdf
est *gros*.
A une époque début 2000, je me souviens la liste tenait sur un écran.

Mais que s'est-il passé depuis !!! :-)
JL Picard
2003-08-08 17:22:26 UTC
Permalink
Post by Jean-Marc Desperrier
Mais les fabricants de polices qui ont donné l'autorisation d'utiliser
leurs caractères pour produire ces documents ont restreint cette
autorisation à ces documents-là. Pas le droits de réutiliser les images
des caractères en dehors.
Dommage, mais c'est déjà formidable de pouvoir jeter un oeil à des
caractères qui ne sont plus utilisés depuis des siècles.
Post by Jean-Marc Desperrier
Post by JL Picard
concurrence à Unicode.
C'est pas vraiment en faisant concurrence, c'est juste que dans la
manière de travailler, le résultat n'aura pas été optimum et un peu
bordélique avec un double mapping entre JIS213 et unicode, l'un officiel
utilisant des caractères en dehors du BMP, et l'autre utilisant la zone
privée pour ces caractères problématiques (je me demande s'il n'y a pas
eut aussi un /brouillon/ aussi diffusé qui proposait des correspondances
avec des positions de caractères dans unicode qui par la suite n'ont pas
été validées).
Ha, là, le profane que je suis est perdu :-)

En quoi consiste le JIS213 : En un ajout de caractères non référencés
dans les autres JIS, ou bien non référencés dans Unicode ?

Quand tu parles de caractères en dehors du BMP, tu veux dire des
caractères non prévus par Unicode, si j'ai bien compris.
(<http://www.unicode.org/roadmaps/bmp/>)
Dans ce cas, à quoi fait référence la "zone privée" que tu évoques juste
aprés ?
Comment un jeu de caractère quelconque peut-il 'faire référence' à la zone
privée d'Unicode ?

Pas évident, tout ca.

Mais merci pour toutes ces informations !
--
Jean-Laurent Picard
http://assos.efrei.fr/robot/
JL Picard
2003-08-09 14:30:59 UTC
Permalink
Post by JL Picard
Savez-vous à partir de quelle source les gens d'Unicode.org ont réussi à
obtenir des information sur le radical de chaque caractère ?
Il y a des vrais experts derrière :-)
J'ai honte...
kRSUnicode: "radical.additional strokes"
radical = numéro du radical
additional strokes = nombre total de traits - nombre de traits du radical

Ce fichier est formidable.
Les gens d'Unicode sont formidables.
La vie est belle.
Je m'en vais nager tout nu dans l'océan. Enfin, dans la seine. Enfin,
finallement, non. Mais le coeur y est !
--
Jean-Laurent Picard
http://assos.efrei.fr/robot/
Loading...