Discussion:
hindi
(trop ancien pour répondre)
nurka7
2006-01-17 15:24:38 UTC
Permalink
Bonjour tout le monde,

J'ai un document Word en hindi qui utilise la police "Kruti Dev
010". Quand je copie le texte du document Word dans UltraEdit,
NotePad, une base de données, etc., j'obtient des caractères latins
genre "vzguby vlktkl".

Est-ce qu'il y a un moyen de convertir le texte de Word en un format
"légitime" pour que je puisse le copier?

Si vous pouviez aussi recommander de bonnes ressources pour développer
les sites Web en hindi...

Merci d'avance!

==Anya
Andreas Prilop
2006-01-18 15:21:45 UTC
Permalink
Post by nurka7
J'ai un document Word en hindi qui utilise la police "Kruti Dev
010". Quand je copie le texte du document Word dans UltraEdit,
NotePad, une base de données, etc., j'obtient des caractères latins
genre "vzguby vlktkl".
That's because the font "Kruti Dev 010" technically contains only
funny-looking ASCII characters - but no Devanagari characters.
Even if the characters *look* like Devanagari, they are still
ASCII characters, technically.
http://ppewww.ph.gla.ac.uk/~flavell/charset/fontface-harmful.html
Post by nurka7
Si vous pouviez aussi recommander de bonnes ressources pour développer
les sites Web en hindi...
The principal (theoretical) advice is
http://ppewww.ph.gla.ac.uk/~flavell/charset/checklist.html#s7
http://ppewww.ph.gla.ac.uk/~flavell/charset/browsers-fonts.html#dont

Now to the practice: Install Devanagari fonts and a Hindi keyboard
layout *from your operating system*:
http://docs.info.apple.com/article.html?artnum=20891
http://www.microsoft.com/globaldev/handson/user/xpintlsupp.mspx
http://www.tldp.org/HOWTO/Indic-Fonts-HOWTO/

Then type Hindi text in Mozilla Composer and you should get
something like this:
http://www.unics.uni-hannover.de/nhtcapri/multilingual1.html#nagari
http://www.bbc.co.uk/hindi/
Jean-Marc Desperrier
2006-01-18 16:01:39 UTC
Permalink
Post by nurka7
Est-ce qu'il y a un moyen de convertir le texte de Word en un format
"légitime" pour que je puisse le copier?
Je pense qu'il doit y avoir moyen de trouver par quel caractères ASCII
est représenté chaque caractère hindi dans cette "fausse" police hindi,
et ensuite d'avoir un script automatique de remplacement qui permet de
remettre les bonnes valeurs. Le résultat ne serait peut-être pas
parfait, mais sera déjà beaucoup plus proche des normes.

Des outils plus répandus sous unix que sous dos tel que perl, sed ou awk
seraient une solution pour automatiser cela.

On peut aussi écrire les instruction en javascript et utiliser
cscript.exe, mais il ya moins de monde qui maîtrise et pourrait te
conseiller pour cela.
http://www.microsoft.com/resources/documentation/windows/xp/all/proddocs/en-us/cscript_overview.mspx
Antoine Leca
2006-01-23 10:04:39 UTC
Permalink
Post by Jean-Marc Desperrier
Post by nurka7
Est-ce qu'il y a un moyen de convertir le texte de Word en un format
"légitime" pour que je puisse le copier?
Je pense qu'il doit y avoir moyen de trouver par quel caractères ASCII
est représenté chaque caractère hindi
« Séquences de caractères » dans les deux cas.
Post by Jean-Marc Desperrier
dans cette "fausse" police hindi, et ensuite d'avoir un script
automatique de remplacement qui permet de remettre les bonnes valeurs.
Oui. Mais ce n'est pas aussi simple à faire que ta description pourrait le
laisser supposer ;-)
Post by Jean-Marc Desperrier
Le résultat ne serait peut-être pas
parfait, mais sera déjà beaucoup plus proche des normes.
En fait, je pense que l'on peut faire du quasiment parfait.
Post by Jean-Marc Desperrier
Des outils plus répandus sous unix que sous dos tel que perl, sed ou
awk seraient une solution pour automatiser cela.
Ou VBA, le langage de macros de Word : avantage, il est possible de
remplacer d'un seul coup le caractères (ASCII) original par un caractère
Unicode du bloc U+09xx ; on change aussi la police en Mangal ou autre, et le
tour est joué.

Le plus long dans ce genre de trucs, c'est repérer _toutes_ les séquences
qu'il faut trafiquer.


Antoine

Loading...