Discussion:
Plage des Mots qui ont un seul caractère ?
(trop ancien pour répondre)
Jean-Philippe Odent
2008-02-19 15:06:42 UTC
Permalink
Bonjour

De même que les caractères Ascii (8 bits) sont localisés dans la
zone de 0 à 127, je cherche la zone des unicodes japonais qui forment
un mot en un seul caractère. Je parle donc pas des syllables mais bien
des mots d'une seul caractère.

Jusqu'ici je les localisai en :
2E80 à 2FDF
3400 à 9FAF
F900 à FAFF

Mais j'en viens à douter.

Quelqu'un a une réponse ?

Jean-Phil
Xavier Roche
2008-02-19 15:42:03 UTC
Permalink
Post by Jean-Philippe Odent
De même que les caractères Ascii (8 bits) sont localisés dans la
zone de 0 à 127, je cherche la zone des unicodes japonais qui forment
un mot en un seul caractère. Je parle donc pas des syllables mais bien
des mots d'une seul caractère.
Euh, vous pouvez éventuellement séparer les katakana, mais pour les
Kanji (idéogrammes), il est totalement impossible de séparer les mots
composés (de kanjis et/ou de kanas) des kanjis "isolés" puisque ce sont
les même caractères (au sens Unicode du terme) sans appliquer des
traitements (très) complexes.

(Pour prendre un exemple, le "白" de "白"(い) (blanc) et le "白" de "白
米" (riz blanc) ou de "面白" ("amusant") sont identiques)
Jean-Philippe Odent
2008-02-20 08:11:34 UTC
Permalink
On Tue, 19 Feb 2008 16:42:03 +0100, Xavier Roche
Post by Xavier Roche
Euh, vous pouvez éventuellement séparer les katakana, mais pour les
Kanji (idéogrammes), il est totalement impossible de séparer les mots
composés (de kanjis et/ou de kanas) des kanjis "isolés" puisque ce sont
les même caractères (au sens Unicode du terme) sans appliquer des
traitements (très) complexes.
En fait je bosse sur un logiciel. La "complexité" ici dépendra
seulement du temps d'exécution des instructions. Il suffit de
programmer l'algorithme pour le voir.
Post by Xavier Roche
(Pour prendre un exemple, le "?" de "?"(?) (blanc) et le "?" de "?
?" (riz blanc) ou de "??" ("amusant") sont identiques)
Ca ne m'éclaire que partiellement.

Si je montre ce tableau de la langue des 65536 premiers unicodes, on
peut les localiser ?

TLanguage =

(Basic_Latin,Latin_1_Supplement,Latin_Extended_A,Latin_Extended_B,IPA_Extensions,Spacing_Modifier_Letters,

Combining_Diacritical_Marks,Greek_and_Coptic,Cyrillic,Cyrillic_Supplement,Armenian,Hebrew,Arabic,Syriac,Arabic_Supplement,

Thaana,Devanagari,Bengali,Gurmukhi,Gujarati,Oriya,Tamil,Telugu,Kannada,Malayalam,Sinhala,Thai,Lao,Tibetan,Myanmar,Georgian,

Hangul_Jamo,Ethiopic,Ethiopic_Supplement,Cherokee,Unified_Canadian_Aboriginal_Syllabics,Ogham,Runic,Tagalog,Hanunoo,Buhid,

Tagbanwa,Khmer,Mongolian,Limbu,Tai_Le,New_Tai_Lue,Khmer_Symbols,Buginese,Phonetic_Extensions,Phonetic_Extensions_Supplement,

Combining_Diacritical_Marks_Supplement,Latin_Extended_Additional,Greek_Extended,General_Punctuation,Superscripts_and_Subscripts,

Currency_Symbols,Combining_Diacritical_Marks_for_Symbols,Letterlike_Symbols,Number_Forms,Arrows,Mathematical_Operators,

Miscellaneous_Technical,Control_Pictures,Optical_Character_Recognition,Enclosed_Alphanumerics,Box_Drawing,Block_Elements,

Geometric_Shapes,Miscellaneous_Symbols,Dingbats,Miscellaneous_Mathematical_Symbols_A,Supplemental_Arrows_A,Braille_Patterns,

Supplemental_Arrows_B,Miscellaneous_Mathematical_Symbols_B,Supplemental_Mathematical_Operators,Miscellaneous_Symbols_and_Arrows,

Glagolitic,Coptic,Georgian_Supplement,Tifinagh,Ethiopic_Extended,Supplemental_Punctuation,CJK_Radicals_Supplement,Kangxi_Radicals,

Ideographic_Description_Characters,CJK_Symbols_and_Punctuation,Hiragana,Katakana,Bopomofo,Hangul_Compatibility_Jamo,Kanbun,

Bopomofo_Extended,CJK_Strokes,Katakana_Phonetic_Extensions,Enclosed_CJK_Letters_and_Months,CJK_Compatibility,CJK_Unified_Ideographs_Extension_A,

Yijing_Hexagram_Symbols,CJK_Unified_Ideographs,Yi_Syllables,Yi_Radicals,Modifier_Tone_Letters,Syloti_Nagri,Hangul_Syllables,

High_Surrogates,High_Private_Use_Surrogates,Low_Surrogates,Private_Use_Area,CJK_Compatibility_Ideographs,Alphabetic_Presentation_Forms,

Arabic_Presentation_Forms_A,Variation_Selectors,Vertical_Forms,Combining_Half_Marks,CJK_Compatibility_Forms,Small_Form_Variants,
Arabic_Presentation_Forms_B,Halfwidth_and_Fullwidth_Forms,Specials);


Sachant que chaque type de caractère est défini ainsi:

Lu Letter, Uppercase
Ll Letter, Lowercase
Lt Letter, Titlecase
Lm Letter, Modifier
Lo Letter, Other
Mn Mark, Nonspacing
Mc Mark, Spacing Combining
Me Mark, Enclosing
Nd Number, Decimal Digit
Nl Number, Letter
No Number, Other
Pc Punctuation, Connector
Pd Punctuation, Dash
Ps Punctuation, Open
Pe Punctuation, Close
Pi Punctuation, Initial quote
Pf Punctuation, Final quote
Po Punctuation, Other
Sm Symbol, Math
Sc Symbol, Currency
Sk Symbol, Modifier
So Symbol, Other
Zs Separator, Space
Zl Separator, Line
Zp Separator, Paragraph
Cc Other, Control
Cf Other, Format
Cs Other, Surrogate
Co Other, Private Use
Cn Other, Not Assigned


Merci encore pour toute aide.

--
Jean-Phil
Jean-Philippe Odent
2008-02-20 08:16:20 UTC
Permalink
On Tue, 19 Feb 2008 16:42:03 +0100, Xavier Roche
Post by Xavier Roche
(Pour prendre un exemple, le "?" de "?"(?) (blanc) et le "?" de "?
?" (riz blanc) ou de "??" ("amusant") sont identiques)
Ma question est aussi: comment peut-on faire une séparation entre les
"mots" d'une phrase en japonais (entre autre) sachant qu'il n'y a pas
de séparateur ?

--
Jean-Phil
Xavier Roche
2008-02-20 09:33:57 UTC
Permalink
Post by Jean-Philippe Odent
Ma question est aussi: comment peut-on faire une séparation entre les
"mots" d'une phrase en japonais (entre autre) sachant qu'il n'y a pas
de séparateur ?
Pour faire court, vous ne pouvez pas (facilement).

En pratique, pour segmenter du japonais, cela nécessite une analyse
morpho-statistique, pour établir, au sein de chaque phrase, les mots les
plus probables, selon un dictionnaire morphologique établi, puis,
statistiquement, trouver les combinaisons les plus probables, en sachant
qu'aucune méthode n'est parfaite.

(Cela dépasse largement les possibilités des classes Unicode, pour résumer)
Jean-Marc Desperrier
2008-03-11 12:31:43 UTC
Permalink
Post by Xavier Roche
Post by Jean-Philippe Odent
Ma question est aussi: comment peut-on faire une séparation entre les
"mots" d'une phrase en japonais (entre autre) sachant qu'il n'y a pas
de séparateur ?
Pour faire court, vous ne pouvez pas (facilement).
En pratique, pour segmenter du japonais, cela nécessite une analyse
morpho-statistique, pour établir, au sein de chaque phrase, les mots les
plus probables, selon un dictionnaire morphologique établi, puis,
statistiquement, trouver les combinaisons les plus probables, en sachant
qu'aucune méthode n'est parfaite.
(Cela dépasse largement les possibilités des classes Unicode, pour résumer)
En fait, il faut faire appel à des logiciels spécifalisés, type ChaSen/JUMAN

Quelques liens utiles ici :
http://www.felix.arseneau.com/japonais/segmentation.htm

Antoine Leca
2008-02-20 18:26:25 UTC
Permalink
Post by Jean-Philippe Odent
Ma question est aussi: comment peut-on faire une séparation entre les
"mots" d'une phrase en japonais (entre autre) sachant qu'il n'y a pas
de séparateur ?
En règle générale : avec des dictionnaires.

Vous avez aussi des caractères spéciaux pour ce genre de problèmes, comme
ZWSP (U+200B).
Cf. http://unicode.org/reports/tr14/


Antoine
Continuer la lecture sur narkive:
Loading...