Zipf et Yule-Simon

Sujet: Zipf et Yule-Simon Lun 12 Nov 2012 - 22:55

Voici un outil pour tester si une conlang a des caractéristiques naturalistes ou non.

La distribution des fréquences d'usage des mots d'une langue naturelle obéit à la loi de Zipf, et la distribution des fréquences d'usage des phonèmes à la loi de Yule-Simon.

La loi de Yule-Simon décrit également la fréquence d'apparition des codons de l'ADN. D'une façon générale ces deux lois se retrouvent dans tout un tas de phénomènes mettant en jeu le codage de l'information.

Donc voilà, si vous avez un corpus suffisant, vous pouvez tester si votre langue a subi l'entropie de l'information.

https://pulib.sk/skase/Volumes/JTL09/pdf_doc/1.pdf
http://fr.wikipedia.org/wiki/Loi_de_Yule-Simon
http://fr.wikipedia.org/wiki/Loi_de_Zipf

A noter que les statistiques de fréquence des phonèmes ne doivent jamais se faire sur des dictionnaires, mais sur des corpus.

Sujet: Re: Zipf et Yule-Simon Lun 12 Nov 2012 - 23:46

J'ai nila méthode, ni la patience.

Embarassed

Invité

Merci Leo pour ces liens et éléments d'analyse. Je ne comprends strictement rien concernant la loi de Yule-Simon. En revanche, pour celle de Zipf, cela semble davantage exploitable.

En utilisant un outil sur la fréquence des mots, trouvé dans les liens de l'article Zipf que tu donnes, appliqué à un texte en Kotava, la traduction des 5 premiers chapitres du roman "Le Don paisible" du russe Mikhail Cholokhov, on obtient :

Semantic Depth Analyzer a écrit:: Vocabulary analysis
Unique words in your vocabulary 2693 for a total of 6976 words in the text, a richness of 38 % :

541 va
264 –
142 ke
102 in
95 grigori
78 aze
71 is
63 ise
59 ve
59 al
56 koe
54 me
39 aksinya
36 ton
34 dum
31 nume
31 lava
31 kan
30 zo
30 moe
30 ko
30 dem
29 fu
28 rin
28 gu
27 tir
27 mo
26 okol
26 jin
26 int
26 da
[.../...]

Il convient d'éliminer les 264 occurrences "-", qui correspondent à des tirets de dialogue. Les 95 "Grigori" et 39 "Aksinya" sont ceux des prénoms des héros.

Sinon, ce qui apparait sans photo (chose que tout kotavophone dirait instinctivement), c'est que le mot le plus fréquent, et de loin, est "va", qui est celui de la préposition d'objet (l'accusatif en d'autres termes).

Ensuite, le "ke" est celui de la préposition "de" de possession.
Le "in" est le pronom de troisième personne.
Le cas de "aze", "is" et "ise" sont intéressants. Le premier est un "et puis" entre propositions. Le second un "et (additif)" simple, et le troisième le "et (additif)" entre propositions.

Dans ce qui suit, on trouve essentiellement :
- des particules d'aspect : ve, al, fu
- des prépositions : koe, ton, kan, moe, ko, dem, gu, mo
- la négation : me
- des conjonctions : nume (et donc), dum (comme), da (que)
- des pronoms personnels : rin (tu), jin (je), int (soi)

Dans cette liste :
- deux noms communs : lava (eau), okol (cheval)
- une seule forme verbale : tir (est)

En tout cas, ce qui est particulièrement significatif, c'est le fait qu'on a presque exclusivement des mots très courts (d'une syllabe la plupart)

Sujet: Re: Zipf et Yule-Simon Mar 13 Nov 2012 - 16:01

A présent, pour peaufiner le dictionnaire (automatique) sambahsa, j'utilise un outil statistique pour inclure les mots plus fréquents dans la liste et vérifier certains oublis.

Il y a plus d'un an, Steve Rice avait analysé statistiquement l'ensemble des textes sambahsa disponibles.
Voici les mots les fréquents selon ses recherches :
id = 4259, ed = 2112, un = 2001, ia = 1438, is = 1319, in = 1037, ios = 798, eet = 754, iom = 660, hieb = 570, ep = 537.

Pas vraiment une courbe de Zipf; la plupart des mots sont des pronoms-articles : la similitude de ces deux catégories en Sambahsa accroît leur fréquence. On trouve aussi "eet" = "était" et "hieb" = passé du verbe avoir. Pas étonnant, puisque les textes littéraires sont généralement écrits au passé.

A présent, comme mise à l'épreuve, je vais tester mes dernières traductions, dix pages non-publiées, non prises en compte par Steve.

Résultat :
ed = 266, id = 174, io = 102, un = 72, eet = 69, ye = 66, me = 63, in = 54, mien = 52, ia = 47, ne = 46, to = 43, hieb = 46

Rien à avoir avec Zipf, et pas grand-chose avec la statistique dressée par Steve !

Apparaissent des pronoms de la 1° personne singulier : io, me, mien . Ca s'explique par le fait que le personnage central du texte en question est le narrateur.

Bon, ces lois statistiques me semblent peu applicables à l'étude purement linguistique des langues (bien sûr, elles ont leur utilité pour l'analyse des textes dans le cadre d'une transmission d'information avec codage).

A la rigueur, j'ai pu parler d'entropie au sujet du sambahsa, mais plutôt pour qualifier la conjonction des principes de brièveté et de précision. Par exemple, les pronoms articles monosyllabiques incluent l'information sur le gendre, le cas, le nombre. Ou bien, le sambahsa peut être "pro-drop" si la terminaison laisse deviner la personne.

Invité

Olivier,
il semble bien que ton corpus ne soit pas suffisamment grand.
Une liste de mots pour l'espéranto. Est-ce que ça fonctionne?

Sujet: Re: Zipf et Yule-Simon Mar 13 Nov 2012 - 16:28

Oui, le second texte-test est assez petit; cependant, puisqu'il a un style semblable du début à la fin (en son intégrité et non sur 10 pags), je ne pense pas que ça changerait beaucoup de choses pour les mots les plus fréquents qui sont des pronoms, des mots-outils et non des substantifs, adjectifs ou verbes dépendant du contexte).

Invité

Justement un corpus devrait contenir plusieurs textes, et des texte variés. Ça doit modifier le résultat.

Invité

Sujet: Re: Zipf et Yule-Simon Mar 13 Nov 2012 - 20:02

Sab, tu as utilisé ce site: http://1.1o1.in/en/webtools/semantic-depth donné dans le wikipedia en anglais? Est-ce qu'il a bien pris en compte les caractères accentués du kotava?

Il nous faudrait un mathématicien ou un logiciel de curve fitting pour voir si les statistiques du kotava, du sambahsa et de l'esperanto dessinent une courbe de Zipf. Quelqu'un peut nous aider? Olivier, comment peux-tu affirmer d'emblée que tes données ne suivent pas une courbe de Zipf?

lsd, c'est la question que je me pose, notamment pour les langues à morphologie lourde. Les statistiques de l'esperanto que donne Silvano sont ramenées aux formes nues (infinitif, nominatif singulier), tandis que d'autres, pour l'anglais ou le français, distinguent toutes les formes possibles de conjugaison. Pour la ptite langue, je serais bien embêté car on peut l'écrire de manière isolante ou bien attacher les séquences de morphèmes les plus fréquentes. Mais si la loi de Zipf, Mandelbrot ou Yule est si omniprésente, j'ai l'impression que quelle que soit la méthode de découpage utilisée, on devrait tomber sur le même type de courbe de distribution.

PS: Je confirme ce que dit Silvano, il faut un corpus de bonne taille pour obtenir des statistiques valables.

Sujet: Re: Zipf et Yule-Simon Mar 13 Nov 2012 - 20:30

Leo a écrit:: Il nous faudrait un mathématicien ou un logiciel de curve fitting pour voir si les statistiques du kotava, du sambahsa et de l'esperanto dessinent une courbe de Zipf. Quelqu'un peut nous aider? Olivier, comment peux-tu affirmer d'emblée que tes données ne suivent pas une courbe de Zipf?

.

Je me suis fié à la remarque humoristique sur Wikipédia... (8000 fois le premier, 800 le suivant...).
Voici les statistiques de Steve pour les premiers mots :

Word Frequency %

id 4259 4.66
ed 2112 2.31
un 2001 2.19
ia 1438 1.57
is 1319 1.44
in 1037 1.13
ios 798 0.87
eet 754 0.83
- 684 0.75
! 676 0.74
iom 660 0.72
hieb 570 0.62
: 542 0.59
ep 537 0.59
sien 527 0.58
de 518 0.57
est 485 0.53
os 481 0.53
kay 476 0.52
i 476 0.52
ne 448 0.49
quod 415 0.45
bet 388 0.42
tod 373 0.41
? 360 0.39
od 332 0.36
med 322 0.35
ex 316 0.35
se 288 0.32
yu 287 0.31
do 275 0.30
eys 263 0.29
ad 246 0.27
ye 235 0.26
ab 234 0.26
mien 227 0.25
hat 223 0.24
eent 215 0.24
ei 214 0.23
quem 208 0.23
unte 207 0.23
pro 204 0.22
io 204 0.22
uno 201 0.22
me 199 0.22
ir 198 0.22
iam 197 0.22
vos 191 0.21
buit 182 0.20
Golf 177 0.19
con 177 0.19
ho 167 0.18
kam 157 0.17
ud 154 0.17
Waktprincesse 151 0.17
oin 150 0.16
dind 150 0.16
kun 148 0.16
to 144 0.16
ses 144 0.16
pos 143 0.16
dwer 140 0.15
; 138 0.15
dwo 131 0.14
el 129 0.14
ghohd 127 0.14
qui 126 0.14
quo 125 0.14
tun 124 0.14
uns 123 0.13
quer 120 0.13
hol 120 0.13
tem 119 0.13
pre 119 0.13
Philippe 118 0.13
im 115 0.13
John 114 0.12
ter 113 0.12
Bob 113 0.12
ies 112 0.12
wir 110 0.12
ardh 108 0.12
kyid 107 0.12
om 105 0.11
iey 105 0.11
Zabdiel 104 0.11
sei 103 0.11
Braham 103 0.11
tik 101 0.11
Ithacus 101 0.11
qua 100 0.11
ob 100 0.11
quant 99 0.11
neid 99 0.11
lyt 96 0.11
kwohk 96 0.11
menxu 95 0.10
per 94 0.10
journaliste 94 0.10
ghi 93 0.10
Elohîms 93 0.10
vis 92 0.10
sub 92 0.10
Valiocka 90 0.10
ghom 90 0.10
ays 90 0.10
oik 86 0.09
meis 86 0.09
Medduzz 85 0.09
aun 85 0.09
wogh 82 0.09
tien 82 0.09
ta 82 0.09
sont 81 0.09
apter 81 0.09
inter 80 0.09
strad 79 0.09
ay 79 0.09
quos 78 0.09
iens 76 0.08
au 76 0.08
ant 73 0.08
ub 72 0.08
sayct 72 0.08
dien 72 0.08
vies 71 0.08
smulk 71 0.08
mi 70 0.08
fauran 70 0.08
Peter 69 0.08
dar 69 0.08
ya 67 0.07
tsay 66 0.07
stayg 66 0.07
vide 64 0.07
nos 64 0.07
IHVH-Adonay 63 0.07
aventurers 63 0.07
wohs 62 0.07
te 62 0.07
sem 62 0.07
meg 62 0.07
bad 62 0.07
tu 61 0.07
oku 61 0.07
kye 61 0.07
sprohg 60 0.07
so 60 0.07
lakin 60 0.07
ka 60 0.07
tiel 59 0.06
just 59 0.06
dom 59 0.06
uper 58 0.06
Pardoe 58 0.06
her 58 0.06
bo 58 0.06
quel 57 0.06
nam 57 0.06
habiet 57 0.06
nies 56 0.06
kwehre 56 0.06
baygh 55 0.06
wakt 54 0.06
mier 54 0.06
katha 54 0.06
hant 54 0.06
taiper 53 0.06
alyo 53 0.06
villa 52 0.06
tid 52 0.06
habte 52 0.06
pior 51 0.06
mox 51 0.06
Lucas 51 0.06
kyal 51 0.06
gwahsit 51 0.06
wed 50 0.05
serter 49 0.05
samt 49 0.05
diens 49 0.05
tri 48 0.05
San 47 0.05
okwi 47 0.05
duxit 47 0.05
wirs 46 0.05
sieyg 46 0.05
maung 46 0.05
kafi 46 0.05
ja 46 0.05
gwahe 46 0.05
esen 46 0.05
stet 45 0.05
quayque 45 0.05
prosch 45 0.05
land 45 0.05
itner 45 0.05
ids 45 0.05
hatta 45 0.05
antwohrd 45 0.05
quan 44 0.05
kamer 44 0.05
gwohm 44 0.05
dalger 44 0.05
quando 43 0.05
mur 43 0.05
mater 43 0.05
long 43 0.05
diek 43 0.05
desert 43 0.05
voc 42 0.05
semper 42 0.05
plur 42 0.05
gohd 42 0.05
Francisco 42 0.05
cap 42 0.05
urb 41 0.04
sessiet 41 0.04
nieb 41 0.04
neti 41 0.04
buir 41 0.04
quants 40 0.04
Laura 40 0.04
gwiv 40 0.04
glebeus 40 0.04
circa 40 0.04

Sujet: Re: Zipf et Yule-Simon Mar 13 Nov 2012 - 20:50

J'ai des cours de méthodes pour traiter des corpus avec des programmes informatiques. Si vous avez des corpus de texte en langue construite, on peut essayer... Razz

En général, ça permet de trouver des expressions figées ou des mots souvent associés entre eux.

_________________
Le grand maître admin-fondateur est de retour. - Bedal
Original, bien justifié, et différent du sambahsa et de l'uropi. - Velonzio Noeudefée
Nemszev m'a fait une remarque l'autre jour, et j'y ai beaucoup réfléchi depuis. - Djino
J'ai beaucoup de tendresse pour ta flexion verbale. - Doj-Pater
Pourquoi t'essaies de réinventer le sambahsa ? - Olivier Simon
Oupses ! - Anoev

Sujet: Re: Zipf et Yule-Simon Mar 13 Nov 2012 - 21:01

Olivier, les chiffres dépendent de la taille du corpus utilisé!!!!!!!!
C'est uniquement la forme de la courbe qui compte, son paramètre d'ajustement.

Nemszev, ça serait cool ^^

Sinon j'ai trouvé des outils pour Zipf et autres traitements statistiques:

http://cran.r-project.org/web/packages/zipfR/index.html
http://cran.r-project.org/web/views/NaturalLanguageProcessing.html
http://cran.r-project.org/

Si quelqu'un a le temps de se pencher dessus et de nous faire profiter de ses lumières...

Invité

Leo a écrit:: Sab, tu as utilisé ce site: http://1.1o1.in/en/webtools/semantic-depth donné dans le wikipedia en anglais? Est-ce qu'il a bien pris en compte les caractères accentués du kotava?

Oui, c'est effectivement cet outil. Et il distingue bien les caractères accentués.

L'analyse a isolé toutes les formes fléchies, tous les paradigmes. Compte tenu de l'importance d'usage en Kotava des suffixes totaux (augmentatifs, diminutifs, etc.), des marques de conjugaison (désinences personnelles, temps) et de tous les affixes couramment utilisés (modalités par exemple), ainsi que la règle de l'euphonie vocalique (qui double peut-être le nombre de variations des adjectifs), il est évident que cela doit augmenter assez notablement la dispersion des occurrences.

A tout coup, une langue fortement isolante devrait avoir une dispersion moins grande et, j'imagine, une concentration de mots fréquents plus développée (mais polysémiques et polyfonctionnels).

Sujet: Re: Zipf et Yule-Simon Mar 13 Nov 2012 - 22:48

Sab a écrit:: A tout coup, une langue fortement isolante devrait avoir une dispersion moins grande et, j'imagine, une concentration de mots fréquents plus développée (mais polysémiques et polyfonctionnels).

A ce sujet, je viens de voir que les caractères du chinois ne suivent pas Zipf, mais les mots du chinois le suivent:
http://jis.sagepub.com/content/20/2/142.abstract
La plupart des mots du chinois sont composés de plusieurs caractères, même si les textes collent tous les caractères.
On en revient quand même au problème dont parlait lsd: la délicate définition de ce qu'est exactement un mot.

Au passage, la page d'accueil du R Project avec screenshots et manuel d'utilisation est ici: http://www.r-project.org/

EDIT: Wow, une approche originale qui se passe presque de la notion de mot et considère les groupements:
http://aclweb.org/anthology-new/O/O03/O03-4004.pdf
C'est ce qu'il me faut pour la ptite langue, et probablement aussi pour la lsd de lsd.

EDIT2: Bon sang, on retrouve Zipf même dans le jeu de go:
http://iopscience.iop.org/0295-5075/97/6/68002/article
Ca en devient effrayant...

» La loi de Zipf