Distributions de type “fractal parabolique” dans la Nature

“Parabolic fractal” distributions in Nature

Note de Jean Laherrère présentée par le Professeur Deheuvels

Comptes Rendus de l’Académie des Sciences
Série II a: Sciences de la Terre et des Planétes
publié t.322, Série IIa n·7, p.535 à 541, 4 Avril 1996


Résumé:

Les distributions appartenant à un domaine naturel spécifique et répertoriées en un inventaire d’objets rangés par taille décroissante dans un diagramme log-log taille-rang, présentent souvent, contrairement à ce que laisseraient entendre les modèles classiques, un tracé, non pas rectiligne, mais courbe. De tels tracés, que nous appellerons de type fractal parabolique sont souvent ainsi obtenus, par exemple, pour les intensités des galaxies, les agglomérations urbaines définies morphologiquement et les gisements d’hydrocarbures dans un système pétrolier. Les paramètres de la parabole sont caractéristiques de la structure multifractale des objets concernés. Toutefois, on observe certaines similitudes remarquables entre des données issues de phénomènes en apparence trés éloignés. Par extrapolation des modèles ainsi obtenus, il est possible de prévoir les parties non observables des distributions concernés, et par exemple, les réserves ultimes pétrolières, aussi bien que d’évaluer le nombre d’espèces.

Mots-clés: distribution naturelle, semi-fractal, fractale parabolique, galaxie, agglomération, effet Roi, réserves pétrolières, espèces


Abridged English Version:

The nature of the distribution of objects in natural domains has been investigated over many years (Pareto 1897; Zipf 1949; Folinsbee 1977; Mandelbrot 1982). Both linear and curved plots have been proposed to describe the relationship between size and rank, but most past models have suffered from defects: linear plots exaggerate the low end of the scale whereas the well known lognormal distribution has the opposite effect (Fig 1).

A new model, termed the Parabolic Fractal, offers a better solution. It provides that a distribution of objects in a well-defined natural domain is parabolic when size is plotted against rank on a log-log format. A complete or near complete distribution of the larger objects, which in practice are usually readily identified and quantified, can be used to define the parabola following a rule of self-similarity, and hence describe the full distribution down to the smallest object. The distribution can in turn be used to determine the total population of the objects. The model has been tested with many examples: galactic intensities (Fig 2); the distribution of town-sizes (as defined by morphologic boundaries opposed to administrative boundaries) giving the population of the World (Fig 3), the USA (Fig 4), and France (Fig 5); spoken languages; species; and hydrocarbons accumulations by petroleum system, or the World as a whole (Fig 6). Certain remarkable similarities are observed between distributions of apparently very distinct phenomena.

Care must, however, be used in cases where the largest object is much larger than the next line, giving what is known as a King Effect. Paris, for example, is anomalously large in comparison with the distribution of the other French towns (Fig 5).

The parabolic fractal gives the best fit for most natural distributions, with any observed anomalies being more likely to arise from unreliable input data than imperfection in the model. It can indeed be used as a test of reliability. In principle, the method applies only to rigorously defined natural domains, although useful, if less accurate, results can be obtained for less well-defined domains if the number of such is large, when they themselves combine to form a super-domain.

The Parabolic fractal is confirmed by a paper published at the Académie des Sciences Paris from Robert Pillet ORSTOM Noumea New Caledonia. The abstract (C.R.Acad.Sci.Paris, t.324, serie II a, p805-810, 1997) is as follows:

"Evidence for a "parabolic fractal" behaviour in a frequency-magnitude relationship of a seismic sample (Gutenberg-Richter law)

Laherrère (1996) shows that objects (earthquakes) listed in a decreasing size (magnitude) and plotted on a log-log with size against rank have a "parabolic fractal" behaviour. After a short review of the uses of a and b Gutenberg-Richter law (1956) parameters, we will point out that some seismic samples follow a parabolic law. We propose an interpretation for this parabolic fit in fractal dimension terms.

Key words: natural distribution, semi-fractal, parabolic fractal, galaxy, town agglomeration, King effect, petroleum reserves, species, seismicity, multifractal, Gutenberg-Richter law.


Introduction:

Les objets naturels peuvent être répertoriés de plusieurs manières. On peut les analyser, soit suivant leur taille, soit en fonction de leur forme géométrique. L’objet du présent article concerne plus spécifiquement la première de ces deux approches.

L’observation d’un ensemble d’objets en vue d’en évaluer la répartition peut être exhaustive lorsqu’on se limite aux objets dépassant une certaine taille. Ceci permet d’obtenir un inventaire complet de ces objets rangées par taille décroissante. Il est instructif de présenter ces observations taille-rang sous forme graphique, et, comme dans la nature la fourchette des ordres de grandeur est importante, il est naturel d’utiliser des échelles logarithmiques. Le tracé prenant pour abscisse le logarithme du rang et pour ordonnée le logarithme de la taille, est bien souvent approximativement linéaire (appelé par la suite fractale linéaire, FL). Ceci est dû au fait que de nombreuses distributions appartenant à des domaines naturels sont assez bien modélisées par des lois de type Pareto (F(x) = x-1/a L(x) où L est à variation lente).

Parmi les exemples illustrant de tels phénomènes naturels, il convient de citer tout spécialement les suivants:

Une telle approche purement linéaire, après transformation convenable des échelles, de phénomènes tels que les précédents est insuffisante.

Une autre approche de modélisation fréquemment utilisée est basée sur les lois lognormales (Aitchinson1, Brown (1957)). Les tracés sont cette fois-ci non linéaires dans une représentation taille-rang (échelles logarithmiques). Il est alors intéressant de constater qu’une distribution lognormale, lorsque tracée dans les échelles adaptées aux modèles de Pareto, fournit une courbe sensiblement parabolique, mais axée sur l’axe des rangs (Figure 1).

La relation entre l’exposant de Pareto et la dimension fractale (par exemple, au sens de Hausdorff (Falconer4 (1990)) des objets associés a été développée dans de nombreux travaux. Ceci mène à l’appellation de distributions fractales pour les lois de type Pareto. Dans le cas où l’exposant de Pareto n’est pas défini de manière précise, certains auteurs (Rigaut17 (1991)) ont été amenés à faire usage de l’appellation semi-fractals, en décrivant des exemples de ce phénomène en biométrie.

La courbure observée dans les tracés de type Pareto peut être interprétée par des variantes de la loi de Pareto exacte. Cependant, la courbure observée dans les échantillons expérimentaux semble le plus souvent être présente tout au long de l’échelle, ce qui ne devrait pas être le cas dans un modèle de type Pareto. De plus, la plupart des tracés publiés ne comportent qu’un nombre réduit de points, or des exemples plus récents faisant intervenir des milliers de points montrent bien une continuité de la courbure aussi bien pour les premiers rangs que pour les rangs trés élevés (Laherrère7 (1994)).

Nous donnons ci-dessous une série d’exemples illustrant notre approche:

-1- Distribution des galaxies:

Lequeux9 (1978) met en évidence un tracé non rectiligne des intensités des radiosources galactiques (Cavendish Laboratory). Il interprète cette non-linéarité par un possible défaut d’observation des sources de grand flux.

Nous obtenons par analyse de ses données un tracé typiquement parabolique (Figure 2) avec, Xn désignant l’intensité de la source de rang n, une équation de la forme suivante: ,

log Xn = log X1 -b log n -c (log n)2

b est la pente au rang 1 et c est le coefficient de courbure.

Un graphique en log Xn, log n permet un bon ajustement du modèle aux données par régression parabolique permettant d’évaluer b, c et le coefficient de corrélation R2.

Pour les radiosources, l’estimation des paramètres fournit (par usage du logiciel Excel5) b=0,38, c=0,07 avec R2= 0,997.

Grâce aux détecteurs CCD, l’intensité lumineuse des galaxies a pu être mesurée plus récemment par Metcalfe12 et al (1991). Dans cet exemple, un ajustement sur les mesures (Figure 2) est également parabolique (b=0, 68, c=0,03 avec R2= 0,996). Ces paramètres sont assez différents de ceux des radiosources, toutefois les deux courbes sont très parallèles du rang 100 au rang 100 000. Il faudrait cependant disposer de plus de mesures de grande intensité pour les deux types de mesure pour des secteurs du ciel variés.

En résumé, la distribution des galaxies en intensité radio ou lumineuse présente un tracé parabolique avec en moyenne b=0,5 et c=0,05

-2- Distribution des agglomérations

Moriconi13 (1993) a établi un fichier des agglomérations du monde à partir des cartes, photos aériennes où l’agglomération est définie morphologiquement par la continuité du bâti. Ce fichier met en évidence pour le monde un tracé parabolique liant les logarithmes taille-rang (Figure 3: b=0,4, c=0,09: seuls quelques points ont été reportés à partir d’un fichier des 20 843 agglomérations mondiales de plus de 10 000 habitants).

A partir du fichier2 des villes supérieures à 100 000 habitants, le report des 258 agglomérations des Etats-Unis montre un tracé parabolique (Figure 4, , b=0,4, c=0,2 avec R2=0,998).

L’extrapolation de la parabole tracée par régression jusqu’à l’agglomération minimum, à savoir 1 habitant, évalue le nombre des agglomérations supérieures à 1 habitant à 120 000, et fournit une évaluation totale de la population des Etats-Unis égale à 237 millions d’habitants (soit 187 millions pour les données et 50 pour les extrapolations). Ce chiffre est à comparer au recensement de 243 millions d’habitants. Le modèle fractale parabolique s’ajuste ainsi à 3% de la réalité. Une extrapolation linéaire (coefficient de corrélation de 0,994), donnerait pour les Etats-Unis un total de 4,6 milliards d’habitants avec 14 millions d’agglomérations supérieures à 1 habitant!. Ce chiffre hautement fantaisiste supporte le rejet d’un tel modèle purement linéaire.

Si on reporte (Figure 4) la répartition des villes délimitées par les frontières administratives, le modèle parabolique n’a plus de sens. La parabole est tournée vers le haut, la taille des agglomérations redevient croissante au delà du rang 680! Ceci montre à l’évidence qu’un tel ajustement doit correspondre à une définition naturelle pour avoir un sens.

Gell-Mann6 (1995) propose ainsi une utilisation de la loi de Zipf modifiée (fractale linéaire décalée =FLD) pour évaluer la taille des villes américaines (définition administratives). Son modèle, de la forme:

Xn=5 000 000 (n-0.4)-0,75 , aboutit également à des extrapolations irréalistes.

Le modèle FLD appliquée aux agglomérations morphologiques est très proche du modèle fractale parabolique (FP) pour les 258 agglomérations supérieures à 100 000 habitants, mais l’extrapolation des 2 modèles de la taille 100 000 habitants à la taille 1 habitant donne un total cumulé de 760 millions pour FLD, 50 pour FP à comparer à 56 en réalité.

Le modèle FLD ne convient que pour les premières centaines de rangs où il est courbe, mais non pas ensuite où il devient rectiligne.

Le tracé des agglomérations pour la France montre un tracé très anomalique pour le premier rang. Le tracé est parabolique, sauf pour le premier rang: c’est l’effet Roi (voir Laherrère7 (1994)). Lorsqu’un nouveau Roi émerge au milieu de barons de richesse équivalente, il élimine ses rivaux pour assurer son régne et prend leurs richesses: il devient ainsi sans rival, anomalique. C’est le cas de Paris avec une agglomération de près de dix millions d’habitants, suivi par des agglomérations de l’ordre d’un million. Sans Paris, le tracé est parabolique (Figure 5: b=0,5, c=0,14, R2=0,989) et l’extrapolation fournit une population totale en accord avec la réalité.

Cet effet Roi se retrouve aussi avec Londres dans les agglomérations du Royaume-Uni. Mais la plupart des pays ont une distribution “démocratique”.

-3- Distribution des langues parlées dans le monde

La distribution des langues parlées dans le monde présente un tracé parabolique avec b=0,4, c=0,4 et R2= 0,99.

Ici la courbure est forte, reduisant le nombre total des langues parlées.

-4-Distribution du premier chiffre décimal d’un ensemble naturel

Benford (1938) a mis en évidence le fait que pour de nombreux exemples naturels (superficie des lacs, par exemple) le premier chiffre décimal x vérifiait une loi de répartition de la forme P(x=n) = log(1+1/x) pour n=1,2,...,9. Ceci peut également être interprété par un tracé fractal parabolique: les petites valeurs sont beaucoup plus abondantes que les grosses. La loi de Benford donne une distribution fractale parabolique parfaite:b=0,75, c=0,12, R2=1. Un relevé de 4000 adresses que nous avons effectué dans un annuaire téléphonique suit assez bien la loi de Benford.

-5- Gisements pétroliers

Les gisements pétroliers étaient classiquement répertoriés par bassins sédimentaires suivant une classification tectonique. Depuis l’introduction d’une classification génétique par Perrodon15 (1992), le domaine naturel des gisements se réfère au Système Pétrolier , SP.

Le tracé d’un grand nombre de SP étudiés est, pour la quasi majorité, parabolique et harmonieux, sauf:

Les réserves mondiales sont la somme d’un grand nombre de SP et peuvent être considérées comme appartenant à un domaine naturel.

Le fichier Petroconsultants recense plus de 17 000 gisements pétroliers dans le monde hors E.U. et Canada. Le tracé des 2092 champs ayant des réserves initiales de plus de 50 millions de barrils montre un tracé parabolique (Figure 6: b=0,4, c=0,15, R2=0,998), bien que les tailles des plus gros situés surtout au Moyen-Orient soient imprécises et surestimées: les données sont confidentielles et souvent affectées par la politique de l’OPEP, les quotas de production étant déterminées par les réserves.

-6-Répartition de type Fractale Parabolique et applications

Deheuvels3 et Mason (1995) ont mis en évidence le fait que les singularités associés à la répartition aléatoire de points composaient des ensembles fractals. Les liaisons entre des modèles de ce type et les répartitions de type Pareto ont été décrites dans la littérature. De ce fait, et par des exemples analogues, le terme fractal a pris un sens devenu à l’occasion synonyme de self-similarité.

L’association d’objets fractals aux lois de Pareto mène naturellement à des tracés log (données), log (rangs) linéaires (FL). Il s’avère que dans la nature, les tracés observés sont courbes, réflétant sans doute une certaine imperfection de la self-similarité. La fractale linéaire est acceptable comme approximation locale, correspondant à la tangente de la parabole. La fractale linéaire décalée (ajoutant au rang une quantité peu physique) est, quant à elle, asymptotiquement linéaire pour les rangs élevés.

En ce qui concerne les tracés franchement courbes: les “vrais fractales”, Rigaut16 (1989), l’appelation de semi-fractal (ou fractale asymptotique) a été introduit par Rigaut17 (1991). Le terme de fractal parabolique (FP) proposé dans cette note unifie en partie ces différents modèles: pour c=0, la FP devient linéaire et rejoint le cas FL.

Le modèle parabolique permet, en première approximation, une excellente approche des inventaires plus ou moins précis existants. La FP permet d’extrapoler le tracé de la partie apparente de la distribution, à savoir la distribution des grosses valeurs.

L’exemple de May11 (1992), pionnier du non-linéaire dans l’étude des populations, illustre notre approche. Ce dernier a étudié le nombre d’espèces terrestres et a tenté une extrapolation linéaire en évaluant à 60 millions d’espèces terrestres de taille supérieure à un millimètre. Un tracé FP ramène cette évaluation à un nombre de 5 à 10 millions.

Conclusion

Tous ces exemples montrent que le tracé FP dans un diagramme log-log taille-rang donne d’excellentes représentations des ensembles naturels. Les tracés non paraboliques s’interprètent souvent comme issus, soit d’ ensembles non naturels, soit d’ensembles naturels superposés.

Les distributions étudiées couvrant des domaines très variés montrent des tracés FP assez semblables (paramètres b variant de 0,3 à 0,5 et c de 0,05 à 0,2) sans que nous puissons en expliquer la raison (voir Deheuvels6 pour d’autres exemples).

Le tracé FP est supérieur au tracé linéaire qui surestime les petits et donne parfois des quantités ultimes infinies; il est aussi supérieur au modèle lognormal qui sous-estime les petits et qui est d’un maniement compliqué pour estimer les distributions ultimes.

Lorsque le premier rang est très supérieur aux rangs suivants qui montrent un tracé parabolique, il y a l’effet Roi et il convient de le corriger.

Mais il faut le souligner, et l’expérience le montre clairement: la précision des données est très souvent inférieure à la valeur de la méthode utilisée pour l’étudier.

L’amélioration de la collecte des données est à rechercher avant de discuter de l’amélioration du modèle.


Références:

1-AITCHINSON, J., BROWN, J.A.C. 1957. The lognormal distribution -Cambridge University -176p