En informatique théorique, en combinatoire, et notamment en combinatoire des mots, un motif inévitable est un motif (au sens défini ci-dessous) qui apparaît dans tout mot assez long. Un motif est évitable sinon. Par exemple, le motif est inévitable sur deux lettres et évitable sur trois lettres, parce que tout mot assez long sur deux lettres contient un carré (composé de deux facteurs consécutifs égaux), et qu'il existe des mots arbitrairement longs sans carré sur trois lettres.
Les motifs évitables et inévitables généralisent la notion de répétition dans les mots, et leur étude s'inscrit dans celle des régularités dans les mots.
Définitions
Soit un alphabet, et soit un autre alphabet, appelé l'alphabet des symboles de motifs ou des variables. Un motif est un mot non vide sur E. Un mot sur est une instance d'un motif s'il existe un morphisme non effaçant tel que . Un mot évite le motif si aucun facteur de n'est une instance de . Une définition équivalente est la suivante : le langage du motif est l'ensemble des mots , où est comme ci-dessus un morphisme non effaçant; un mot évite le motif si aucun facteur de n'est dans le langage de . Si n'évite pas le motif , on dit que rencontre ou contient une instance du motif [1].
Par exemple, le mot (où sont des lettres de ) rencontre le motif ( et sont des lettres de ); en effet, le facteur de est l'image de par le morphisme qui envoie sur et sur . Le facteur aussi est dans le langage du motif : il est l'image de par le morphisme qui envoie sur et sur . Le mot évite le motif , puisqu'il ne contient pas de carré, c'est-à-dire pas deux facteurs consécutifs égaux[2].
Un motif est évitable s'il existe une infinité de mots sur un alphabet fini qui évitent . De manière équivalente, un motif est évitable s'il existe un mot infini qui évite . Dans le cas contraire, le motif est dit inévitable[2]. Par exemple, le motif est inévitable : tout mot assez long contient deux occurrences de la même lettre séparées par au moins une lettre.
Tout mot de longueur au moins 29 sur 3 lettres contient une occurrence du motif
En arithmétique
Il est possible de s'intéresser aux motifs inévitables contenus dans l'écriture décimale (ou dans d'autres bases de numération) de nombres appartenant à des sous-ensembles de l'ensemble des entiers naturels. Ainsi 14 est un motif inévitable de l'ensemble car les écritures des deux éléments de S contiennent les chiffres 1 et 4 dans cet ordre.
Nombres premiers inévitables
On s'intéresse aux motifs inévitables contenus dans l'écriture des nombres premiers qui sont eux-mêmes des nombres premiers. Plus précisément, on cherche le plus petit ensemble de nombres premiers dont au moins l'un des éléments apparait dans l'écriture de tout nombre premier. On a alors les résultats suivants[7]:
en base 2 l'ensemble inévitable minimal des nombres premiers est [a];
en base 3 l'ensemble inévitable minimal des nombres premiers est [b];
en base 4 l'ensemble inévitable minimal des nombres premiers est [c];
en base 10 l'ensemble inévitable minimal des nombres premiers est .
Tout nombre premier écrit en base 10 contient l'un des motifs de l'ensemble donné ci-dessus. Par exemple 6 661 contient le motif 61.
Puissances de deux
On s'intéresse aux motifs inévitables contenus dans l'écriture en base 10 des puissances de deux qui sont eux-mêmes des puissances de deux. Il est conjecturé que l'ensemble inévitable minimal des puissances de deux est[7]: .
Le motif ABACABA
Ce motif est le point de départ d'études ou de recherches sur des objets auto-similaires, et donné lieu à plusieurs publications scientifiques ou plus ludiques[8], notamment
« ABACABA Amazing Pattern, Amazing Connections », Math Horizons, (lire en ligne)
Sherioz, « Exploring Fractals with ABACABA », Chicago Geek Guy, (lire en ligne, consulté le )
S'il existe un mot infini sur lettres qui évite un motif , le motif est dit -évitable. Sinon, il est -inévitable. Si est évitable, le plus petit entier tel que est -évitable, noté , est appelé l'indice d'évitabilité de [9]. Si est inévitable, son indice d'évitabilité est, par définition, . Par exemple, comme le motif est inévitable, son indice est . En revanche, l'indice d'évitabilité du motif est 3, car il existe un mot sans carré infini sur trois lettres, et il n'en existe pas sur deux lettres. Ainsi .
Pour les motifs binaires, sur deux variables et , on a[10],[11] :
sont inévitables;
les motifs ont l'indice d'évitabilité 3;
tous les autres motifs ont l'indice d'évitabilité 2.
Une variable qui n’apparaît qu'une fois dans un motif est dite isolée. On associe à un motif une « formule » en remplaçant dans chaque variable isolée par un point. Les facteurs entre des points sont appelés des fragments.
Une occurrence d'une formule dans un mot est un morphisme non effaçant tel que l'image par de chaque fragment de est un facteur de . Comme pour les motifs, l'indice d'évitabilité d'une formule est la taille du plus petit alphabet qui ne contient pas d'occurrence de la formule . Si est la formule associée à un motif , tout mot évitant évite aussi , et on a donc . S'il existe un mot infini qui évite , il existe aussi un mot infini récurrent qui évite . Ce mot récurrent évite aussi , de sorte qu'on a .
L'indice d'évitabilité de toute formule binaire, c'est-à-dire composée de deux variables, a été déterminé par Pascal Ochem et Matthieu Rosenfeld[12].
Une formule est dite divisible par une formule si n'évite pas , en d'autres termes s'il existe un morphisme non effaçant tel que l'image par de tout fragment de est un facteur d'un fragment de . Si est divisible par , alors tout mot évitant évite aussi , donc . Le retourné d'une formule et ont même indice d'évitabilité, donc . Par exemple, le fait que est 2-évitable implique que ou sont 2-évitables.
R. J. Clark a introduit[13] la notion de base de -évitabilité pour les formules : c'est le plus petit ensemble de formules tel que, pour tout indice , toute formule évitable à variables est divisible par une formule à au plus variables dans .
Une formule circulaire[14] est une formule dont chaque fragment est obtenu par une permutation circulaire des lettres du précédent, par exemple ou .
Clark a montré que l'index d'évitabilité est au plus 4 pour toute formule circulaire et pour toute formule de la base de 3-évitabilité, et donc pour toute formule évitable contenant au plus 3 variables. Cette propriété a été précisé par Gamard et al.[14]
On s'intéresse à la longueur des mots sur un alphabet à lettres qui contient en facteur une copie du mot de Zimin , c'est-à-dire une image du mot , où chaque lettre est remplacée par un mot non vide. Ainsi, le mot
est une copie de , de même est une copie de (en remplace au choix par et par , ou on laisse inchangé et on remplace par ). Plus généralement, contient deux copies de , et est une copie de obtenue en remplaçant les occurrences de la première lettre par .
On définit une fonction par :
est le plus petit entier tel que tout mot de longueur sur un alphabet à lettres contient en facteur une copie du mot de Zimin .
On a et . La deuxième égalité vient du fait que, par le principe du tiroir, au moins une lettre apparaît trois fois dans tout mot de longueur . La copie de consiste en la première et la troisième occurrence de cette lettre, le facteur non vide qui les sépare étant l'image de la lettre . D'autre part, la borne est atteinte puisque le mot de longueur ne contient pas de copie de .
Une relation de récurrences sur est donnée par la formule suivante de Cooper et Rorabaugh[15] :
.
Un mot de longueur se factorise en effet en mots, chacun de longueur séparés par une lettre. Chacun des facteurs de longueur contient une copie de . Comme il y en a , deux de ces facteurs sont égaux. Comme ces deux copies sont séparées par au moins une lettre, ceci fournit une copie de . On peut améliorer cette majoration dans le cas de 3 lettres[16] :
Des majorations et minorations pour d'autres cas font intervenir une fonction tour (tower en anglais) d'itération d'exponentiation, notée et définie par :
et .
Ainsi
, , , .
Avec ces notations, on a:
et aussi une minoration sous forme d'une tour d'exponentielles, même dans le cas d'un alphabet binaire[17],[18],[19] :
et (pour ).
Notes et références
Notes
↑10 et 11 sont bien des nombres premiers (ce sont les écritures binaires de deux et de trois). Le résultat découle de ce que tout nombre premier autre que 2 est impair.
↑Ce sont les écritures ternaires de deux, de trois et de treize.
↑Ce sont les écritures quaternaires de deux, de trois et de cinq.
↑ a et bPascal Boyer, Petit compagnon des nombres et de leurs applications, Paris, Calvage et Mounet, , 648 p. (ISBN978-2-916352-75-6), II - Nombres premiers, chap. 1.7 (« Nombres premiers inévitables »), p. 195-197.
↑En plus, ce sigle est également un nom commercial.
↑Pacal Ochem, « A generator of morphisms for infinite words », RAIRO - Theor. Inform. Appl., vol. 40, , p. 427-441.
↑Pascal Ochem et Matthieu Rosenfeld, « Avoidability of Formulas with Two Variables », dans S. Brlek et C. Reutenauer (diteurs), Proceedings of the 20th international Conference, DLT 2016, coll. « Springer Lecture Notes in Computer Science » (no 9840), , 344-354 p. (DOI10.1007/978-3-662-53132-7_28, arXiv1606.03955).
↑R. J. Clark, Avoidable formulas in combinatorics on words (PhD thesis), Los Angeles, University of California, (lire en ligne).
↑ a et bGuilhem Gamard, Pascal Ochem, Gwenaël Richomme et Patrice Séébold, « Avoidability of circular formulas », Theoretical Computer Science, vol. 726, , p. 1-4 (DOI10.1016/j.tcs.2017.11.014, arXiv1610.04439).
(en) N. Pytheas Fogg, Substitutions in dynamics, arithmetics and combinatorics, Édité par Valérie Berthé, Sébastien Ferenczi, Christian Mauduit et Anne Siegel, Springer-Verlag, coll. « Lecture Notes in Mathematics » (no 1794), , 402 p. (ISBN3-540-44141-7, zbMATH1014.11015, lire en ligne).
[2015] Wojciech Rytter et Arseny M. Shur, « Searching Zimin patterns », Theoret. Comput. ci., vol. 571, , p. 50-57 (DOI10.1016/j.tcs.2015.01.004).
[2016] Joshua Cooper et Danny Rorabaugh, « Asymptotic density of Zimin words », Discrete Math. Theor. Comput. Sci., vol. 18, no 3, , article no 3 (25 pages) (MR3625459).
[2019] David Conlon, Jacob Fox et Benny Sudakov, « Tower-type bounds for unavoidable patterns in words », Transactions of the American Mathematical Society, vol. 372, no 9, , p. 6213-6229 (DOI10.1090/tran/7751, arXiv1704.03479).
[2017] Arnaud Carayol et Stefan Göller, « On Long Words Avoiding Zimin Patterns », dans Heribert Vollmer et Brigitte Vallée (éditeurs), 34th Symposium on Theoretical Aspects of Computer Science (STACS 2017), coll. « Leibniz International Proceedings in Informatics (LIPIcs) » (no 66), (ISBN978-3-95977-028-6, ISSN1868-8969, DOI10.4230/LIPIcs.STACS.2017.19, lire en ligne), p. 19:1-19:13.
[2019] Arnaud Carayol et Stefan Göller, « On Long Words Avoiding Zimin Patterns », Theory of Computing Systems, vol. 63, no 5, , p. 926–955 (DOI10.1007/s00224-019-09914-2).