Optimisation des chaînes de caractères en Python : le retour !

vignette

Dans les épisodes précédents, je m'étonnais de voir des concaténations de chaînes de caractères être plus rapide que des remplissages de listes. Depuis je cogite car il est indiqué un peu partout qu'il faut privillégier les listes. Et j'ai fini par trouver une réponse :-).

Considérons la même chaîne de caractères :

strings = ["tagada"]*1000000 + ["tsouintsouin"]*1000000

Et la même fonction foo2() :

def foo2():
    string_final = []
    for string in strings:
        if not "tsouin" in string:
            string_final.append(string)
    return "".join(string_final)

Donc cette fonction met environ 4,70 secondes à créer cette énorme chaîne de caractères. Ce que j'avais alors oublié de tester, ce sont les alias. En effet, les fonctions de type list.append sont réévaluées à chaque itération en python, ce qui fait perdre un temps fou, la preuve en chiffres :

def foo3():
    string_final = []
    app = string_final.append
    for string in strings:
        if not "tsouin" in string:
            app(string)
    return "".join(string_final)

Et là on tombe à 3,50 secondes ! Ainsi les listes peuvent être plus rapides que les concaténations de chaînes de caractères, encore faut-il pouvoir créer un alias...

Bon et puisque j'y suis, une autre petite astuce d'optimisation : on peut lire dans les astuces d'optimisation de Zope qu'il vaut mieux utiliser les méthodes du module string plutôt que des portions de listes. Bon dit comme ça on comprend pas trop de quoi je parle alors un petit exemple pour clarifier tout ça :

def foo4():
    string_final = ""
    for string in strings:
        if string[:5] == "tagad":
            string_final += string
    return string_final

def foo5():
    string_final = ""
    for string in strings:
        if string.startswith("tagad"):
            string_final += string
    return string_final

La méthode foo4() s'exécute en 7,2 secondes et foo5() en 12 secondes... tiens c'est le contraire qui est obtenu ici, me serais-je trompé ? Je revérifie et non j'ai bien ces temps là d'exécution, soit presque le double lorsque l'on utilise les méthodes du module string.

Première conclusion : vérifiez toujours les astuces d'optimisation qu'on vous propose (ceci est valable pour celles-ci aussi) car elle peuvent évoluer selon les versions de Python ou du contexte par exemple.

Seconde conclusion : les listes finalement c'est pas si mal pour traiter les chaînes de caractères :-).

Je vous rappelle qu'un billet récapitule l'ensemble des bonnes pratiques et optimisations en Python.

— 27/01/2006

Articles peut-être en rapport

Commentaires

Kagou le 27/01/2006 :

C'est le genre de truc qui me fait peur quand je me dis que je vais apprendre python (c'est aussi valable pour les autres ). On peut faire une opération de bien ?!trop?! de manières différentes, avec des implications conséquentes. Il me faut trouver le livre idéal qui m'apprenne et me sensibilise à ce genre de problème.

David, biologeek le 27/01/2006 :

Non justement en Python il y a très souvent une seule manière de bien faire les choses et c'est d'ailleurs la raison d'être de ces billets :)

Tarek le 11/03/2006 :

En fait entre Python 2.3 et Python 2.4 la gestion des chaînes a changée, rendant obsolètes et parfois même plus lentes des astuces qu'on trouve encore sur le web.

Conclusion: il faut toujours indiquer la version de Python utilisée dans les astuces de ce genre.

David, biologeek le 11/03/2006 :

Oui, je l'ai appris en lisant un très bon livre, je suis d'ailleurs en train d'en écrire une critique ;)

soumia le 19/05/2011 :

slt, j'ai besoin de trouver la solution de prb de décomposition de la chaine de caractéres en sous tranche pour la parcourir et récuperer ces tranches pour les utiliser dans un autre traitement (ces tranches sont séparer par des blancs), merci de m'aider