davidbgk
/
larlet-fr-david

<!doctype html>
<html lang=fr>
<head>
  <!-- Always define the charset before the title -->
  <meta charset=utf-8>
  <title>Nombre d&#39;occurences d&#39;un mot dans un texte en Python — Biologeek — David Larlet</title>
  <!-- Define a viewport to mobile devices to use - telling the browser to assume that the page is as wide as the device (width=device-width) and setting the initial page zoom level to be 1 (initial-scale=1.0) -->
  <meta name="viewport" content="width=device-width, initial-scale=1"/>
  <!-- Fake favicon, to avoid extra request to the server -->
  <link rel="icon" href="data:;base64,iVBORw0KGgo=">
  <link type="application/atom+xml" rel="alternate" title="Feed" href="/david/log/" />
  <link rel="manifest" href="/manifest.json">
  
  <link rel="stylesheet" href="/static/david/css/larlet-david-_J6Rv.css" data-instant-track />
  
  <noscript>
    <style type="text/css">
      /* Otherwise fonts are loaded by JS for faster initial rendering. See scripts at the bottom. */
      body {
        font-family: 'EquityTextB', serif;
      }
      h1, h2, h3, h4, h5, h6, time, nav a, nav a:link, nav a:visited {
        font-family: 'EquityCapsB', sans-serif;
        font-variant: normal;
      }
    </style>
  </noscript>
  
  <!-- Canonical URL for SEO purposes -->
  <link rel="canonical" href="https://larlet.fr/david/biologeek/archives/20081206-nombre-doccurences-dun-mot-dans-un-texte-en-python">

</head>
<body>
  <div>
    
    <header>
      <nav>
        <p>
          <small>
            Je suis <a href="/david/" title="Profil public">David Larlet</a>, <a href="/david/pro/" title="Activité professionnelle">artisan</a> du web qui vous <a href="/david/pro/accompagnement/" title="Activité d’accompagnement">accompagne</a><span class="more-infos"> dans l’acquisition de savoirs pour concevoir des <a href="/david/pro/produits-essentiels/" title="Qu’est-ce qu’un produit essentiel ?">produits essentiels</a></span>. <span class="more-more-infos">Discutons ensemble d’une <a href="/david/pro/devis/" title="En savoir plus">non-demande de devis</a>.</span> Je partage ici mes <a href="/david/blog/" title="Expériences bienveillantes">réflexions</a> et <a href="/david/correspondances/2017/" title="Lettres hebdomadaires">correspondances</a>.
          </small>
        </p>
      </nav>
    </header>
    
    
  <section>
    <h1 property="schema:name">Nombre d&#39;occurences d&#39;un mot dans un texte en Python</h1>
    <article typeof="schema:BlogPosting">
      <div property="schema:articleBody">
        
        <p>Juste un petit snippet car j'en ai eu besoin récemment pour faire des statistiques sur des termes recherchés et je pense que ça peut être utile :</p>
<pre><code>from itertools import groupby

def word_frequencies(content, blacklist):
    """
    Count the number of words in a content, excluding blacklisted terms.
    Return a generator of tuples (count, word) sorted by descending frequency.

    Example::

        &gt;&gt;&gt; song = 'Ob la di ob la da "rla di da" da "da"'
        &gt;&gt;&gt; for count, word in word_frequencies(song, ['di']):
        ...     print "%s %s" % (count, word)
        ...
        4 da
        2 la
        2 ob
        1 rla
    """
    sorted_words = sorted(word \
                        for word in content.lower().replace('"', '').split() \
                            if word not in blacklist)
    return ((len(list(group)), word) for word, group in groupby(sorted_words))

if __name__ == "__main__":
    import doctest
    doctest.testmod(verbose=True)
</code></pre>
<p>À adapter selon votre convenance, si vous avez mieux je suis preneur, comme toujours.</p>
      </div>
    </article>
    <footer>
      <h6 property="schema:datePublished">— 06/12/2008</h6>
    </footer>
  </section>
  <section>
    <div>
      <h3>Articles peut-être en rapport</h3>
      <ul>
        <li><a href="/david/biologeek/archives/20081204-la-documentation-django-en-local-html-et-pdf/" title="Accès à La documentation Django en local (html et pdf)">La documentation Django en local (html et pdf)</a></li>
        <li><a href="/david/biologeek/archives/20081203-interfaces-et-promotion-du-web-semantique/" title="Accès à Interfaces et promotion du Web Sémantique">Interfaces et promotion du Web Sémantique</a></li>
        <li><a href="/david/biologeek/archives/20081201-24ways-le-calendrier-de-lavant-des-geeks-web/" title="Accès à 24ways, le calendrier de l&#39;Avent des geeks web">24ways, le calendrier de l&#39;Avent des geeks web</a></li>
      </ul>
    </div>
  </section>
  <section>
    <div id="comments">
      <h3>Commentaires</h3>
      
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">kim</span> le <span class="comment-date" property="schema:commentTime">06/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>en perl, on a droit ?</p>

<p>(my $string = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39; ) =~ s/&quot;//g;<br />my %hash;<br />map { $hash{$_} = (defined $hash{$_}) ? 1 : $hash{$_} + 1; } (split(&quot; &quot;,$string);<br />map { print &quot;$_ -&gt; $hash{$_}\n&quot;; } (keys %hash);</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">maxime</span> le <span class="comment-date" property="schema:commentTime">06/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>kim: voilà qui illustre bien la différence de lisibilité entre le python et le perl ;)</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">David, biologeek</span> le <span class="comment-date" property="schema:commentTime">06/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>@kim : tiens ça me fait penser que je pourrais effectivement virer les &quot; dès le début. Ça me fait aussi penser que perl tiens bien sa réputation ;-).</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">kim</span> le <span class="comment-date" property="schema:commentTime">06/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>@tous les deux : en même temps, j&#39;ai fait exprès de &quot;compresser le code&quot;... M&#39;enfin je trouve le perl plus lisible que le python, question d&#39;habitude :)<br />Cela dit je remarque que j&#39;ai oublié le blacklist et le lowercase. Donc voilà pareil, en reprenant le principe de ton code python (sort + j&#39;ai ajouté lc &amp; blacklist), et sans hash remplie au fur et à mesure :</p>

<p>(my $string = lc(&#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;) ) =~ s/&quot;//g;<br />my @string = sort(split(&quot; &quot;,$string));<br />my ($last,%hash) = (&quot;&quot;,);<br />foreach @string {<br />  next if($last eq $_);<br />  next if(!grep {/^$_$/} @blacklist);<br />  $last = $_;<br />  $hash{$_} = scalar(grep { /^$_$/ } @string);<br />}<br /># un peu d&#39;affichage si on veut :<br />#map { print &quot;$_ -&gt; $hash{$_}\n&quot;  } (keys %hash);<br />return %hash;</p>

<p>Après, l&#39;utilisation de sort, en perl comme en python, est discutable. Est-ce que trier puis faire un groupby est meilleur en temps &amp; mémoire, par rapport à un stockage &quot;au fil de la lecture&quot; (donc, pas de sort). Dans ton exemple, le texte est court, quid de si on fait le même test sur le texte du code civil par exemple ? ça pourrait être intéressant de faire des tests sur le sujet ;) Je pense que ce genre de questions peut facilement rendre le code un moins &quot;oneline&quot; :)</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">Jdoe</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>@kim, même sans la compression c&#39;est ingérable du code comme ça. dans 6 mois tu retournes dans ta fonction, il te faudra trop de temps pour savoir ce qu&#39;elle fait.</p>

<p>Avant j&#39;aimais bien le perl mais qd on a goûté à la facilité du python, c&#39;est comme une drogue.</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">Jean-Philippe Camguilhem</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>hum hum !</p>

<p>Si je n&#39;ai pas mal compris la doc string de ta fonction :</p>

<p>&quot;&quot;&quot;<br />Compte le nombre d&#39;ocuurences des mots contenus dans un texte (exceptés ceux présents dans la black list).</p>

<p>Retourne un générateur de tuples classés par ordre décroissant de fréquences <br />&quot;&quot;&quot;</p>

<p>Alors ton snipet est buggué dans le sens où il retourne les tuples classés par ordre alphabétique des mots, et non comme indiqué.</p>

<p>Un heureux hasard, trompe le lecteur car ta chanson de départ contient 4 &quot;da&quot;.</p>

<p>remplace les par &quot;za&quot;</p>

<p>&gt;&gt;&gt; song = &#39;Ob la di ob la za &quot;rla di za&quot; za &quot;za&quot;&#39;</p>

<p>Failed example:<br />    for count, word in word_frequencies(song, [&#39;di&#39;]):<br />        print &quot;%s %s&quot; % (count, word)<br />Expected:<br />    4 za<br />    2 la<br />    2 ob<br />    1 rla<br />Got:<br />    2 la<br />    2 ob<br />    1 rla<br />    4 za<br />1 items had no tests:<br />    __main__<br />**********************************************************************<br />1 items had failures:<br />   1 of   2 in __main__.word_frequencies<br />2 tests in 2 items.<br />1 passed and 1 failed.<br />***Test Failed*** 1 failures.</p>

<p>Je laisse aux autres lecteurs le soin de corriger le code à titre d&#39;exercice :)</p>

<p>@++</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">kim</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>@jdoe : bon on va éviter de rentrer dans le troll de bas étage :) mais même sans commentaire, je trouve le code lisible et maintenable. Après, si ce n&#39;est qu&#39;une question de commentaire, c&#39;était voulu, David les avait mis dans son code, je vais pas les *rappeler*.</p>

<p>J&#39;ai curieusement fait exactement l&#39;inverse de toi, j&#39;aimais bien le perl, j&#39;ai goûté au python pendant 6 mois dans le cadre d&#39;un job, hé ben j&#39;en suis revenu au perl pour trois raisons tout à fait subjectives :<br />* plus souple<br />* plus agréable<br />* on n&#39;a pas à s&#39;emmerder avec l&#39;indentation. Et là, par contre, c&#39;est une plaie à mon sens : j&#39;ai récupéré du code modifié par deux personnes, on retrouvait des tabulations, des espaces, c&#39;est super lourd à maintenir (sans compter les copier/coller qu&#39;il faut systématiquement réindenter : le python *nécessite* un éditeur de texte adapté, ce qui n&#39;est pas normal à mon sens).</p>

<p>Après, je suis d&#39;accord que &quot;à lire&quot;, le python peut paraître plus agréable (bon, peut être pas dans l&#39;exemple ci dessus parce qu&#39;il se trouve que le code est *aussi* condensé et on arrive à deux lignes de code contenant au total une douzaine d&#39;instruction...)</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">benoitc</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>en me e temps ce pourrait être plus somple en python :</p>

<p>&gt;&gt;&gt; songs = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;<br />&gt;&gt;&gt; lsongs = [song.replace(&#39;&quot;&#39;, &#39;&#39;).lower() for song in songs.split()]<br />&gt;&gt;&gt; freqs = [(- lsongs.count(song), song) for song in set(lsongs)]<br />&gt;&gt;&gt; print &quot;\n&quot;.join(&quot;%-10s : %s&quot; % (n, -f) for f, n in sorted(freqs))<br />da         : 4<br />di         : 2<br />la         : 2<br />ob         : 2<br />rla        : 1</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">benoitc</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>autre possibilité :</p>

<p>&gt;&gt;&gt; songs = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;<br />&gt;&gt;&gt; lsongs = [song.replace(&#39;&quot;&#39;, &#39;&#39;).lower() for song in songs.split()]<br />&gt;&gt;&gt; freqs = [lsongs.count(song) for song in lsongs]<br />&gt;&gt;&gt; dict(zip(lsongs, freqs))<br />{&#39;da&#39;: 4, &#39;di&#39;: 2, &#39;rla&#39;: 1, &#39;ob&#39;: 2, &#39;la&#39;: 2}</p>

<p>perso dans ls 2 cas je trouve le python plus lisible que le perl .... les $_ me semblant pas naturel (surtout pour un français). Pour les badwords il suffit de mettre un son in songs.split() and not in badwords .</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">jean-Philippe Camguilhem</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>Bon benoitc n&#39;a pas trainé pour corriger.</p>

<p>J&#39;aime beaucoup sa façon originale de trier de façon inverse en passant par des valeurs négatives dans sa première proposition.</p>

<p>J&#39;en profite cependant pour placer une méthode souvent méconnue pour les tris de listes à plusieurs dimensions.</p>

<p>sorted tri sur le premier élément, mais on peut lui demander de trier sur un autre élément via operator :</p>

<p>&gt;&gt;&gt; import operator<br />&gt;&gt;&gt; words_frequencies=((&#39;za&#39;, 4), (&#39;rla&#39;, 1), (&#39;la&#39;, 2), (&#39;ob&#39;, 2))<br />&gt;&gt;&gt; print sorted(words_frequencies, key=operator.itemgetter(1), reverse=True)<br />[(&#39;za&#39;, 4), (&#39;la&#39;, 2), (&#39;ob&#39;, 2), (&#39;rla&#39;, 1)]</p>

<p>@++</p>

<p>@kim pour connaître la réponse au match perl vs python<br />il faudra repasser vendredi sur cette url :)<br /><a href="http://jp.camguilhem.net/?user=kim&amp;cool=perl&amp;bad=python">http://jp.camguilhem.net/?user=kim&amp;cool=perl&amp;bad=python</a></p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">benoitc</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>Je n&#39;utilis epas svt operator, une autre solution si on veut trier :</p>

<p>&gt;&gt;&gt; songs = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;<br />&gt;&gt;&gt; lsongs = [song.replace(&#39;&quot;&#39;, &#39;&#39;).lower() for song in songs.split()]<br />&gt;&gt;&gt; freqs = [lsongs.count(song) for song in set(lsongs)]<br />&gt;&gt;&gt; a = zip(lsongs,freqs)<br />&gt;&gt;&gt; a.sort(lambda a,b: cmp(a[1],b[1]))<br />&gt;&gt;&gt; a<br />[(&#39;di&#39;, 1), (&#39;la&#39;, 2), (&#39;ob&#39;, 2), (&#39;la&#39;, 2), (&#39;ob&#39;, 4)]</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">benoitc</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>Bon suite à un question de Kael qui m&#39;a titillé j&#39;allais poser ici l&#39;algo en erlang quand j&#39;ai vu que mon dernier exemple était faux. Ceci est plus correct :</p>

<p>&gt;&gt;&gt; songs = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;<br />&gt;&gt;&gt; lsongs = [song.replace(&#39;&quot;&#39;, &#39;&#39;).lower() for song in songs.split()]<br />&gt;&gt;&gt; freqs = [lsongs.count(song) for song in lsongs]<br />&gt;&gt;&gt; a = dict(zip(lsongs, freqs))<br />&gt;&gt;&gt; a<br />{&#39;da&#39;: 4, &#39;di&#39;: 2, &#39;rla&#39;: 1, &#39;ob&#39;: 2, &#39;la&#39;: 2}<br />&gt;&gt;&gt; items = a.items()<br />&gt;&gt;&gt; items.sort(lambda a, b: cmp(a[1], b[1]))<br />&gt;&gt;&gt; items<br />[(&#39;rla&#39;, 1), (&#39;di&#39;, 2), (&#39;ob&#39;, 2), (&#39;la&#39;, 2), (&#39;da&#39;, 4)]</p>

<p>et reverse pour l&#39;inverse...</p>

<p>En erlang cela donne :</p>

<p>1&gt; S = &quot;Ob la di ob la da \&quot;rla di da\&quot; da \&quot;da\&quot;&quot;,<br />1&gt; Map = lists:map(fun(Word) -&gt; {string:to_lower(Word),1} end, string:tokens(S, &quot; \&quot;&quot;)),<br />1&gt; Result = lists:foldl(fun({Word,_}, Dict) -&gt;<br />1&gt; case dict:is_key(Word, Dict) of <br />1&gt; true -&gt; dict:store(Word, dict:fetch(Word, Dict) + 1, Dict);<br />1&gt; false -&gt; dict:store(Word, 1, Dict)<br />1&gt; end<br />1&gt; end, dict:new(), Map),<br />1&gt; dict:fold(fun(Word, Freq, Acc) -&gt; [{Word,Freq}|Acc] end, [], Result).<br />[{&quot;da&quot;,4},{&quot;rla&quot;,1},{&quot;ob&quot;,2},{&quot;di&quot;,2},{&quot;la&quot;,2}]</p>

<p><a href="http://friendpaste.com/Hy6KzphN">http://friendpaste.com/Hy6KzphN</a></p>

<p>(mis sur friendpaste car ton système n&#39;accepte pas les &quot;+ 1&quot; dans les posts!)</p>

<p></p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">scar</span> le <span class="comment-date" property="schema:commentTime">08/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>En php :<br />&lt;?php<br />$song = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;;<br />$res = array();<br />foreach (preg_split(&#39;/\W/i&#39;, $song) as $w) <br />  if(!empty($w)) ++$res[$w];<br />natsort($res);<br />var_export($res);<br />?&gt;<br />Résultat :<br />array (<br />  &#39;Ob&#39; =&gt; 1,<br />  &#39;rla&#39; =&gt; 1,<br />  &#39;ob&#39; =&gt; 1,<br />  &#39;di&#39; =&gt; 2,<br />  &#39;la&#39; =&gt; 2,<br />  &#39;da&#39; =&gt; 4,<br />)<br />Avec array_reverse($res, true) pour le résultat inverse.</p>

<p>Après le choix du language, c&#39;est bien souvent une question de goût :)</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">vincent rabah</span> le <span class="comment-date" property="schema:commentTime">11/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>Sous (L)unix il existe une commande qui est &quot;wc&quot; qui renvoie le nombre de mots d&#39;un texte et &quot;wc -l&quot; qui renvoie le nombre de ligne d&#39;un texte :)</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">Olivier</span> le <span class="comment-date" property="schema:commentTime">16/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>Un minuscule détail: je ne mettrais pas de backslash du tout, si j&#39;étais toi. C&#39;est même recommandé dans la doc python: <a href="http://docs.python.org/howto/doanddont.html#using-backslash-to-continue-statements">http://docs.python.org/howto/doanddont.html#using-backslash-to-continue-statements</a></p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">DecIRC</span> le <span class="comment-date" property="schema:commentTime">18/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>@vincent : un peu simpliste, non ? On demande pas le nombre de mots du texte mais le nombre d&#39;occurences de chaque mot.</p>

<p>cEd</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">benoitc</span> le <span class="comment-date" property="schema:commentTime">21/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>oui en shell ce serait plutôt :</p>

<p>sed -e &#39;s/\.//g&#39;  -e &#39;s/\,//g&#39; -e &#39;s/ /\<br />/g&#39; /filepath | tr &#39;A-Z&#39; &#39;a-z&#39; | sort | uniq -c | sort -nr</p>
    </div>
</div>

    </div>
  </section>

    
    <footer>
      <nav>
        <p>
          <small>
            Je réponds quasiment toujours aux <a href="m&#x61;ilto:d&#x61;vid%40l&#x61;rlet&#46;fr" title="Envoyer un email">emails</a> (<a href="/david/signature/" title="Ma signature actuelle avec possibilité de chiffrement">signés</a>) et vous pouvez me rencontrer à Montréal. <span class="more-infos">N’hésitez pas à <a href="/david/log/" title="Être tenu informé des mises à jour">vous abonner</a> pour être tenu informé des publications récentes.</span>
          </small>
        </p>
      </nav>
    </footer>
    
  </div>
  
  <script src="/static/david/js/larlet-david-3ee43f.js" data-no-instant></script>
  
  <script data-no-instant>InstantClick.init()</script>
  
</body>
</html>