davidbgk
/
larlet-fr-david


			
				
					
						
						
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209
							
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">kim</span> le <span class="comment-date" property="schema:commentTime">06/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>en perl, on a droit ?</p>

<p>(my $string = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39; ) =~ s/&quot;//g;<br />my %hash;<br />map { $hash{$_} = (defined $hash{$_}) ? 1 : $hash{$_} + 1; } (split(&quot; &quot;,$string);<br />map { print &quot;$_ -&gt; $hash{$_}\n&quot;; } (keys %hash);</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">maxime</span> le <span class="comment-date" property="schema:commentTime">06/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>kim: voilà qui illustre bien la différence de lisibilité entre le python et le perl ;)</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">David, biologeek</span> le <span class="comment-date" property="schema:commentTime">06/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>@kim : tiens ça me fait penser que je pourrais effectivement virer les &quot; dès le début. Ça me fait aussi penser que perl tiens bien sa réputation ;-).</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">kim</span> le <span class="comment-date" property="schema:commentTime">06/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>@tous les deux : en même temps, j&#39;ai fait exprès de &quot;compresser le code&quot;... M&#39;enfin je trouve le perl plus lisible que le python, question d&#39;habitude :)<br />Cela dit je remarque que j&#39;ai oublié le blacklist et le lowercase. Donc voilà pareil, en reprenant le principe de ton code python (sort + j&#39;ai ajouté lc &amp; blacklist), et sans hash remplie au fur et à mesure :</p>

<p>(my $string = lc(&#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;) ) =~ s/&quot;//g;<br />my @string = sort(split(&quot; &quot;,$string));<br />my ($last,%hash) = (&quot;&quot;,);<br />foreach @string {<br />  next if($last eq $_);<br />  next if(!grep {/^$_$/} @blacklist);<br />  $last = $_;<br />  $hash{$_} = scalar(grep { /^$_$/ } @string);<br />}<br /># un peu d&#39;affichage si on veut :<br />#map { print &quot;$_ -&gt; $hash{$_}\n&quot;  } (keys %hash);<br />return %hash;</p>

<p>Après, l&#39;utilisation de sort, en perl comme en python, est discutable. Est-ce que trier puis faire un groupby est meilleur en temps &amp; mémoire, par rapport à un stockage &quot;au fil de la lecture&quot; (donc, pas de sort). Dans ton exemple, le texte est court, quid de si on fait le même test sur le texte du code civil par exemple ? ça pourrait être intéressant de faire des tests sur le sujet ;) Je pense que ce genre de questions peut facilement rendre le code un moins &quot;oneline&quot; :)</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">Jdoe</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>@kim, même sans la compression c&#39;est ingérable du code comme ça. dans 6 mois tu retournes dans ta fonction, il te faudra trop de temps pour savoir ce qu&#39;elle fait.</p>

<p>Avant j&#39;aimais bien le perl mais qd on a goûté à la facilité du python, c&#39;est comme une drogue.</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">Jean-Philippe Camguilhem</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>hum hum !</p>

<p>Si je n&#39;ai pas mal compris la doc string de ta fonction :</p>

<p>&quot;&quot;&quot;<br />Compte le nombre d&#39;ocuurences des mots contenus dans un texte (exceptés ceux présents dans la black list).</p>

<p>Retourne un générateur de tuples classés par ordre décroissant de fréquences <br />&quot;&quot;&quot;</p>

<p>Alors ton snipet est buggué dans le sens où il retourne les tuples classés par ordre alphabétique des mots, et non comme indiqué.</p>

<p>Un heureux hasard, trompe le lecteur car ta chanson de départ contient 4 &quot;da&quot;.</p>

<p>remplace les par &quot;za&quot;</p>

<p>&gt;&gt;&gt; song = &#39;Ob la di ob la za &quot;rla di za&quot; za &quot;za&quot;&#39;</p>

<p>Failed example:<br />    for count, word in word_frequencies(song, [&#39;di&#39;]):<br />        print &quot;%s %s&quot; % (count, word)<br />Expected:<br />    4 za<br />    2 la<br />    2 ob<br />    1 rla<br />Got:<br />    2 la<br />    2 ob<br />    1 rla<br />    4 za<br />1 items had no tests:<br />    __main__<br />**********************************************************************<br />1 items had failures:<br />   1 of   2 in __main__.word_frequencies<br />2 tests in 2 items.<br />1 passed and 1 failed.<br />***Test Failed*** 1 failures.</p>

<p>Je laisse aux autres lecteurs le soin de corriger le code à titre d&#39;exercice :)</p>

<p>@++</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">kim</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>@jdoe : bon on va éviter de rentrer dans le troll de bas étage :) mais même sans commentaire, je trouve le code lisible et maintenable. Après, si ce n&#39;est qu&#39;une question de commentaire, c&#39;était voulu, David les avait mis dans son code, je vais pas les *rappeler*.</p>

<p>J&#39;ai curieusement fait exactement l&#39;inverse de toi, j&#39;aimais bien le perl, j&#39;ai goûté au python pendant 6 mois dans le cadre d&#39;un job, hé ben j&#39;en suis revenu au perl pour trois raisons tout à fait subjectives :<br />* plus souple<br />* plus agréable<br />* on n&#39;a pas à s&#39;emmerder avec l&#39;indentation. Et là, par contre, c&#39;est une plaie à mon sens : j&#39;ai récupéré du code modifié par deux personnes, on retrouvait des tabulations, des espaces, c&#39;est super lourd à maintenir (sans compter les copier/coller qu&#39;il faut systématiquement réindenter : le python *nécessite* un éditeur de texte adapté, ce qui n&#39;est pas normal à mon sens).</p>

<p>Après, je suis d&#39;accord que &quot;à lire&quot;, le python peut paraître plus agréable (bon, peut être pas dans l&#39;exemple ci dessus parce qu&#39;il se trouve que le code est *aussi* condensé et on arrive à deux lignes de code contenant au total une douzaine d&#39;instruction...)</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">benoitc</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>en me e temps ce pourrait être plus somple en python :</p>

<p>&gt;&gt;&gt; songs = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;<br />&gt;&gt;&gt; lsongs = [song.replace(&#39;&quot;&#39;, &#39;&#39;).lower() for song in songs.split()]<br />&gt;&gt;&gt; freqs = [(- lsongs.count(song), song) for song in set(lsongs)]<br />&gt;&gt;&gt; print &quot;\n&quot;.join(&quot;%-10s : %s&quot; % (n, -f) for f, n in sorted(freqs))<br />da         : 4<br />di         : 2<br />la         : 2<br />ob         : 2<br />rla        : 1</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">benoitc</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>autre possibilité :</p>

<p>&gt;&gt;&gt; songs = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;<br />&gt;&gt;&gt; lsongs = [song.replace(&#39;&quot;&#39;, &#39;&#39;).lower() for song in songs.split()]<br />&gt;&gt;&gt; freqs = [lsongs.count(song) for song in lsongs]<br />&gt;&gt;&gt; dict(zip(lsongs, freqs))<br />{&#39;da&#39;: 4, &#39;di&#39;: 2, &#39;rla&#39;: 1, &#39;ob&#39;: 2, &#39;la&#39;: 2}</p>

<p>perso dans ls 2 cas je trouve le python plus lisible que le perl .... les $_ me semblant pas naturel (surtout pour un français). Pour les badwords il suffit de mettre un son in songs.split() and not in badwords .</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">jean-Philippe Camguilhem</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>Bon benoitc n&#39;a pas trainé pour corriger.</p>

<p>J&#39;aime beaucoup sa façon originale de trier de façon inverse en passant par des valeurs négatives dans sa première proposition.</p>

<p>J&#39;en profite cependant pour placer une méthode souvent méconnue pour les tris de listes à plusieurs dimensions.</p>

<p>sorted tri sur le premier élément, mais on peut lui demander de trier sur un autre élément via operator :</p>

<p>&gt;&gt;&gt; import operator<br />&gt;&gt;&gt; words_frequencies=((&#39;za&#39;, 4), (&#39;rla&#39;, 1), (&#39;la&#39;, 2), (&#39;ob&#39;, 2))<br />&gt;&gt;&gt; print sorted(words_frequencies, key=operator.itemgetter(1), reverse=True)<br />[(&#39;za&#39;, 4), (&#39;la&#39;, 2), (&#39;ob&#39;, 2), (&#39;rla&#39;, 1)]</p>

<p>@++</p>

<p>@kim pour connaître la réponse au match perl vs python<br />il faudra repasser vendredi sur cette url :)<br /><a href="http://jp.camguilhem.net/?user=kim&amp;cool=perl&amp;bad=python">http://jp.camguilhem.net/?user=kim&amp;cool=perl&amp;bad=python</a></p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">benoitc</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>Je n&#39;utilis epas svt operator, une autre solution si on veut trier :</p>

<p>&gt;&gt;&gt; songs = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;<br />&gt;&gt;&gt; lsongs = [song.replace(&#39;&quot;&#39;, &#39;&#39;).lower() for song in songs.split()]<br />&gt;&gt;&gt; freqs = [lsongs.count(song) for song in set(lsongs)]<br />&gt;&gt;&gt; a = zip(lsongs,freqs)<br />&gt;&gt;&gt; a.sort(lambda a,b: cmp(a[1],b[1]))<br />&gt;&gt;&gt; a<br />[(&#39;di&#39;, 1), (&#39;la&#39;, 2), (&#39;ob&#39;, 2), (&#39;la&#39;, 2), (&#39;ob&#39;, 4)]</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">benoitc</span> le <span class="comment-date" property="schema:commentTime">07/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>Bon suite à un question de Kael qui m&#39;a titillé j&#39;allais poser ici l&#39;algo en erlang quand j&#39;ai vu que mon dernier exemple était faux. Ceci est plus correct :</p>

<p>&gt;&gt;&gt; songs = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;<br />&gt;&gt;&gt; lsongs = [song.replace(&#39;&quot;&#39;, &#39;&#39;).lower() for song in songs.split()]<br />&gt;&gt;&gt; freqs = [lsongs.count(song) for song in lsongs]<br />&gt;&gt;&gt; a = dict(zip(lsongs, freqs))<br />&gt;&gt;&gt; a<br />{&#39;da&#39;: 4, &#39;di&#39;: 2, &#39;rla&#39;: 1, &#39;ob&#39;: 2, &#39;la&#39;: 2}<br />&gt;&gt;&gt; items = a.items()<br />&gt;&gt;&gt; items.sort(lambda a, b: cmp(a[1], b[1]))<br />&gt;&gt;&gt; items<br />[(&#39;rla&#39;, 1), (&#39;di&#39;, 2), (&#39;ob&#39;, 2), (&#39;la&#39;, 2), (&#39;da&#39;, 4)]</p>

<p>et reverse pour l&#39;inverse...</p>

<p>En erlang cela donne :</p>

<p>1&gt; S = &quot;Ob la di ob la da \&quot;rla di da\&quot; da \&quot;da\&quot;&quot;,<br />1&gt; Map = lists:map(fun(Word) -&gt; {string:to_lower(Word),1} end, string:tokens(S, &quot; \&quot;&quot;)),<br />1&gt; Result = lists:foldl(fun({Word,_}, Dict) -&gt;<br />1&gt; case dict:is_key(Word, Dict) of <br />1&gt; true -&gt; dict:store(Word, dict:fetch(Word, Dict) + 1, Dict);<br />1&gt; false -&gt; dict:store(Word, 1, Dict)<br />1&gt; end<br />1&gt; end, dict:new(), Map),<br />1&gt; dict:fold(fun(Word, Freq, Acc) -&gt; [{Word,Freq}|Acc] end, [], Result).<br />[{&quot;da&quot;,4},{&quot;rla&quot;,1},{&quot;ob&quot;,2},{&quot;di&quot;,2},{&quot;la&quot;,2}]</p>

<p><a href="http://friendpaste.com/Hy6KzphN">http://friendpaste.com/Hy6KzphN</a></p>

<p>(mis sur friendpaste car ton système n&#39;accepte pas les &quot;+ 1&quot; dans les posts!)</p>

<p></p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">scar</span> le <span class="comment-date" property="schema:commentTime">08/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>En php :<br />&lt;?php<br />$song = &#39;Ob la di ob la da &quot;rla di da&quot; da &quot;da&quot;&#39;;<br />$res = array();<br />foreach (preg_split(&#39;/\W/i&#39;, $song) as $w) <br />  if(!empty($w)) ++$res[$w];<br />natsort($res);<br />var_export($res);<br />?&gt;<br />Résultat :<br />array (<br />  &#39;Ob&#39; =&gt; 1,<br />  &#39;rla&#39; =&gt; 1,<br />  &#39;ob&#39; =&gt; 1,<br />  &#39;di&#39; =&gt; 2,<br />  &#39;la&#39; =&gt; 2,<br />  &#39;da&#39; =&gt; 4,<br />)<br />Avec array_reverse($res, true) pour le résultat inverse.</p>

<p>Après le choix du language, c&#39;est bien souvent une question de goût :)</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">vincent rabah</span> le <span class="comment-date" property="schema:commentTime">11/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>Sous (L)unix il existe une commande qui est &quot;wc&quot; qui renvoie le nombre de mots d&#39;un texte et &quot;wc -l&quot; qui renvoie le nombre de ligne d&#39;un texte :)</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">Olivier</span> le <span class="comment-date" property="schema:commentTime">16/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>Un minuscule détail: je ne mettrais pas de backslash du tout, si j&#39;étais toi. C&#39;est même recommandé dans la doc python: <a href="http://docs.python.org/howto/doanddont.html#using-backslash-to-continue-statements">http://docs.python.org/howto/doanddont.html#using-backslash-to-continue-statements</a></p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">DecIRC</span> le <span class="comment-date" property="schema:commentTime">18/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>@vincent : un peu simpliste, non ? On demande pas le nombre de mots du texte mais le nombre d&#39;occurences de chaque mot.</p>

<p>cEd</p>
    </div>
</div>
<div class="comment" typeof="schema:UserComments">
    <p class="comment-meta">
        <span class="comment-author" property="schema:creator">benoitc</span> le <span class="comment-date" property="schema:commentTime">21/12/2008</span> :
    </p>
    <div class="comment-content" property="schema:commentText">
        <p>oui en shell ce serait plutôt :</p>

<p>sed -e &#39;s/\.//g&#39;  -e &#39;s/\,//g&#39; -e &#39;s/ /\<br />/g&#39; /filepath | tr &#39;A-Z&#39; &#39;a-z&#39; | sort | uniq -c | sort -nr</p>
    </div>
</div>