Top articles

  • Installation de Linux et création de l'arborescence de travail

    24 octobre 2011

    Comme il nous l'a été vivement conseillé, j'ai installé une distribution Linux (ici la version 11.10 d'Ubuntu, dite Oneiric Ocelot) sur ma machine personnelle, un ordinateur de bureau qui fonctionne d'habitude sous Windows 7 et dispose de deux disques...

  • Des commandes élémentaires sous Linux

    27 octobre 2011

    Voici quelques commandes à entrer dans le Terminal sous Linux ou Mac OS, et que nous serons amenés à utiliser tout au long de notre projet, et même après. man : cette commande affiche le manuel d'utilisation de la commande entrée en argument. Exemple...

  • Premier exercice de HTML

    27 octobre 2011

    Il nous a été demandé de construire une page contenant : - En titre : notre nom - En contenu de la page : un tableau avec deux lignes (la première contenant notre nom, et la seconde contenant le mot choisi pour notre projet). Les consignes furent les...

  • Récolte d'URL de pages web contenant le mot "suivant" (en français)

    01 novembre 2011

    Pour la partie française de notre recherche d'URL, nous avons utilisé le site du journal Le Monde comme unique source, en utilisant la fonction site: de Google (le moteur de recherche ne retourne alors que les pages dont l'URL contient l'argument de cette...

  • Vérification de l'encodage des caractères

    03 novembre 2011

    Tous les fichiers que nous devons créer dans notre projet doivent être encodés en UTF-8. Pour vérifier ce paramètre, on peut utiliser la commande file dans le Terminal. On peut ajouter l'option -i pour afficher le résultat sous forme de type MIME. Les...

  • Créer un tableau de liens

    03 novembre 2011

    Nous avons vu en classe comment rédiger un script permettant de créer un tableau de liens à partir d'un fichier texte et d'un script Bash, mais j'ai trouvé la solution absconse, notamment au niveau de la boucle for. D'où venait cette fonction nom et comment...

  • Créer un tableau de liens (suite)

    03 novembre 2011

    La troisième consigne consistait à écrire un script permettant de traiter deux (ou plusieurs) fichiers d'URL et de construire en sortie, dans le même fichier, deux (ou plusieurs) tableaux. Voici donc mon code modifié : L'image suivante montre l'exécution...

  • Sur l'utilisation de VirtualBox (première partie)

    04 novembre 2011

    Certains de mes collègues semblent avoir eu des problèmes pour faire fonctionner Ubuntu sous VirtualBox, alors je pense qu'il serait bien d'y revenir avec plus de détails. Je ne garantis pas que cela fonctionne pour tout le monde, mais je vais vous montrer...

  • Création de tableaux HTML (suite)

    06 novembre 2011

    Nous n'avions pas encore montré comment créer un script qui générera un tableau d'URLs à partir d'un nombre illimité de fichiers texte. Après avoir consulté la correction de l'exercice, je vous montre le code du script, auquel j'ai ajouté mes propres...

  • Téléchargement des sites et ajout d'une troisième colonne à notre tableau

    10 novembre 2011

    "First up is Kirkland. They keep everything open and allow indexes in their Apache configuration so a little wget magic is all that’s necessary to download the entire Kirkland facebook. Kids’ stuff." The Social Network, Columbia Pictures, 2010 Pour l'étape...

  • Sur l'utilisation de VirtualBox (seconde partie)

    13 novembre 2011

    Revenons dans le menu de configuration de VirtualBox. Sélectionnez votre machine virtuelle puis appuyez sur le bouton "Configuration". La fenêtre suivante apparaîtra. Cliquez sur Système (à gauche dans la fenêtre). Vous devriez trouvez un certain nombre...

  • Extraction du texte avec Lynx et difficultés avec la détection des "Bad Request"

    28 novembre 2011

    Après avoir téléchargé les pages web, on cherche à se débarrasser des balises HTML. Pour cela, on va utiliser Lynx, qui est un navigateur en ligne de commande. Il s'exécute dans le terminal. On va tout simplement enregistrer l'output de Lynx dans un fichier,...

  • Détection des Bad Request, de l'encodage et extraction du texte en UTF-8

    11 décembre 2011

    Le problème signalé dans la note précédente été réglé en mettant entre guillemets la variable controlducurl après la condition if. Ensuite, j'ai procédé à un nettoyage du code : les sauts de ligne ont été supprimés et les commentaires se situent à présent...

  • Correction du script et problème d'encodage avec les URL en russe

    07 janvier 2012

    CACOGRAPHIE n. f. XVIe siècle. Composé de caco- et de graphie. Litt. Mauvaise écriture ; mauvais style ou orthographe fautive. (Dictionnaire de l'Académie Française, neuvième édition) Le script tel qu'il a été présenté dans le billet précédent posait...

  • Contextes et encodage

    17 janvier 2012

    Irina semble avoir abandonné le projet, c'est donc seul que je dois terminer le programme et créer le site Internet. Mes connaissances en russe étant limitées, je suis contraint de ne pas traiter le troisième fichier d'URL. Ces URL ne figureront plus...

  • Nuages de mots et arbres avec Wordle et Treecloud

    31 janvier 2012

    La phase 2 du projet a enfin démarré. Voici les nuages de mots que j'ai fait à partir des contextes et de l'outil en ligne gratuit Wordle : Pour le mot "following : Pour le mot "suivant" : Enfin, voici les arbres créés avec l'outil en ligne gratuit Treecloud....

  • Ouverture du blog et début du projet

    10 octobre 2011

    Equipe : Irina Andreeva et Thomas Moraine Mission : Mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. (http://www.tal.univ-paris3.fr/cours/masterproj.htm) Création d'un corpus...

  • URL renvoyant au verbe "suivre" en français

    11 octobre 2011

    Voici un fichier contenant les 25 URL de sites contenant le verbe "suivre", en français. http://www.2shared.com/document/Q2KCZ9GC/urlfrancais.html Dans le cas où le lien expirerait, voici la liste des URL: http://www.bfmbusiness.com/toute-linfo-eco/bourse/les-valeurs-%C3%A0-suivre-%C3%A0-la-bourse-de-paris-91204...

  • Redéfinition de notre sujet (le mot "suivant") et extension à l'anglais

    24 octobre 2011

    Au lieu de simplement travailler sur le verbe suivre, nous avons décidé de nous concentrer sur une de ses formes : le mot "suivant". "Suivant" nous intéresse car il n'est pas seulement le participe présent du verbe "suivre", mais il possède aussi d'autres...

  • "Suivant" en russe

    24 octobre 2011

    Notre recherche consacrée au mot "suivant" se fait dans plusieurs langues. Nous avons deja vu les significations de ce mot en français et en anglais. Dans la langue russe "suivant" représente aussi un certain intérêt. Le grand dictionnaire franco-russe...

  • Récolte d'URL de pages web contenant le mot "following" (en anglais)

    30 octobre 2011

    Nous avons cherché le mot "following" selon les trois fonctionsdifférentes dont nous avions parlé plus tôt : nom, adjectif et préposition. Nos principales sources furent les sites de BBC News et de CNN. Comme il nous fallait 50 URL, nous en avons récolté...

  • Remplacement des URL en français

    03 novembre 2011

    On nous a rappelé que les articles du journal Le Monde avaient une durée de vie limitée pour les non-abonnés. En conséquence, il nous a fallu changer toutes les URL en français que nous avions récoltées. Voici donc les nouvelles, issues principalement...

  • URLs de sites Internet en russe

    06 novembre 2011

    Nous n'avons pas pu trouver suffisamment de pages web en russe contenant le mot "suivant" avec la fonction de nom. Nous avons donc réparti nos 50 URLs entre la fonction adjectif et la fonction préposition. Adjectif 1 http://www.rg.ru/sujet/4447/index.html...