(English version)
Une extension pour extraire et télécharger des articles de presse à des fins de fouille textuelle.
🚨 Nouveau ! 🚨 Prise en charge d’Europresse : connectez-vous via le portail de votre établissement.
Citer ce programme
Si vous utilisez cette extension pour vos travaux de recherche, merci de la référencer de la façon suivante :
Moncomble, F. (2024). Press Corpus Scraper (Version 0.9) [JavaScript]. Arras, France : Université d’Artois. Disponible à l’adresse : https://fmoncomble.github.io/press-corpus-scraper/
Installation
Firefox (recommandé : mises à jour automatiques)
Chrome/Edge
- Télécharger l’archive .zip
- Décompresser l’archive
- Ouvrir le gestionnaire d’extensions :
chrome://extensions
ou edge://extensions
- Activer le « mode développeur »
- Cliquer sur « charger l’extension non empaquetée »
- Sélectionner le dossier décompressé
Pensez à épingler l’extension à la barre d’outils :
Mode d’emploi
Limites et problèmes connus
- Sites de journaux : même avec un compte abonné actif, il se peut que l’extension n’ait pas accès au texte intégral des articles premium (lorsque le cookie n’est pas accepté par le serveur distant). Dans ce cas, seuls les articles en accès libre sont récupérés, les autres étant listés sous forme de liens.
- L’Humanité : à défaut d’abonnement, il est conseillé de créer un compte gratuit sur le site.
- Europresse :
- affiche les métadonnées des articles de façon très aléatoire, sans éléments HTML dédiés, ce qui peut donner lieu à des incohérences dans la structure des fichiers téléchargés (chapô en lieu et place du nom d’auteur.e, etc.). Ce n’est pas un problème de l’extension mais d’Europresse !
- n’autorise l’extraction que de 20 pages de résultats (1000 articles) à la fois.
- Deutsches Zeitungsportal :
- l’API renvoie des pages entières de journaux et non des articles individuels ;
- les textes ayant numérisés par reconnaissance optique de caractères (OCR), les journaux imprimés en Fraktur donnent des résultats inégaux.
- Guardian et New York Times : la recherche s’appuie sur les API offertes par ces deux publications. Une clef d’accès est requise ; son obtention est gratuite et automatique aux liens suivants :
- New York Times : un abonnement actif est indispensable pour accéder au texte intégral de tous les articles, il faut donc être connecté à son compte au préalable. Le serveur distant accepte le cookie envoyé par l’extension (pour le moment), mais celle-ci doit composer avec certaines limitations et dispositifs de sécurité :
- les requêtes ne renvoient que 10 résultats à la fois, et l’API n’autorise que 5 requêtes par minute : celles-ci sont donc espacées de 12 secondes pour éviter tout blocage
- le serveur bloque les accès trop nombreux et trop rapides : le contenu des articles n’est donc extrait qu’à raison d’1 article par seconde. Malgré cela, un blocage peut survenir : l’extension invite alors à cliquer sur un lien pour prouver qu’on n’est pas un robot…
- le compte abonné peut être déconnecté à tout moment : l’extension se met alors en pause et invite à cliquer sur un lien d’authentification afin de pouvoir reprendre la récupération de contenu.
- The New York Times sous Firefox : à cause de la façon dont Firefox gère le chargement dynamique de la page d’accueil, celle-ci doit être ouverte dans un nouvel onglet ou une nouvelle fenêtre. Dans le cas contraire, le bouton de l’extension apparait brièvement avant de disparaitre.