Common Crawl sur Hugging Face: 2.19 milliards de pages en SQL

Common Crawl avril 2026 est désormais interrogeable en SQL depuis un terminal grâce à DuckDB et Hugging Face. Ce que ça change pour les devs solo, c'est concret.
Le crawl d'avril 2026 est désormais miroir sur un bucket Hugging Face. Un Space DuckDB permet d'interroger l'index en SQL depuis un terminal, et ça change la donne pour qui veut bosser sur des données web à grande échelle.
Common Crawl, je rappelle ce que c'est ?
Une fondation 501(c)(3) qui crawle le web public chaque mois depuis 2008 et publie les archives en libre accès.
- Chaque crawl contient entre 1.5 et 2.5 milliards de pages.
- Les données sont stockées en WARC sur AWS S3, format standard pour l'archivage web.
- C'est ce que GPT, Falcon, RefinedWeb ou FineWeb ont consommé comme matière première.
Si vous avez utilisé un LLM moderne, vous avez utilisé Common Crawl par procuration. C'est aussi simple que ça.
Qu'est-ce que ce Space change concrètement ?
Avant, pour bosser sur Common Crawl, il fallait :
- Un bucket S3 ou des moyens de payer le download.
- Un cluster Spark ou Hadoop pour parser des téraoctets de WARC.
- Beaucoup de temps.
Maintenant :
- L'index complet est accessible via HTTPS depuis le bucket HF.
- DuckDB lit ce parquet à distance via l'extension httpfs, sans tout charger en mémoire.
- Le Space davanstrien/common-crawl-april-2026 expose une UI SQL prête à l'emploi.
Je m'explique.
L'index ne contient pas le HTML complet des pages, juste les métadonnées : URL, host, TLD, langue, code de réponse, type de contenu, taille, etc.
Mais c'est déjà énorme pour des dizaines de cas d'usage.
Et si vous voulez ensuite récupérer le HTML d'une page précise, vous avez l'offset dans le WARC dans la ligne d'index, donc un simple range request HTTP suffit.
Comment ça marche techniquement ?
L'idée derrière DuckDB + Hugging Face, c'est de requêter du parquet distant comme s'il était local.
# Installer DuckDB
brew install duckdb
# ou récupérer le binaire sur duckdb.org
Puis dans une session DuckDB, vous chargez httpfs et vous tapez du SQL :
INSTALL httpfs;
LOAD httpfs;
SELECT url, url_host_tld, content_languages, content_mime_type
FROM read_parquet('hf://datasets/commoncrawl/CC-MAIN-2026-17/cc-index/*.parquet')
WHERE url_host_tld = 'fr'
AND content_languages LIKE '%fra%'
LIMIT 100;
Vous obtenez en quelques secondes une liste de pages françaises crawlées en avril 2026. Pas de download, pas de parsing WARC, juste du SQL.
Pour les requêtes plus lourdes, le Space recommande de s'authentifier via la HF CLI. Ça évite les rate limits qui s'appliquent aux requêtes anonymes.
À quoi je peux l'utiliser ?
C'est là que ça devient intéressant. Je vois plusieurs usages immédiats pour un dev solo ou une petite équipe :
- Veille SEO : compter les pages indexées par TLD, suivre la distribution des technos via les headers, observer l'évolution mois après mois.
- Détection de stacks : chercher tous les sites qui utilisent un framework précis via une signature MIME ou un pattern d'URL.
- Construction de datasets thématiques : extraire un sous-corpus par langue, secteur ou pays pour entraîner un modèle ou faire de l'analyse.
- Recherche concurrentielle : voir qui crawle quoi sur votre niche, croiser avec le web graph publié à côté.
- Analyse linguistique : statistiques sur la distribution des langues, des TLD, des patterns d'URL à grande échelle.
Et tout ça depuis votre laptop, sans rien provisionner côté cloud.
Quelles limites garder en tête ?
Parce que ce n'est pas non plus une baguette magique.
- L'index contient les métadonnées, pas le HTML brut. Pour le contenu complet, il faut taper les WARC, ce qui reste lourd.
- Le crawl est mensuel. Pour de la donnée fraîche, oubliez. Ce n'est pas un outil de monitoring temps réel.
- Common Crawl ne crawle pas tout le web. Il y a des biais : sites populaires sur-représentés, sites lents ignorés, robots.txt respecté.
- DuckDB sur des dizaines de gigas en remote c'est rapide, mais une requête mal écrite peut quand même prendre plusieurs minutes. Filtrez d'abord sur TLD et langue avant de partir sur des conditions plus coûteuses.
Pourquoi cette news compte ?
Distribuer Common Crawl via Hugging Face, ce n'est pas un simple mirror technique. C'est un changement de posture sur qui peut accéder à ce type de donnée.
Avant, il fallait être une boîte avec un setup data sérieux. Maintenant, n'importe quel dev qui sait écrire un SELECT peut analyser deux milliards de pages web depuis son terminal.
La vérité c'est que ça démocratise un outil resté pendant des années réservé aux équipes de recherche et aux gros acteurs de l'IA. Et quand un outil devient accessible, les usages explosent.
Je m'attends à voir débarquer dans les semaines qui viennent une vague de petits projets, d'analyses ciblées et de datasets thématiques sortis par des devs solo qui n'auraient jamais touché à Common Crawl autrement.
FAQ
Comment accéder concrètement à l'index sans créer de compte AWS ?
Il suffit d'installer DuckDB localement et d'utiliser l'extension httpfs pour lire les fichiers parquet directement depuis le bucket Hugging Face via HTTPS. Aucun compte cloud ni cluster n'est nécessaire, juste un terminal et quelques lignes de SQL.
Est-ce que je peux récupérer le contenu HTML des pages depuis cet index ?
L'index ne contient que les métadonnées des pages, pas leur HTML. En revanche, chaque ligne inclut un offset dans le fichier WARC correspondant, ce qui permet de faire une simple requête HTTP ciblée pour récupérer uniquement la page qui vous intéresse.
Les requêtes SQL sur des données distantes de cette taille, c'est vraiment rapide ?
DuckDB gère bien la lecture de parquet distant, mais une requête mal ciblée peut quand même durer plusieurs minutes. Il est conseillé de filtrer en priorité sur des colonnes légères comme le TLD ou la langue avant d'ajouter des conditions plus complexes.
Y a-t-il un risque d'être bloqué si je fais beaucoup de requêtes ?
Les requêtes anonymes sont soumises à des limites de débit. Pour les traitements intensifs, il vaut mieux s'authentifier via la CLI Hugging Face afin d'éviter ces restrictions.
Common Crawl couvre-t-il vraiment tout le web public ?
Non, le crawl comporte des biais structurels : les sites populaires y sont sur-représentés, les sites lents ou peu liés peuvent être ignorés, et les directives robots.txt sont respectées. Il faut en tenir compte avant de tirer des conclusions générales à partir des données.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.

