Comment trouver ses jeux de données

Comment trouver ses jeux de données
Alexandre P. dans Dev - mis à jour le 15-12-2024

Trouvez facilement des datasets pour vos projets d'IA, statistiques ou recherche et explorez l'importance stratégique des données dans l'informatique de demain.

Par où commencer lorsque l'on a besoin d'un jeu de données ?

1- Constituer soi même son jeu de données

Supposez que vous commenciez un business dans la vente automobile de marque Française. Vous allez constituer votre jeu de données avec les éléments suivants :

  • stock disponible chez les fournisseurs
  • stock disponible chez vous
  • liste des véhicules réservés ou achetés par des clients
  • etc

Sur ces mêmes jeux de données vous allez commencer à effectuer des analyses:

  • combien de véhicules sont vendus par ces fournisseurs chaque années
  • combien de véhicules vous vendez chaque années
  • etc.

Mais avant même d'aller jusque là, imaginez un instant devoir passer en revue tout le stock disponible et les fiches complètes de chaque véhicules afin d'avoir un point de départ: la donnée sur laquelle viendront les analyses dans un second temps. Tout ceci est long et fastidieux...

2- Les sources de données existantes

C'est là qu'entre en jeu des sources de données existantes qui vont vous prémarcher une partie du travail. 🦥

Certains fournisseurs vous donnent immédiatement accès à leur stock que vous pourrez copier et coller chez vous histoire de gagner du temps... Mais dans bien des domaines vous serez livrer à vous même, contraint de commencer à partir de rien et de construire tout une base avec ces éléments.

Conscient de tout le travail que cela demande, certaines communautés se forment autour de la données et proposent même de s'échanger des jeux de données pour éviter à tout un chacun d'avoir à se farcir des heures de saisie.

J'ai nommé kaggle.com

kaggle.png

Site de référence sur lequel vous pourrez trouver énormément de listes en tout genre:

  • liste d'animaux
  • liste de séries TV
  • liste de films
  • liste de marque de voiture
  • liste des titres d'article de presse
  • etc...

Pour cela, penchez vous du côté des datasets.

FAQ

Comment constituer un jeu de données quand on part de zéro ?

Il faut rassembler manuellement toutes les informations pertinentes pour son domaine, comme les stocks, les listes de clients ou les transactions. C'est un travail long, mais c'est souvent le point de départ incontournable avant toute analyse.

Est-ce qu'il existe des endroits où trouver des données déjà prêtes à l'emploi ?

Oui, des plateformes communautaires comme Kaggle mettent à disposition des milliers de jeux de données sur des sujets très variés, des films aux marques de voitures en passant par les articles de presse. Cela permet d'éviter des heures de saisie manuelle.

Kaggle est-il adapté aux débutants en data ?

Kaggle est accessible à tous les niveaux et propose des datasets téléchargeables directement, sans avoir besoin de compétences techniques avancées pour commencer. C'est une bonne porte d'entrée pour explorer la donnée et lancer ses premiers projets.

Peut-on utiliser les données de ses fournisseurs directement ?

Certains fournisseurs partagent leurs stocks sous un format exploitable, ce qui permet de gagner du temps. Mais ce n'est pas systématique, et dans de nombreux secteurs il faudra construire sa base de données from scratch.

#dataset#data#database#kaggle

user picture

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.