Collecte de données et de texte

Trouvez une meilleure façon de télécharger, rechercher, filtrer et comprendre des millions d'articles et de livres publiés sur ScienceDirect. Tous les livres et revues Elsevier autorisent la collecte de texte et de données (TDM).  En savoir plus dès maintenant.

Les bases du TDM (en anglais)

Pourquoi utiliser des articles universitaires ?

Les articles et les livres publiés comportent déjà les informations que vous recherchez, et la collecte de texte est un moyen idéal de débloquer ces connaissances. Les articles et les chapitres de livres sont également conservés et représentent une source fiable d'informations. De plus, ils concernent toutes les disciplines et remontent jusqu'au premier article publié !


Pour commencer

La collecte de texte requiert l'accès et le téléchargement du contenu que vous souhaitez parcourir. Des outils spéciaux de collecte de texte sont ensuite nécessaires pour trouver le contenu que vous recherchez. Vous pouvez accéder et télécharger le contenu réservé aux abonnés en format HTML ou PDF sur Science Direct à l'aide de notre API en texte intégral. Il s'agit d'un moyen facile de télécharger en masse du contenu Elsevier pour collecter des textes de recherche non commerciales. Vous pouvez accéder à notre API en texte intégral via notre portail des développeurs. Notre API comporte du contenu en libre accès, mais vous pouvez également collecter du contenu en libre accès à l'aide de la fonction de récupération ION http://api.elsevier.com/content/article/doi/[DOI] sur laquelle votre script automatisé peut être exécuté.

Obtenir un accès dès maintenant

Pourquoi utiliser une API ?

Pour sa réussite, la collecte de texte nécessite de nombreux outils et ressources ainsi que des chercheurs compétents. Pour vous aider à commencer, nous avons conçu des API permettant de faciliter le téléchargement du volume de contenu que vous souhaiterez collecter dans un langage de programmation précis. L'utilisation d'une API vous permet :

  • d'être plus efficace : l'exploration du web est une méthode inefficace pour collecter de grandes quantités de contenu. En utilisant nos API, vous pourrez accéder rapidement et facilement aux données dont vous avez besoin.
  • de récupérer vos données dans un format plus adapté : Elsevier convertit nos articles de revues et chapitres de livres en XML, le format préféré des responsables de la collecte de texte.
  • de veiller à la cohérence : avec plus de 2 millions d'articles et de chapitres de livres disponibles, il est essentiel que les responsables de la collecte de textes soient capables d'identifier les éléments-clés à extraire. Notre API fonctionne avec un seul et unique format pour toutes les données disponibles, ce qui vous permet d'utiliser et de tester vos outils TDM

Logo CrossRef

Vous souhaitez collecter des données provenant de différents éditeurs ?

Lorsque vous commencez à collecter du texte, vous voudrez très vite le faire à partir de différentes revues et différents éditeurs. Cela présente toutefois un problème logistique. Pour rendre la collecte de texte plus efficace, nous soutenons le service  Crossref TDM. Ce service gratuit fournit l'API Crossref Metadata pouvant être utilisée pour accéder à du contenu en texte intégral identifié par les DOI Crossref sur les sites des éditeurs.

En savoir plus

Corpus OA STM

Essai de vos outils TDM

La collecte de texte s'appuie sur l'utilisation des outils NLP (Natural Language Processing). Afin de développer et d'affiner les outils NLP pour qu'ils soient spécifiquement adaptés à la littérature scientifique, nous avons créé un corpus d'articles en libre accès. Ils peuvent être utiles pour tester et affiner vos outils.

En savoir plus


Apprentissage & assistance

Découvrez comment vous pouvez accéder et utiliser la collecte de texte dans votre prochain projet de recherche :