텍스트 및 데이터 마이닝

ScienceDirect에서 출판된 수백만 건의 논문과 도서를 다운로드하고 검색하고 필터링하며 이해하기 위한 더 나은 방법을 찾아보십시오. 모든 엘스비어 저널 및 도서에서 텍스트 및 데이터 마이닝(TDM) 가능  지금 바로 더 자세히 알아보십시오.

TDM 기초(영문)

학술적 논문을 사용하는 이유는 무엇입니까?

출판된 논문 및 도서에는 사용자가 찾는 정보가 이미 담겨 있으며, 텍스트 마이닝은 해당 지식을 드러내는 이상적인 방법입니다. 논문 및 도서 챕터 역시 선별되어 신뢰할 만한 정보의 원천이며, 더 중요한 점은 모든 학문에 걸쳐 맨 처음 출판된 논문까지 정보를 거슬러 올라가는 경우가 많기 때문입니다!


시작하기

텍스트 마이닝을 이용하려면 마이닝하려는 콘텐츠에 접근하여 다운로드한 다음, 검토하려는 콘텐츠에 특정 텍스트 마이닝 도구를 실행하면 됩니다. Science Direct의 논문 원문 프로그래밍 인터페이스(API)를 사용하여 HTML이나 PDF 형식으로 구독하는 콘텐츠에 접근하고 다운로드할 수 있습니다. 이는 비상업적 연구 텍스트 마이닝을 목적으로 엘스비어 콘텐츠를 대량으로 쉽고 간단하게 다운로드하는 방법입니다. 엘스비어 개발자 포털을 통해 논문 원문 API에 접근할 수 있습니다. API에는 오픈 액세스 콘텐츠가 포함되며 자동화된 스크립트 실행이 가능한 http://api.elsevier.com/content/article/doi/[DOI]에서 DOI 검색 기능을 이용하여 오픈 엑세스 콘텐츠 마이닝을 시행할 수도 있습니다.

지금 액세스하기

API를 사용하는 이유는 무엇입니까?

텍스트 마이닝에는 작동하려는 많은 다양한 도구와 리소스, 숙련된 연구자의 다양한 입력 정보가 필요합니다. 시작하는 데 도움을 드리기 위해 엘스비어는 사용자가 특별히 마이닝을 원하는 프로그램 언어로 된 콘텐츠 볼륨을 다운로드하기에 훨씬 수월하도록 API를 만들었습니다.  API를 사용하면 다음과 같은 이점을 누릴 수 있습니다.

  • 효율성 향상: 웹 크롤링(Web crawling)은 대량의 콘텐츠를 수집하기에는 비효율적인 방법이므로 API를 이용하여 필요한 데이터에 신속하고 수월하게 액세스하고 다운로드할 수 있습니다.
  • 더 나은 형식으로 데이터 불러오기: 엘스비어는 저널 논문과 도서 챕터를 텍스트 마이너가 선호하는 파일 형식인 XML로 변환해 드립니다.
  • 일관성 보장: 2백만여 건의 논문과 도서 챕터를 제공하여 텍스트 마이너가 추출하고자 하는 핵심 부분을 식별할 수 있도록 하는 것이 중요합니다. API는 사용 가능한 모든 데이터를 일관된 형식으로 제공하여 사용자가 TDM 도구를 실행하고 테스트하기 쉽도록 했습니다.

CrossRef 로고

다른 출판사 출판물을 마이닝하고 싶으십니까?

텍스트 마이닝을 시작하면 분명 다양한 출판사를 통해 출판되는 다양한 저널에 대한 텍스트 마이닝을 하고 싶을 겁니다. 여기에는 기호 논리학적 문제가 동반됩니다. 텍스트 마이닝이 수월하도록, 엘스비어에서는 Crossref TDM 서비스를 지원합니다. 본 서비스는 출판사 사이트 전체에 걸친 Crossref DOI를 통해 식별된 콘텐츠의 전문에 접근하는 데 사용할 수 있는 Crossref Metadata API와 함께 무료로 제공됩니다.

자세히 알아보기

OA STM Corpus

TDM 도구 테스트

텍스트 마이닝을 수행하려면 자연어 처리(NLP) 도구를 사용해야 합니다. 학술 문헌에 특별히 적용되는 NLP 도구를 개발하고 개선하기 위해 논문의 오픈 액세스 자료 체계를 구성했습니다. 본 체계는 도구의 테스트 및 개발 시 유용하게 사용될 수 있습니다.

자세히 알아보기


학습 및 지원

다가오는 연구 프로젝트에 도움이 되도록 텍스트 마이닝에 접근하고 사용하는 방법에 대해 자세히 알아봅니다.