Web scraping

Web scraping

Le Web scraping (parfois appelé Harvesting) décrit généralement en informatique un moyen d'extraire du contenu d'un site Web, via un script ou un programme, dans le but de le transformer ou de changer son format pour permettre son utilisation dans un autre contexte sans respecter les droits de ses auteurs.

Sommaire

Arguments contre

Cela permet de récupérer le contenu d’une page web en vue d'en réutiliser le contenu. Cette opération se pratique le plus souvent de façon automatique, qui permet de constituer des pages à bon compte. Cette pratique n'a pas très bonne presse chez les contributeurs authentiques car elle peut être assimilée à un pillage. Pour inciter les webmasters à ne pas utiliser de méthode de scraping, Google, sanctionne les sites qui les utilisent en les supprimant de ses pages de résultats.

Google News , en agrégeant sans autorisation préalable les manchettes d'autres sites, est considéré par certains comme du Web scraping

Utilisation dans la gestion de données multimédia

Le Web scraping peut être utilisé pour récupérer des Métadonnées. C'est ainsi que la bibliothèque multimédia XBMC récupère les informations sur les médias qu'elle gère (affiches et résumés des films et séries TV, jaquette des albums, etc) sur différents sites tels que IMDb ou AlloCiné au moyen de scrapers dédiés[1].

Références

Voir aussi


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Web scraping de Wikipédia en français (auteurs)

Игры ⚽ Поможем написать реферат

Regardez d'autres dictionnaires:

  • Web scraping — (sometimes called harvesting) generically describes any of various means to extract content from a website over HTTP for the purpose of transforming that content into another format suitable for use in another context. Those who scrape websites… …   Wikipedia

  • Web Scraping — Der Begriff Screen Scraping (engl., etwa: „Bildschirm auskratzen“) umfasst generell alle Verfahren zum Auslesen von Texten aus Computerbildschirmen. Gegenwärtig wird der Ausdruck jedoch beinahe ausschließlich in Bezug auf Webseiten verwendet… …   Deutsch Wikipedia

  • Web-scraping software comparison — This article provides a basic feature comparison for several types of web scraping software. Additional feature details are available from the individual products websites and/or articles. This article is not all inclusive or necessarily up to… …   Wikipedia

  • Web integration — is leveraging the enormous success of the Web Browser to access services and information on the Web. The services can for example include lookup in news archives, searching cheap flights and ordering cinema tickets, even editing Wikipedia.… …   Wikipedia

  • Web crawler — For the search engine of the same name, see WebCrawler. For the fictional robots called Skutters, see Red Dwarf characters#The Skutters. Not to be confused with offline reader. A Web crawler is a computer program that browses the World Wide Web… …   Wikipedia

  • Scraping — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Web scraping, l extraction du contenu d un site Web, Scrappage, une méthode de renaturation de sols par enlèvement d une couche de terre. Catégorie :… …   Wikipédia en Français

  • web scraper — /ˈwɛb skreɪpə/ (say web skraypuh) noun Computers an application which automatically collects data from a website and stores it in a local database or spreadsheet. Compare screen scraper. Also, web harvester. –web scraping, noun …  

  • Web 2.0 — beta. El término Web 2.0 está asociado a aplicaciones web que facilitan el compartir información, la interoperabilidad, el diseño centrado en el usuario y la colaboración en la World Wide Web. Ejemplos de la Web 2.0 son las comunidades web, los… …   Wikipedia Español

  • Web feed — Common web feed icon A web feed (or news feed) is a data format used for providing users with frequently updated content. Content distributors syndicate a web feed, thereby allowing users to subscribe to it. Making a collection of web feeds… …   Wikipedia

  • Web 1.0 — multipleissues notability = May 2008 cleanup = September 2008Web 1.0 is a retronym which refers to the state of the World Wide Web, and any website design style used before the advent of the Web 2.0 phenomonon. It is the general term that has… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”