Semalt: Jak používat Python k poškrábání webové stránky?

Data hrají při vyšetřování kritickou roli, že? Může to vést k novému způsobu pohledu na věci a rozvíjet další poznatky. Nejšťastnější věc je, že hledaná data nejsou obvykle snadno dostupná. Najdete ji na internetu, ale nemusí být ve formátu, který lze stáhnout. V takovém případě můžete pomocí techniky stírání webu naprogramovat a shromáždit potřebná data.
Existuje několik scrapingových přístupů a programovacích jazyků, které mohou pomoci při tomto procesu. Tento článek vás seznámí s tím, jak pomocí pythonového jazyka vyřadit stránku. Získáte spoustu poznatků o fungování webových stránek. Také pochopíte, jak vývojáři strukturují data na jakémkoli webu.

Nejlepším výchozím bodem je stažení a instalace distribuce Anaconda Python na počítač. Můžete si také vzít nějaké návody k základům tohoto programovacího jazyka. Nejlepší místo, kde se můžete vydat, může být Codecademy, zejména pokud nemáte v této oblasti ponětí.
V této příručce budou pro vězně použity aktuální stránky s polskými zeměmi. Naučíme vás, jak pomocí skriptu Python extrahovat seznam vězňů a získat data, jako je město pobytu a rasa pro každého vězně. Celý skript, který vás provedeme, je uložen a otevřen v GitHubu. Toto je jedna z populárních online platforem, které umožňují sdílení počítačových kódů. Kódy mají dlouhý seznam komentářů, které vám mohou velmi pomoci.
Při stírání libovolného webu je prvním nástrojem, který je třeba hledat, webový prohlížeč. Většina prohlížečů poskytne uživatelům nástroje pro inspekci HTML, které pomáhají zvedat šrafy v motorovém prostoru a porozumět struktuře stránky. Způsob přístupu k jednotlivým nástrojům se v jednotlivých prohlížečích liší. Základem je však zdroj zobrazení stránky a můžete jej získat přímým kliknutím pravým tlačítkem myši na stránku.
Při prohlížení zdroje HTML stránky je vhodné přehledně uvést podrobnosti o odkazech na vězně v řádcích tabulky. Dalším krokem je napsat skript, který použijeme k extrahování těchto informací. Dva balíčky Pythonu, které budeme používat v procesu těžkého zvedání, jsou Krásná polévka a požadavky. Před spuštěním kódu se ujistěte, že jste je nainstalovali.
Webový škrabací skript bude dělat tři věci. Patří sem načítání stránek se seznamem a extrakce odkazů na stránky s podrobnostmi, načítání každé stránky s podrobnostmi a extrahování dat a tisk extrahovaných dat v závislosti na tom, jak jsou filtrována, jako je město pobytu a rasa. Jakmile to pochopíte, dalším krokem je zahájení procesu kódování pomocí krásné polévky a žádostí.

Nejprve logicky načtěte stránku se seznamem vězňů pomocí adresy URL request.get a poté ji pomocí krásné polévky očistěte. Poté extrahujeme odkaz na stránky s podrobnostmi opakováním každého řádku. Po analýze podrobností vězně je dalším krokem extrahování hodnot pohlaví, věku, rasy, času rezervace a jména do slovníku. Každý vězeň dostane svůj slovník a všechny slovníky budou připojeny k seznamu vězňů. Nakonec si před konečnou vytištěním seznamu opakujte hodnoty závodů a měst.