Semalt sugjeron 5 hapa për të copëtuar faqet në internet

Scrapy është një burim i hapur dhe kornizë për nxjerrjen e informacionit nga faqja e internetit të ndryshme. Ai përdor API dhe është shkruar në Python. Scrapy aktualisht mirëmbahet nga një kompani scraping në internet e quajtur si Scrapinghub Ltd.

Shtë një mësim i thjeshtë se si të shkruani zvarritësin në internet duke përdorur Scrapy, analizuar Craigslist dhe të ruajë informacionin në formatin CSV. Pesë hapat kryesorë të këtij udhëzimi janë përmendur më poshtë:

1. Krijoni një projekt të ri Scrapy

2. Shkruaj një merimangë për të zvarritur një faqe në internet dhe për të nxjerrë të dhëna

3. Eksportoni të dhënat e shkruara duke përdorur vijën e komandës

4. Ndryshoni merimangën për të ndjekur lidhjet

5. Përdorni argumentet merimangë

1. Krijoni një projekt

Hapi i parë është krijimi i një projekti. Ju do të duhet të shkarkoni dhe instaloni Scrapy. Në shiritin e tij të kërkimit, duhet të vendosni emrin e direktorisë ku dëshironi të ruani të dhënat. Scrapy përdor merimangat e ndryshme për të nxjerrë informacion, dhe këto merimangat bëjnë kërkesa fillestare për të krijuar direktori. Për të vendosur një merimangë për të punuar, duhet të vizitoni listën e drejtorive dhe të vendosni një kod të veçantë atje. Mbani një sy skedarët në direktorinë tuaj aktuale dhe vëreni dy skedarë të rinj: citime-a.html dhe citime-b.html.

2. Shkruaj një merimangë për të zvarritur një faqe në internet dhe për të nxjerrë të dhëna:

Mënyra më e mirë për të shkruar një merimangë dhe për të nxjerrë të dhëna është krijimi i selektorëve të ndryshëm në guaskën e Scrapisë. Gjithmonë duhet të bashkangjitni URL-të në citate; përndryshe, Scrapy do të ndryshojë natyrën ose emrat e atyre URL-ve menjëherë. Ju duhet të përdorni kuota të dyfishta rreth një URL për të shkruar një merimangë në mënyrë të duhur. Ju duhet të përdorni.extract_first () dhe të shmangni një gabim të indeksit.

3. Eksportoni të dhënat e shkruara duke përdorur vijën e komandës:

Shtë e rëndësishme të eksportoni të dhënat e shkruara duke përdorur vijën e komandës. Nëse nuk e eksportoni, nuk do të merrni rezultate të sakta. Merimanga do të gjenerojë drejtori të ndryshme që përmbajnë informacion të dobishëm. Ju duhet të përdorni fjalët kyçe të Python për të eksportuar këtë informacion në një mënyrë më të mirë. Importimi i të dhënave në skedarët JSON është i mundur. Skedarët JSON janë të dobishëm për programuesit. Mjete si JQ ndihmojnë në eksportimin e të dhënave të shkruara pa ndonjë problem.

4. Ndryshoni merimangën për të ndjekur lidhjet:

Në projekte të vogla, ju mund të ndryshoni merimangat për të ndjekur lidhjet siç duhet. Por nuk është e nevojshme me projekte të skrapimit të të dhënave të mëdha. Një skedar i vendndodhjes për Tubacionet e Artikullit do të vendoset kur ndryshoni merimangën. Ky skedar mund të gjendet në seksionin tutorial / piplines.py. Me Scrapy, ju mund të ndërtoni merimangat e sofistikuara dhe të ndryshoni vendndodhjen e tyre në çdo kohë. Ju mund të nxirrni shumë faqe në të njëjtën kohë dhe të kryeni projekte të ndryshme për nxjerrjen e të dhënave.

5. Përdorni argumentet merimangë:

Përgjigja e parse_author është një argument merimangë që mund të përdoret për të nxjerrë të dhëna nga faqet e internetit dinamike. Ju gjithashtu mund të siguroni argumentet e linjës së komandës për merimangat me një kod specifik. Argumentet e merimangës bëhen atribute merimangash në asnjë kohë dhe ndryshojnë pamjen e përgjithshme të të dhënave tuaja.

Në këtë tutorial, ne kemi mbuluar vetëm bazat e Scrapy. Ekzistojnë shumë karakteristika dhe mundësi për këtë mjet. Thjesht duhet të shkarkoni dhe aktivizoni Scrapy për të ditur më shumë rreth specifikave të tij.