Back to Question Center
0

Semalt razvija na URLitor - zelo kul spletno strganje in orodje za izločanje podatkov

1 answers:

URLitor je novo, vendar učinkovito spletno orodje za strganje in izločanje podatkov. Če želite uporabiti URLitor, morate dodati seznam vseh URL-jev, katerih vsebina želite brati v spletu v predloženi predlogi. Potem morate določiti element HTML, ki ga želite izvleči s spletnih strani, in kliknite gumb za pošiljanje. Tako enostavno je. S tem orodjem vam več ni treba kopirati ali prilepiti iz brskalnika.

xPath je jezik, ki se uporablja za iskanje informacij v datotekah XML. Uporablja določene izraze za izbiro vozlišč ali vozlišč v datotekah XML. Izrazi, ki jih razume XPath, so precej podobni tistim, ki se uporabljajo z običajnimi računalniškimi datotekami ali dokumenti.

Čeprav je XPath uporabljen z več programskimi jeziki, je to orodje zgrajeno za uporabnike, ki nimajo nobenega programskega znanja. Torej, vam ni treba biti programer, da ga uporabite. S tem orodjem lahko izvlečete podatke iz več strani HTML in XML.

Za preprostost uporabe je bilo v spustnem meniju vnaprej določeno število pogosto uporabljenih izrazov XPath, tako da bodo uporabniki morali izbirati katerikoli od njih, odvisno od njihovega cilja. Vendar izkušeni uporabniki XPath-a lahko svobodno uporabljajo izraze po meri, kadar koli želijo..

Orodje je bilo zasnovano z zmogljivostjo 100 URL-jev v eni sami strgalni seji in traja največ 10 izrazov hkrati. Z drugimi besedami, lahko zgoščuje podatke z največ 100 URL-jev hkrati.

Nekateri pomembni izrazi po meri XPath, ki jih je mogoče spremeniti ali dodati, so opisani spodaj:

1. // div [2] - Ta izraz izbere drugo hierarhično divjo; - Ta izraz izbere lokacijo (ref) oznake, ki se uporablja za nastavite rel atribut enak kanonskemu;

3. / html / head / meta [@ ime = 'opis'] / @ vsebina - Ta izraz se uporablja za izbiro vsebine;

4. // * [@ class = 'class-name'] - Ta izraz lahko uporabite za izbiro vseh elementov z imenom razreda Razred CSS;

5. H2 | // naslov - Ta izraz se lahko uporabi za izbiro prvega naslova H2 in naslova strani;

6. // * [ime

= "h1" ali ime

= "naslov"] - Ta izraz deluje tako kot zgoraj. Vendar je zgoraj predstavljen izraz boljši, ker je krajši; - Ta izraz izbere vsak element, ki ima razred CSS in vsebuje tudi "palec" za ekstrakcijo;

8. / / parent: * [text

= 'Dobrodošli'] - Ta izraz izbere nadrejeni element katerega koli elementa, ki ima besedilo 'Dobrodošli ";

To orodje je različica Beta in bi lahko še vedno delovala z nekaterimi napakami. Vendar je še vedno odlično orodje za uporabnike z malo ali nič programiranja, saj so vsi pogosto uporabljeni izrazi vnaprej določeni v meniju, kot je bilo že omenjeno.

4 days ago
Semalt razvija na URLitor - zelo kul spletno strganje in orodje za izločanje podatkov
Reply