Semalt URLitorде иштелип чыгат - Абдан сонун веб Скрапинг жана маалыматтарды алуу куралы

URLitor - бул жаңы, бирок натыйжалуу желе кыркуу жана маалыматтарды алуу куралы. URLitorди колдонуу үчүн, сиз берилген форматта онлайнда кыркып алгыңыз келген бардык URL даректеринин тизмесин кошушуңуз керек. Андан кийин веб-баракчалардан чыгаргыңыз келген HTML элементин белгилеп, тапшыруу баскычын чыкылдатыңыз. Бул сыяктуу жеңил. Бул курал менен сиз мындан ары көчүрмөсүн же браузерден чаптоонун кереги жок.
xPath - бул XML файлдарынан маалымат издөө үчүн колдонулган тил. Ал XML файлдарындагы түйүндөрдү же түйүндөрдү тандоо үчүн белгилүү бир туюнтмаларды колдонот. XPath түшүнгөн сөздөр, кадимки компьютердик файлдарда же документтерде колдонулганга окшош.

XPath бир нече программалоо тилинде колдонулганына карабастан, бул курал программалоо билими жок колдонуучулар үчүн иштелип чыккан. Демек, аны колдонуш үчүн программист болуштун кажети жок. Бул куралдын жардамы менен бир нече HTML жана XML беттеринен маалыматтарды чыгарып алсаңыз болот.
Колдонуунун жөнөкөйлүгү үчүн, бир нече жолу колдонулган XPath туюнтмалары ачылуучу менюга алдын-ала аныкталып, колдонуучулар максатына жараша алардын бирин тандап алышы керек. Ошентсе да, XPath тажрыйбалуу колдонуучулары өзүлөрүнүн колдонулган сөздөрүн каалаган учурда колдоно алышат.
Курал 100 URL дарегине ылайыкташтырылып, бир тилкенде бир жолу эң көп дегенде 10 сөз айкашын алат. Башкача айтканда, ал бир эле учурда максимум 100 URL дарегинен маалыматтарды кырып салышы мүмкүн.
Өзгөртүлө турган же кошула турган кээ бир маанилүү XPath колдонмолору төмөндө көрсөтүлгөн:
1. // div [2] - Бул сөз айкашы экинчи div иерархиялык жол менен тандалат;
2. // шилтеме [@ rel = 'каноникалык'] / @ href - Бул сөз айкашы атрибутту каноникалыкка барабар кылуу үчүн колдонулган теги жайгашкан жерди (булакты) тандайт;
3. / html / head / meta [@ name = 'description'] / @ content - Бул сөз айкашы мазмунун тандоодо колдонулат;
4. // * [@ class = 'class-name'] - Сиз CSS классы катары 'class-name' бар бардык элементтерди тандоо үчүн, ушул туюнтманы колдонсоңуз болот;
5. // h2 | // аталышы - Бул туюнтманы биринчи H2 жана барак аталышын тандоо үчүн колдонсо болот;
6. // * [name () = 'h1' же name () = 'title'] - Бул сөз айкашы жогоруда айтылгандай иштейт. Бирок жогоруда айтылган сөз кыска болгондуктан жакшыраак;
7. // * [камтыйт (@class, 'бармак')] - Бул сөз айкашы CSS классына ээ болгон ар бир элементти тандап алат, ошондой эле казып алуу үчүн 'бармагы' бар;
8. // parent :: * [text () = 'Welcome'] - Бул сөз айкашы 'Welcome' тексти бар ар бир элементтин атасын тандап алат;
Бул курал бета версиясы жана кээ бир каталар менен иштей берет. Бирок, ал дагы деле программалоо билими жок же таптакыр билинбеген колдонуучулар үчүн сонун курал, анткени бардык колдонулган сөздөрдүн бардыгы мурунураак айтылгандай менюга киргизилген.