PYTHON XPATH ПАРСИНГ

Python предоставляет возможности для эффективного парсинга HTML-страниц с помощью библиотеки lxml и механизма поиска элементов XPath.

XPath - это язык запросов для выбора узлов в документе XML или HTML. Он используется для поиска элементов веб-страницы, например, для извлечения данных из таблицы или списка.

Вот пример кода на Python, который демонстрирует использование XPath для извлечения списка статей с веб-страницы:

import requests
from lxml import html

page = requests.get('https://www.example.com/articles')
tree = html.fromstring(page.content)
articles = tree.xpath('//ul[@class="articles-list"]/li/a/text()')
print(articles)

Этот код отправляет GET-запрос к странице 'https://www.example.com/articles' и загружает содержимое страницы в объект 'tree' с помощью библиотеки lxml. Затем он использует XPath-запрос '//ul[@class="articles-list"]/li/a/text()' для поиска текстового содержимого ссылок на статьи в списке статей.