Pisałem wcześniej o yq
, czyli programie w stylu awka/seda do wyciągania danych z YAML-a. Do JSON-a jest znany szerzej jq
. Przydają się do drobnych automatyzacji na własny użytek, ale też do skryptów uruchamianych na CI. Szukałem ostatnio czegoś takiego do HTML-a i zdziwiłem się, bo większość odpowiedzi sugerowała odpalanie jakichś długaśnych one-linerów ręcznie kasujących tagi HTML. Nie, dziękuję! Na szczęście, 2 lata temu (dopiero??) pojawił się projekt htmlq, reklamujący się bardzo trafnym sloganem:
Like jq, but for HTML. Uses CSS selectors to extract bits of content from HTML files.
Brzmi nieźle, prawda?
W dalszej części pokażę krótko, na ile wygodne jest użycie, co robi się łatwo, a co nie.
Działamy w terminalu, więc pojawią się też inne narzędzia, jak awk, którym usuniemy puste linie psujące czytelność (nieoczywista sztuczka, którą moim zdaniem warto znać). Nasz „query language” to CSS, co z jednej strony ma zalety (każdy używał kiedyś CSS-a), ale też wyjdą pewne problemy (bo to CSS).
Czytaj dalej „Wyciąganie danych z HTML-a za pomocą htmlq”