G Y R O :Rudolf :Kubík

•Počítače •Príroda •Siete •Fotenie •Tvorba

Parsovanie zakázaných stránok z WEBU finančnej správy

február 23rd, 2018

Slovenskí internetoví poskytovatelia majú povinnosť blokovať stránky, ktoré  poskytujú hazardné hry a nie sú registrované na finančnej správe SR.
Podľa metodických pokynov úradu ich stačí „blokovať“ na úrovni vlastných DNS.

Asi sa všetci zhodneme, že ide o silný nezmysel, alebo povinnosť je povinnosť. Ku ďalším nezmyslom patrí spôsob zverejňovania zakázaných domén, sú totiž v PDF, áno v PDF v nešpecifikovanom formáte. Preto je nutné tieto domény buď ručne do systému zapisovať, ale si zbastliť parser.

Nech sa páči ja ponúkam svoje riešenie:

# navstivime a ulozime stranku s linkom
wget -q https://www.financnasprava.sk/sk/infoservis/priklady-hazardne-hry

# najdeme si link "Zoznam zakazanych" a stiahneme
ACTUALFILE=`cat priklady-hazardne-hry | grep 'Zoznam zak' | sed -n 's/.*href="\([^"]*\).*/\1/p'`
 wget -q https://www.financnasprava.sk/$ACTUALFILE

ACTUALFILE=`ls *.pdf`
 if [ -e *.pdf ]
  then
   echo "Subor sa NASIEL - parsujem"
   pdftotext $ACTUALFILE temp.txt
    cat temp.txt | grep http | sed 's~.*http[s]*://~~g' > blacklist.txt
 fi

rm *.pdf 2> /dev/null
rm *.htm* 2> /dev/null
rm priklady* 2> /dev/null
rm temp.txt 2> /dev/null

Pre funkčnosť skriptu musíte do svojho linuxu doinštalovať Poppler utils:

apt-get install poppler-utils

Tento bash skript vygeneruje čistý TXT súbor s doménami, ktorý môžete použiť na import do vášho DNS. S kolegom sme sa rozhodli, že budeme online generovať hotový konfigurák pre bind. Link zverejníme čoskoro.

Your email address will not be published. Required fields are marked *

*