ну, вот скрипт на питоне, написанный после непродолжительного чтения http://docs.python.org/library/httplib.html и http://docs.python.org/library/htmlparser.html с обязательным копипейстом из примеров. Сам язык тоже вполне обычен. Главное понимать, что в нем нет статически проверяемой системы типов и еще, что в нем вложенность блоков конструкций управления задается *выравниванием в тексе*, а не скобками {}, (), begin end, как у других.
Сам пример выдает урлшники на картинки из твоего жж и валится с исключением после юзерпика. Подозреваю, дело в том, что ему попадается жаваскрипт, который он пытается тоже пропарсить. Если в твоих сайтах тоже есть жаваскрипт, то можно просто записть на использование честного парсера HTML, а просто поискать шаблон вида img.*src= в хтмлном тексте.
Я под цыгвином и линуксом питоновские скрипты точно работают. Как там под андройдами и всякими телефонами --- не знаю.
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs): if tag == "img": src = "" for x in attrs : if x[0] == "src" : src = x[1] print "beg of img at " + src # print attrs
def handle_endtag(self, tag): if tag == "img" : print "end of img"
Питон, говоришь? Наверное, можно. Вот только цыгвин - это не то, что можно дать в руки среднестатистической блондинке. Мне же хочется именно "блондиночной" переносимости, чтоб скопировал файлик, ткнул в него мышою и все получилось.
Питон под винду, естественно есть. Но его, естественно, надо ставить. Если не хочется ставить, экзешник, действительно, наверняка можно собрать. А если не хочется ни того, ни другого, то подойдёт разве что java, поскольку почти везде есть. Но она для твоих целей не слишком. Попробуй jython. Похоже, это питон, работающий в java-машине.
Ну, собрать экзешник - не такая большая работа. А в большинство дистрибутивов линукса питон входит, так что главное - не использовать нестандартные библиотеки.
Java, в принципе, тоже вариант, но пока заниматься ей влом. Единственная проблема с явой - загрузка файлов, но она наверняка решается. Другое дело, что нужна она пока относительно. На телефоны я пока не замахиваюсь, поэтому переносимость нужна с одной линукс-машины на другую и с линукса на винду, возможно, с однократной операцией типа изготовления экзешника.
http://docs.python.org/library/httplib.html и
http://docs.python.org/library/htmlparser.html
с обязательным копипейстом из примеров.
Сам язык тоже вполне обычен. Главное понимать, что в нем нет статически проверяемой системы типов и еще, что в нем вложенность блоков конструкций управления задается *выравниванием в тексе*, а не скобками {}, (), begin end, как у других.
Сам пример выдает урлшники на картинки из твоего жж и валится с исключением после юзерпика. Подозреваю, дело в том, что ему попадается жаваскрипт, который он пытается тоже пропарсить. Если в твоих сайтах тоже есть жаваскрипт, то можно просто записть на использование честного парсера HTML, а просто поискать шаблон вида img.*src= в хтмлном тексте.
Я под цыгвином и линуксом питоновские скрипты точно работают. Как там под андройдами и всякими телефонами --- не знаю.
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == "img":
src = ""
for x in attrs :
if x[0] == "src" : src = x[1]
print "beg of img at " + src
# print attrs
def handle_endtag(self, tag):
if tag == "img" :
print "end of img"
p = MyHTMLParser()
import httplib
conn = httplib.HTTPConnection("endeavor-00.livejournal.com")
conn.request("GET", "/")
r1 = conn.getresponse()
print r1.status, r1.reason
data1 = r1.read()
p.feed(data1)
#print data1
Reply
Reply
Reply
Reply
Java, в принципе, тоже вариант, но пока заниматься ей влом. Единственная проблема с явой - загрузка файлов, но она наверняка решается. Другое дело, что нужна она пока относительно. На телефоны я пока не замахиваюсь, поэтому переносимость нужна с одной линукс-машины на другую и с линукса на винду, возможно, с однократной операцией типа изготовления экзешника.
Reply
Leave a comment