Как ни странно, самое сложное оказалось самым простым. Несколько строчек - и есть прототип элементарной "качалки файлов", которая загружает веб-страничку в заданной кодировке, приводит символы новой строки к образцу "для Windows" и показывает результат в многострочном текстовом поле. Т.е., грубо говоря, получает сырой текст для дальнейшей работы
(
Read more... )
Задача, на самом деле, очень простая. Есть сайт, на котором периодически проводится литконкурс: набигают молодые, талантливые авторы, делают чрезмерно дохуя рассказов и пытаются пробиться в финал. Попутно эти авторы, а также всякие попутные и поперечные товарищи читают рассказы и пишут на них небольшие рецензии прямо в специальную форумную ветку. На первом этапе все рассказы делятся на несколько групп. В каждой группе назначается куратор, который просматривает тред и, если видит рецензию на рассказ из курируемой группы, тут же тащит её на свою личную страничку. Там все отзывы сортируются по рассказам так: список рассказов, после наименования рассказа идут рецензии к нему.
Задача парсера проста и понятна: выделить из странички посты участников, из постов участников выделить те, которые содержат отзывы на рассказы из группы (очевидно, отбор по названию рассказа), и разложить их аккуратной стопочкой по рассказам, чтобы куратор мог вместо нудной нетворческой работы выпить пефка за моё пошатнувшееся здоровье. Попутно привести разметку из вида "для HTML" в вид "для форума" (например, заменить на [i], правильно поименовать смайлики и т.п.).
Reply
Reply
Я нахожу некий маркер. После него идёт пост, который я выдираю и кладу в список на обработку. Он заканчивается другим маркером, после которого ищется следующий маркер входа или маркер конца страницы.
Выдранные посты обрабатываются хоть регэкспами, хоть String.Replace
Зачем мне тут посторонний парсер?
Reply
Reply
Reply
Reply
Вот SQLite, пожалуй, мне пригодится (хотя всё-таки нет (хотя всё-таки да)). А парсер от третьих лиц - нет.
Reply
Reply
Leave a comment