На многих форумах вижу вопросы о парсинге баз и тому подобных. Я и сам когда-то задавался такими вопросами. Теперь уже и я сам кое-что знаю и готов поделится.
Под базами я понимаю базы, нужные для дорвеестроительства, типа парсинг кейвордов, гестов, форумов. Кстати, на одном форуме видел чела, который ищет базу никнеймов. О ней я тоже расскажу. Итак, поехали
Парсим кейворды
Кейворды можно собирать различным способом. Зависит от вашей цели дальнейшего обращения с ними. Т.е. кому-то нужны низкоконкурентые запросы, а кому-то наоборот, подавай только сч и вч. Впринципи сам парсинг этих кейвордов одинаков.
В начале нужно выбрать главный запрос, можно два, можно три. Вот здесь и наступает различие. Кто-то выберет нч, кто-то вч. Я советую выбрать кейворд для начала с меньшей конкуренции. Т.е. в при поиске в гугле, должно быть меньше млн сайтов. Тогда у вас есть шанс попасть в топ, но делать это я бы вам не рекомендовал.
Предположим, запрос выбран. После этого многие поступают по разному. Кто идёт в овертюру, кто в вордтрекер. Я же запускаю "Магадан". Нет, не яшинский, а программу Магадан :). Очень хорошая программа для парсинга кейвордов. Вбиваете несколько главных кейвордов, она из запросов яши выберет все, где они встречаются и напарсит их в отдельный файл - это раз. Затем опять-таки напарсит, но с запросами примерно похожими по смыслу на главные и сохранит в отельный файл - это два. Для каждого запроса покажет частоту и мы сможем оценить конкуренцию не открывая браузер - это четыре. Сама ссылка на программу ниже.
Предположим вы напарсили таким образом кейворды. Сложили из в текстовый файл. Но! - после каждого кейворда идёт циферками его частота, которая нам уже не нужна. Можно её убрать ручками, но представьте себе, что у вас этих кеев сотни и тысячи. Я делаю так: Открываю в текстовом редакторе этот файл, ищу инструмент "найти и заменить", ну а дальне ищу все цифры, именно цифры, а не числа, и заменяю их на пустое место, проще говоря в поле "заменить" ничего не пишу. И заменяем: сначала 0(исчезнут все нули), потом 1, 2, 3,..8,9, Всё. У вас есть чистенький файл с кейвордами. Что с ними делать - уже вам решать.
Парсим базу некнеймов
Если честно, я не представляю зачем она нужна(возможно для хрумера), но "спалю тему", как её напарсить).
Идём в гугл и качаем базы по запросу "база емайл адресов", сколько мыл - столько и ников. Скачали, сложили в отдельный текстовый файл все мыла. Теперь, как и делали выше. Смотрим на первое мыло, что там у него после @? Вот это и ищем и заменяем на пустое место. Искать надо вместе с @. Потом следующие мыло и так, пока не останется пара десятков с уникальными мылами, их придётся в ручную чистить. Вот и весь способ. Вся фишка в том, что то что идёт после @ с вероятность 70% будет встречаться и у других мыл.
Парсим базу форумов
Здесь всё намного проще, но понадабится безлимитный(чем я и довольствуюсь второй день) и скоростной(а вот с этим похуже) инет. Ищем в гугле, яше и где только можно все возможные базы форумов. Собираем их в один файл. Запускаем хрумер и прогоняем. Работающие отложатся в отдельный файл, но! *сейчас опять спалю тему*
ХРУМЕР - эта такая вещь, которая может очень много в знающих руках. ВЫ только что прогнали грязную базу. Все успешные сложились в ZLinksList id (номер базы), но опять-таки НО!
Нас больше интересует RLinksList id (с тем же номером) - сюда кладутся ссылки на топики которые мы создали в результате прогона. В хруемер есть такая вещь, как проверка ссылок по R-листам. Вот и проверяем через недельку - есть линки или нет. Всё, где есть - это не модерируемые форумы, туда можно спамить сколько хочешь, и спамить лучше именно в этот топик, т.к. хрумер это будет делать в разы бытрее.
Вот и всё, что я хотел сказать). Пока у меня успехов нет. Вчера только сделал шаблон для адулт доров. И всем рекомендую - лучше делать шаблоны самому, чем юзать готовые. Один раз поймешь, как они устроены, а дальше уже легко.
Обещенная сцыль на Магадан:
Сайт разработчика - http://l00t.ru/magadan/
Если хотите сказать мне спасибо за статью, можете прислать ваши базы гестов и форумов, буду только рад)
Ещё пара новостей, я определился с ноутбуком и ешё с кое-каким гаджетом, всё это вы можете увидет на странице.
Там же меня можно и поддержать
Постовой:(попасть )
Анапский бомж палит

Свежие комментарии