Проект x-scripts.com решил поставить эксперимент. Суть эксперимента в следующем: наполнение сайта контентом, используя гугль переводчик. Для этого мы взяли домен и поставили туда WordPress. Темой для нашего блога выбрали самооборону. Язык блога Украинский. Подготовив всё к публикациям статей, мы в поисковике нашли источники для будущих переводов. Сайтов на русском языке про самооборону в интернете достаточно и разнообразного контента на эту тему много. Проделав все подготовительные работы мы написали скрипт, который берёт статьи с сайтов источников, переводит их с помощью Google переводчика и публикует в наш блог. Публикация в блог осуществляется через админку WordPress. Каждой публикуемой статье задаётся категория и тэги. Скрипт установлен на отдельном компе и запускается раз в сутки с помощью расписания скриптов, публикуя 2-3 статьи за раз.
Про все результаты этого эксперимента будем сообщать на нашем сайте.
Сам скрипт:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 |
<?php $xhe_host ="127.0.0.1:7010"; // The following code is required to properly run XWeb Human Emulator require("../../Templates/xweb_human_emulator.php"); // ////////// настройки скрипта/////////////////// // настройки админки WP $blog="адрес блога"; $blog_login="логин"; $blog_pwd="пароль"; // пути к шаблонам $tmp_index=""; $tmp_news=""; $tmp_ind_news=""; // папка с результатами $res_folder="res/"; // путь к папке с рисунками $img_folder="C:\\XWeb\\Human Emulator\\My Scripts\\wp_google\\data\\images\\" ; // полный путь к папке с результатами $res_folder_full="C:\\XWeb\\Human Emulator\\My Scripts\\wp_google\\res\\" ; // массив добавленных статей $a_added_articles=file($res_folder."added.txt"); // количество добавляемых статей $cnt_news=rand(2,3); // счётчик статей $founded_news=0; // режим отладки $dbg=true; // /////////////////// дополнительные модули ///////////////////// // функции require_once("functions.php"); // ///////////////////// script ///////////////////////////////////////////////////////// debug_mess(date("\[ d.m.y H:i:s\] ")." скрипт запустили"); // переходим на сайт $browser->navigate("адрес сайта источника"); // получаем все ссылки на статьи $articles=$anchor->get_all_hrefs_by_inner_text("Статьи"); $a_articles=explode("<br>",$articles); for($i=1;$i<count($a_articles);$i++) { // получить кусок href для клика $s_href=str_replace("адрес сайта источника","",trim($a_articles[$i])); $anchor->click_by_href($s_href, false); // показать все статьи $anchor->click_by_inner_text("Все",true); // ждём sleep(1); // получим категорию статей $category1=$webpage->get_body_inter_prefix("<H1","Статьи"); $category1=get_string($category1,">","-"); // получить все тексты ссылок по href $articles1=$anchor->get_all_inner_texts_by_href("article","<br>",false); // в массив $a_articles1=explode("<br>",$articles1); // идём с конца добавляя самые старые статьи for($j=count($a_articles1)-1;$j>1;$j--) { // получим заголовок статьи $s_text=trim($a_articles1[$j]); // проверим добавляли ли уже такую статью if(is_added($s_text)) continue; // перейдём в статью $anchor->click_by_inner_text($s_text); // ждём sleep(1); // получим текст статьи $s_body=$webpage->get_body_inter_prefix("<H1","Вернуться "); $s_body=get_string($s_body,"<P ","<SCRIPT "); $s_text1=translate($s_text); sleep(1); global $category1; $category1=translate($category1); sleep(1); // удалим лишние тэги $s_body=strip_tags($s_body,"<br><p><a><img>"); $s_body=translate($s_body); sleep(1); //$textfile->write_file("temp.txt",$s_text."<br><P ".$s_body,60); // добавим статью в блог add_new_article($s_text1,"<P ".$s_body,$category1); $founded_news++; // добавим в файл и в массив $a_added_articles[]=$s_text; $textfile->add_string_to_file($res_folder."added.txt",$s_text."\n",60) ; // добавили нужно количество статей if($founded_news>=$cnt_news) break 2; // вернёмся ко всем статьям $anchor->click_by_inner_text("Вернуться в раздел...."); } } debug_mess(date("\[ d.m.y H:i:s\] ")." скрипт закончил работу<br>"); // Quit $app->quit(); ?> |
Скрипт написан 3.09.2012 в Human Emulator 4.4.19 Advanced.
На момент публикации статьи 6.09.2012 скрипт используется для эксперимента.