Уникализатор контента Wordpress Unikalizator
В моей сборке wordpress для создания сплога присутствует плагин-уникализатор контента (за авторством , см. «Виды»). В связке с RSS-граббером WP-o-Matic они автоматически наполняют сплог-говноблог уникальным конетентом.
Именно на Уникализаторе я хочу остановиться подробней. Конкретно — рассмотрю вопрос добавления синонимов в базу данных плагина. В комментариях на странице описания плагина поднимается вопрос о том, как же добавить в базу синонимов сколь-нибудь приличный словарь русских синонимов? Для решения задачи предлагается «один раз добавить синонимы руками, а затем делать экспорт таблицы mySQL с последующим импортом для каждого нового сайта». По-моему подход в корне неверный — добавлять синонимы руками нужно в последнюю очередь. Да и зачем хранить дампы таблиц, если у нас есть текстовый файл с синонимами? Я предлагаю воспользоваться такой возможностью phpMyAdmin, как Импорт.
Итак, идём в phpMyAdmin, выбираем нужную таблицу (она называется wp_unik_synonims_ru, вместо wp может быть другой префикс имени базы данных, указанный вами в файле конфигурации wordpress (wpconfig.php), вместо ru — соответственно другой язык). Выбираем вкладку Импорт:
Указываем Формат импортируемого файла как CSV и заполняем поля так, как показано на картинке:
Обратите внимание на то, что файл словаря синонимов можно загружать сжатым (zip или gzip). Сэкономите время на загрузку и трафик. Также проверьте кодировку файла с синонимами. Лучше всего, если это будет UTF-8 (немного про перекодирование я писал раньше). Замещение данных и Игнорирование повторяющихся строк включите при необходимости.
Итак, параметры импорта указаны, осталось нажать OK, дождаться завершения операции и убедиться, что всё прошло успешно:
Я считаю, что предложенный мной способ добавления синонимов в базу wordpress-плагина для мутации контента «Уникализатор» удобней, чем ручное внесение словаря с последующим экспортом-импортом дампа БД.
Добавление: выкладываю дамп MySQL таблицы с синонимами для уникализатора (zip | gzip, словарь Абрамова).

сентября 27, 2009 | Posted by dimio
Categories:
Tags:
По ссылке недоступен более архив синонимов. Залей по новой а?
ссылка на словарь не работает 404!
Перезалил, качайте. Спасибо за баг-репорт
Только вчера на эту тему думал, так что пост определенно в тему!
Я его себе установил, только он сплошные ошибки выдаёт и всё тут. Нифига не хотит работать.
Для начала неплохо бы знать, какие именно ошибки. Если конечно Вы не просто для справки это написали.
У меня проблем с этим плагином не было, нормально отрабатывает на сайте.
Уже разобрался с чем это связано. выдержка с другого блога
> А когда жму “Опубликовать”, пишет:
Fatal error: Call to undefined function mb_strtolower () in Z:\home\wordpress26\www\wp-content\plugins\unikalizator.php on line 390
Короче нужно поставить mbstring библиотеку.
> ...это значит на твоем хостинге php собран без модуля mbstring. Если сервер свой, пересобери ПХП и счастье наступит, если нет — то только замена хостера. Можно поменять mb_strtolower на strtolower в коде уникализатора, но тогда кириллица перестанет поддерживаться.
Ну что ж, прекрасно, что всё благополучно разрешилось
Да в том-то и проблема, что мой хостинг не подходит, а жаль, вещь действительно интересная...
Если бы у моего блога была кодировка windows-1251, то можно было бы просто поменять mb_strtolower на strtolower и тогда бы всё работало (как говорят), но у меня utf-8.
Ну можно переписать в принципе попробовать, отказавшись от mbstring. Я так понимаю, что это конвертация кодировок? Реализовать нужные функции этой либы внутри самого плагина.
Поставил базу. все норм. только непонятко как связывать WP-o-Matic с Уникализатором! Нарыл в нете вот такую инфу
к плагину wp-o-matic для автоматической регистрации. В файле wpomatic.php нужно найти функцию insertPost, и заменить строку
‘post_content’ => $content,
на сторку
‘post_content’ => unikalizator_do_action ($content),
Но когда прописываю эту строку WP-o-Matic грабить отказывается!
Я тоже эту строку менял, всё нормально работало. Кстати, потом поменял обратно — разницы не заметил, последний wp-o-matic и так прекрасно с уникализатором взаимодействовал.
В чём конкретно выражается отказ грабить? Какие-то сообщения об ошибках присутствуют?
Да собственно никаких ошибок нет, тупо показывает 0 постов! И кстати уникализации я как то вообще не почувствовал(((
Тогда не знаю, чем помочь. Попробуем по-другому. У меня связка wp-o-matic + уникализатор работает в такой конфигурации:
Уважаемый dimio! Делаю импорт по Вашему рецепту, однако в результате phpmyadmin показывает пустую таблицу. Что делать?
И никаких диагностических сообщений не выводит? Кодировка файла со словарями и кодировка базы совпадают?
Да, ещё один вопрос: где взять хотя бы 2-3 новостные ленты с полными новостями?
Спасибо!
Искать «агрегаторы RSS» — это каталоги с лентами разных сайтов. Потом просто выбираешь для себя что нужно. Разные популярные сайты отдают RSS, среди них бывают и полные версии, сайты газет (в т. ч. электронных).
Ещё можно сделать из неполной ленты полную используя yahoo pipes (в простом случае — 5 минут работы и получаем полную лента, а для сложного случая — проще найти другой сайт с RSS нужной темы
). Yahoo pipes кстати можно ещё и перевести контент, т. е. можно с иностранных сайтов новости получать.
И файл со словарём и база в кодировке utf-8. Идёт процесс загрузки, проходит спокойно и ничего не происходит, не вываливается никаких сообщений, просто обычное окно phpmyadmin со списком баз слева и пустым местом справа. Кликаешь на базу — показывает 0 строк.@ dimio:
Формат разделителя строки при импорте? А можете мне кинуть словарь или его кусочек на почту, я бы вечером попробовал себе импортировать. Любопытно, что же там может не работать.
Да, в левом нижнем углу пишет «готово».@ :
Формат разделителя строки при импорте? Как и у Вас на картинке — auto. Уже пробовал названия столбцов keyword и syn разделять и точкой и запятой, и ставить/не ставить две/одну галки в параметрах... А словарь я взял у Вас, по ссылке в посте...@ dimio:
Даже не знаю, что ещё предположить. Разные версии phpMyAdmin? У меня на хостинге phpMyAdmin — 2.11.9.5
А у меня phpMyAdmin — 2.11.9.1, неужели из-за этого?. Интересно, а может быть вообще убить таблицу unik_synonyms_ru и создать её заново?@ dimio:
Вполне может быть. По крайней мере мне пока больше ничего в голову не пришло, кроме как разные ошибки в разных версия ПО.
Попробуйте, почему бы и нет. Всё равно она пустая.
Кстати, а через интерфейс плагина-то добавляются синонимы?
Да. Но это длительный процесс. Хотелось ускорения. Теперь придётся всё делать ручками. Спасибо за помощь!@ dimio:
Не за что пока... Это я спросил на случай, если вдруг и через плагин не добавляются — тогда можно было бы с той стороны подойти к проблеме.
А вы пробовали сжатый файл импортировать или несжатый? Может тут проблема кроется. Сделайте небольшой тестовый словарик на несколько строк синонимов и на нём попробуйте проверить так и этак.
Несжатый маленький файл добавляется успешно (сообщение phpmyadmin), но в таблицу данные не попадают!!! Видимо всё дело в другой версии админа...@ dimio:
Да, тогда пожалуй проблема где-то в самом админе. Могу дамп таблицы сделать вечером, чтобы руками словарь не забивать. Всё проще будет.
Спасибо, не стоит. Больше половины уже сделано. Работы осталось на полчаса. @ dimio:
Доброго времени суток вам, люди добрые — угостите пожалуйста готовым sql дампом на ящик , iactiv@mail.ru, заранее благодарен
Дамп таблицы для уникализатора со словарём из публикации.
ее публиковть не через csv, а просто sql да и еще, у меня на ПхПадмине нету формата zip. если я возьму и просто изменю его на gzip. Т.е. твой последний файл который выше... схавает ли его моя бд ?
Сомневаюсь. Сам я не пробовал по карйней мере.
www.dimio.org/wp-content/...nonyms_ru.sql.gz
Я сделал проще, разархивил zip твой и 7zip заархивил в гз... результат в посте ниже )
Выложи дамп табл. пож в gzip
См. выше
Благодарствую, но по непонятным мне причинам... не кушает даже так... все делаю 1 в 1
К тому же вчера сел и руками за 4 часа вбил 97к слов
Попробовал сохранить и в тхт и в гзипе и потом залить в другую БД... на другой саттел... не хочет... браузер прогружает от 5-10 мин и скидывает еррор... все перепроверял, размер для атача 50 Мб... даже вот свой дамп не хавает...
В общем-то я тоже так сделал, только сжимал gzip'om. Можно попробовать tar -czf в ещё, но не думаю, что дело в этом. Мы тут выше с человеком обсуждали уже проблему с невозможностью импорта в базу. Может дело в phpMyAdmin. Я для проверки скачал дамп в gz — нормально импортировался, новая таблица создалась автоматом, phpMyAdmin версии 3.2.4 у меня.
Если есть шелл на хостинге — можно через него импортировать в принципе.
Кстати, только заметил — на вкладке импорта показан макс. возможный размер импортируемого файла — может у вас там будет отличное от заданного в настройках значение из-за какого-нибудь сбоя?
phpMyAdmin Информация о версии: 3.2.4
Версия MySQL-клиента: 4.1.22
Размер для атача у меня 50 Мб
Да странно... даже в тхт база на 17 Мб. и в архиве в зависимости чем и как ужимать от 3,5-4,8 Мб до лимита еще далековато...
При атаче у меня еррор вылетат с указанием обычно 1к+ строки ... мол 1068 строка не верно заданы параметры что то вроде того...
Спасибо за помощь и не бери в голову, я решил все же отказаться от словомешали с контентом такой... это ж самый настоящий спам
Хотя обязательно в ближайшее время парочку запущу потестю...
Я, честно говоря, один сплог сделал ради интереса, но как-то понял, что не моё.
А чтобы уникализатор более-менее нормальный текст давал — надо ему тематический словарь скармливать, причём самостоятельно составленный (или хотя бы проверенный), тогда результат поосмысленней будет.
Братан, ты просто молорик што написал этот пост, блин ты бы знал как я замучался на одном своем блоге в ручную вбивать синонимы...
их там ведь почти 100к, много сразу не засунешь...кароч мату было пзц)...а тут буквально все за минуту добавилось...ваще кароч респект за инфо!
Пожалуйста! Рад, что оказалось полезно.
Спасибо и огромный респект за дамп с синонимами!
Пожалуйста, пользуйтесь.
При добавлении в словарь возникает ошибка 403 – •Для доступа к этому веб-узлу требуется выполнить вход.
url в адресной строке:
? echo $_SERVER['REQUEST_URI'];?>
Размер для атача файла в phpMyAdmin 2 мб, как его можно поменять?
Я в php.ini все нужные настройки меняю. В том числе и макс. размер загружаемых php-скриптами файлов.
Пишет «Выбран неверный столбец (keyword.syn)!» (Без ковычек)
Что это может быть?
Не знаю. Для начала расскажите подробней — в какой момент и при каких действиях это происходит?
Всё, я разобрался! У меня столбец называется просто keyword. Всё извлеклось замечательно.
Привет! Подскажи, пожалуйста, всё сделал, как ты написал. Мне выдаёт сообщение:
Неправильное количество полей во входных CSV-данных в строке 1
Ну видимо надо ещё раз проверить файл со словарём. Разделители например проконтролировать.