Критерии качественного рерайта

void аватар
4

Как с математической точностью узнать, попадает ли рерайт в дубли или нет?

Дима аватар
405

Я знаю о двух стратегиях определения дублей.

1. Шинглы.

Я понимаю это так. Есть текст:

Цитата:
Через 10 минут Иван Арнольдович и Шариков, одетый в кепку с утиным носом и в драповое пальто с поднятым воротником, уехали в цирк. В квартире стихло. Филипп Филиппович оказался в своем кабинете. Он зажег лампу под тяжелым зеленым колпаком, отчего в громадном кабинете стало очень мирно, и начал мерять комнату.

Нарезаем текст на последовательности, например, по 7 слов, со сдвигом в одно слово. То есть

Цитата:
минут Иван Арнольдович Шариков одетый кепку утиным
Иван Арнольдович Шариков одетый кепку утиным носом
Арнольдович Шариков одетый кепку утиным носом драповое
Шариков одетый кепку утиным носом драповое пальто
...

Дальше для каждой последовательности генерируем, например, md5 хеш.

Прогоняем таким образом два текста -- получаем два массива хешей. Считаем процент сходства и узнаем, насколько два текста различаюстя.

2. По самым частым словам.

Считаем количество употребления каждого слова в тексте, строим рейтинг по популярности. Сравниваем, например, топ-10 слов разных текстов -- получаем некоторые сведения для оценки сходства.

void аватар
4

Спасибо. А нет готовых сервисов/скриптов?

Robotti аватар
83

Знаю такую программу Shingles Expert. Позволяет сравнивать два текста с помощью шинглов. Вроде бесплатная.

Snob аватар
320

"void" писал(а):
Спасибо. А нет готовых сервисов/скриптов?

Юзайте DCFinder

Elena аватар
4

Инфо одного профи.
Цирирую:
"Advego Plagiatus – программа поиска в интернете частичных или полных копий текстового документа с интуитивным интерфейсом. Адвего Плагиатус показывает степень уникальности текста, источники текста, процент совпадения текста. Также программа проверяет уникальность указанного URL.

Программу проверил, работает адекватно, Антиплагиат даже рядом не стоял, DCFinder тоже, бесплатна в отличие от платных сервисов

Soft-Lab аватар
127

Интересно было бы услышать критерии сравнения с DCF

Soft-Lab аватар
127

"Robotti" писал(а):
Знаю такую программу Shingles Expert. Позволяет сравнивать два текста с помощью шинглов. Вроде бесплатная.

Бесплатная и бесполезная.

Дима аватар
405

Я думаю, что хорошая программа проверки уникальности должна поддерживать проверку сразу нескольких текстов (всех со всеми), а не только двух. Потому что рерайты могу получиться похожими.

Не помню, чтобы видел такую функциональность.

Soft-Lab аватар
127

"Дима" писал(а):
Не помню, чтобы видел такую функциональность.

Где-то видел программу которая считала по пятисловному шинглу. сравнивала один текст с множеством. А вот насчет программы которая сравнивает множество со множеством... действительно не встречалась. Мое мнение, подобные анализаторы уникальности от лукавого, и рассчитаны на засерание поискового индекса всякой мутью. Если нужны стати, то пишите их сами, или заказывайте.
Мы заказываем, одну статью очень хорошему райтеру а потом отдаем 10-20 и т.д. крестьянам от райтинга на рерайт. получается уникально.