Через 10 минут Иван Арнольдович и Шариков, одетый в кепку с утиным носом и в драповое пальто с поднятым воротником, уехали в цирк. В квартире стихло. Филипп Филиппович оказался в своем кабинете. Он зажег лампу под тяжелым зеленым колпаком, отчего в громадном кабинете стало очень мирно, и начал мерять комнату.
Нарезаем текст на последовательности, например, по 7 слов, со сдвигом в одно слово. То есть
Цитата:
минут Иван Арнольдович Шариков одетый кепку утиным
Иван Арнольдович Шариков одетый кепку утиным носом
Арнольдович Шариков одетый кепку утиным носом драповое
Шариков одетый кепку утиным носом драповое пальто
...
Дальше для каждой последовательности генерируем, например, md5 хеш.
Прогоняем таким образом два текста -- получаем два массива хешей. Считаем процент сходства и узнаем, насколько два текста различаюстя.
2. По самым частым словам.
Считаем количество употребления каждого слова в тексте, строим рейтинг по популярности. Сравниваем, например, топ-10 слов разных текстов -- получаем некоторые сведения для оценки сходства.
Инфо одного профи.
Цирирую:
"Advego Plagiatus – программа поиска в интернете частичных или полных копий текстового документа с интуитивным интерфейсом. Адвего Плагиатус показывает степень уникальности текста, источники текста, процент совпадения текста. Также программа проверяет уникальность указанного URL.
Программу проверил, работает адекватно, Антиплагиат даже рядом не стоял, DCFinder тоже, бесплатна в отличие от платных сервисов
Я думаю, что хорошая программа проверки уникальности должна поддерживать проверку сразу нескольких текстов (всех со всеми), а не только двух. Потому что рерайты могу получиться похожими.
Где-то видел программу которая считала по пятисловному шинглу. сравнивала один текст с множеством. А вот насчет программы которая сравнивает множество со множеством... действительно не встречалась. Мое мнение, подобные анализаторы уникальности от лукавого, и рассчитаны на засерание поискового индекса всякой мутью. Если нужны стати, то пишите их сами, или заказывайте.
Мы заказываем, одну статью очень хорошему райтеру а потом отдаем 10-20 и т.д. крестьянам от райтинга на рерайт. получается уникально.
Я знаю о двух стратегиях определения дублей.
1. Шинглы.
Я понимаю это так. Есть текст:
Нарезаем текст на последовательности, например, по 7 слов, со сдвигом в одно слово. То есть
Иван Арнольдович Шариков одетый кепку утиным носом
Арнольдович Шариков одетый кепку утиным носом драповое
Шариков одетый кепку утиным носом драповое пальто
...
Дальше для каждой последовательности генерируем, например, md5 хеш.
Прогоняем таким образом два текста -- получаем два массива хешей. Считаем процент сходства и узнаем, насколько два текста различаюстя.
2. По самым частым словам.
Считаем количество употребления каждого слова в тексте, строим рейтинг по популярности. Сравниваем, например, топ-10 слов разных текстов -- получаем некоторые сведения для оценки сходства.
Спасибо. А нет готовых сервисов/скриптов?
Знаю такую программу Shingles Expert. Позволяет сравнивать два текста с помощью шинглов. Вроде бесплатная.
Юзайте DCFinder
Инфо одного профи.
Цирирую:
"Advego Plagiatus – программа поиска в интернете частичных или полных копий текстового документа с интуитивным интерфейсом. Адвего Плагиатус показывает степень уникальности текста, источники текста, процент совпадения текста. Также программа проверяет уникальность указанного URL.
Программу проверил, работает адекватно, Антиплагиат даже рядом не стоял, DCFinder тоже, бесплатна в отличие от платных сервисов
Интересно было бы услышать критерии сравнения с DCF
Бесплатная и бесполезная.
Я думаю, что хорошая программа проверки уникальности должна поддерживать проверку сразу нескольких текстов (всех со всеми), а не только двух. Потому что рерайты могу получиться похожими.
Не помню, чтобы видел такую функциональность.
Где-то видел программу которая считала по пятисловному шинглу. сравнивала один текст с множеством. А вот насчет программы которая сравнивает множество со множеством... действительно не встречалась. Мое мнение, подобные анализаторы уникальности от лукавого, и рассчитаны на засерание поискового индекса всякой мутью. Если нужны стати, то пишите их сами, или заказывайте.
Мы заказываем, одну статью очень хорошему райтеру а потом отдаем 10-20 и т.д. крестьянам от райтинга на рерайт. получается уникально.