Добрый день!
Сегодня я напишу о своих открытиях касательно вопроса уникальности текста. Для рерайтеров, копирайтеров и прочих создателей контента – эта информация, думаю, не нова, но может быть полезна для начинающих блоггеров и тех, кто делает первые шаги в текстовой индустрии.
Раньше я думал, что, если текст написан самостоятельно, то его уникальность – 100%. Однако, проверив содержимое предыдущей статьи о функции extract (естественно, до её индексации), на уникальность на сайте text.ru, я был удивлен, получив результат около 60%.
То, что фрагмент со справочной информацией о функции не уникален – это понятно. Я его скопировал и практически не вносил изменений. Но, в моей статье был с отметками о не уникальности содержимого и следующий абзац, который я написал сам:
Выделенные словосочетания часто встречаются на других сайтах, поэтому эти фрагменты отметило как не уникальные.
Данный факт навел меня на размышления о том, что получить 100% уникальность могут только какие-то художественные тексты, или тексты на непопулярную тематику. При этом, желательно, чтобы словарный запас авторов был побольше. А вот, что касается тематики программирования, вебмастеринга и т.п., то получается, что 100% уникальности тут добиться проблематично в виду того, что используются стандартные термины и словосочетания. Также, в технических текстах невозможно заменить синонимами некоторые фразы. Например, “параметры функции extract”. Иначе ж никак не напишешь!
Получается, мало того, что тематика сайтостроительства высоко конкурентная, так еще и написать текст со 100% уникальностью нереально.
Возможно, как раз с этим связана и низкая посещаемость моего блога. На данный момент опубликовано 50 статей, 44 страницы в индексе Яндекса, но посещаемость 10-25 человек в сутки. Конечно, я понимаю, что в данной теме уникального текста уже мало. Должно быть и уникальное содержимое! Т.е. статья должна не просто содержать неповторимое расположение символов, слов и словосочетаний, а и раскрывать какие-то оригинальные темы. Тогда, возможно, и проблем с уникальностью словосочетаний не будет.
Как проверить текст на уникальность?
Для проверки уникальности текста существует большое количество программ и онлайн сервисов.
Вот два наиболее популярных:
http://www.etxt.ru/antiplagiat/
http://advego.ru/plagiatus/top/
В теме уникальности существует такой термин, как шингл.
Шингл (shingle – кирпичик, черепица) – отдельные фрагменты текста. Шингл может состоять из различного количества слов. Может быть четырехсловный, пятисловный и т.п. Чем меньше слов в шингле, тем точнее результат уникальности.
Различные сервисы используют в своих проверочных алгоритмах шинглы разной длины, поэтому и результаты уникальности могут отличаться. Программы позволяют задать размер шингла. Обычно, для проверки уникальности достаточно шингла из 4 или 5 слов.
Если вернуться к скриншоту в начале статьи, с результатами проверки с помощью онлайн сервиса text.ru, то можно увидеть, что там выделены и шинглы из 3 слов. Естественно, что избежать совпадений при длине шингла 3 – проблематично, поэтому при проверке технических текстов с помощью этого сервиса маловероятно получить уникальность 100%.
А теперь самое интересное – проверю уникальность содержимого данной статьи в различных программах. Я скачал и установил себе программу Advego Plagiatus и Etxt Антиплагиат, также произведу проверку уникальности в нескольких онлайн-сервисах.
Для проверки беру текст этой статьи вот до этого момента, включая это предложение, а далее напишу результаты.
Проверку выполнял с настройками по-умолчанию.
Итак, результаты:
1. Advego Plagiatus
Способ проверки – быстрая проверка. Несмотря на это выполнялась довольно долго. Боюсь предположить сколько будет длиться глубока проверка.
Вердикт:
Уникальность текста 95% / 59%. Отличная уникальность текста. Возможно, рерайт.
Вот так вот – слабо я пишу, что даже в рерайте подозревают. =)
2. Etxt Антиплагиат
Уникальность текста 99%
Определенно Etxt Антиплагиат мне нравится больше =) Конечно, понятно, что Advego Plagiatus тщательней выполняет проверку.
3. text.ru
Уникальность: 100.00%
Тут без комментариев – что есть, то есть. =)
4. pr-cy.ru/unique/
Для проверки текста более 1000 символов нужна авторизация.
Результат: Уникальность: 25%
По всему тексту выделило не уникальные фрагменты. Ощущения, как после проверки диктанта или сочинения учителем русского языка. Все почеркано красным. =)
Алгоритм, явно, не из лучших. Находит просто отдельные словосочетания, встречающиеся на других сайтах, в отрыве от остального текста.
Классно сделано, что можно посмотреть на каких сайтах найдена та или иная фраза:
С другой стороны – это абсолютно бесполезная возможность. Мало ли где встречаются обороты и фразы, которые все мы употребляем в той или иной мере.
Выводы: Если вы покупаете статьи, то их уникальность нужно проверять, как минимум, в двух разных программах или сервисах. Если Etxt или text.ru покажут, что содержимое не уникально, то, скорей всего, так оно и есть. Потому что критерии проверки не жесткие, и если текст не проходит даже их, то понятно, что либо украден, либо очень слабый рерайт. К результатам сервиса pr-cy.ru нужно относиться скептически. В принципе, не рекомендую этот сайт использовать для проверки уникальности текста. Не понятно для чего нужен такой алгоритм? Оптимальным вариантом, будет программа Advego Plagiatus.
Работаете ли вы с покупным контентом? Какие программы/сервисы для проверки уникальности статей используете?
Пока! Будьте уникальными во всем!
Странно, у меня обычно Etex показывает уникальность ниже, чем Advego.
Я использую Advego и Etxt. Но у меня не как у Анатолия. Advego показывает уникальность ниже, чем Etxt
Я размер шингла не менял никогда, а вы меняли?
Я тоже ничего не менял.
Я проверяю уникальность программой на текст ру. Этот ресурс самый молодой из вышеперечисленных. Команда разработала алгоритм для качественной и глубокой проверки. Теперь антиплагиат выявляет любой некачественный рерайт. Кроме процента уникальности проверка покажет орфографические ошибки. Сервис текст ру пользуется большим спросом и у исполнителей, и у заказчиков.