Что такое уникальность?

Не все наши заказчики знают, что такое уникальность текста, как ее проверять, какие при этом использовать параметры и какое значение она должна иметь. Это меня и сподвигло написать развернутую статью.

Оглавление

1. Что такое уникальность?

Уникальность — это процентное соотношение материала, не имеющего совпадений с другими публикациями в Интернете, к заимствованному. К примеру, если это значение равно 60 %, значит 40 % статьи скопировано из других источников — это может быть как целый фрагмент (полное совпадение), так и отдельные слова или их сочетания (частичное совпадение).

При уникальности 0 % можно говорить о полном плагиате, при 100 % — о том, что в статье нет ни одного ранее используемого в Сети фрагмента. Существует даже общепринятая шкала оценки уникальности:

  • очень высокая — 95-100 %;
  • высокая — 90-94 %;
  • средняя — 80-89 %;
  • низкая — 79 % и ниже.

2. Зачем нужна высокая уникальность?

Значение, близкое к 100 %, — это показатель того, что на сайте используется оригинальный контент, то есть не заимствованный с других ресурсов. «Яндекс» и Google это ценят, поэтому страницы с уникальными текстами имеют больше шансов получить хорошие позиции в поисковой выдаче, нежели «копипаст» — контент, скопированный с других источников. Разумеется, при равных условиях.

Уникальный контент необходим для успешного продвижения любого сайта. Простое же копирование текстовой информации не только бесполезно, но и чревато санкциями поисковых систем. Перед тем как перейти к конкретным программам для проверки уникальности, давайте разберемся, как они это делают.

3. Алгоритмы проверки уникальности текстов

Они бывают шингловыми или корреляционными. Программа для выявления плагиата может быть основана на одном из этих алгоритмов или сразу обоих.

Шингловые алгоритмы

Здесь за основу берется выявление совпадений текстовых фрагментов. Принцип работы следующий:

  1. Сначала из текста удаляются все стоп-слова: знаки препинания, союзы, предлоги, местоимения, причастия, междометия, частицы, вводные слова и другие элементы, которые не несут смысловой нагрузки.
  2. Очищенный от стоп-слов текст разбивается на фрагменты заданной в настройках длины, называемые шинглами.
  3. Составляются фразы для поисковых систем, указанных в настройках. В результате отработанных запросов алгоритм получает множество страниц, с которыми в итоге и будет сравниваться исследуемый текст. О том, как именно это делается, разработчики умалчивают.
  4. На этих страницах алгоритм ищет вхождения шинглов. Детального описания, как они это делают, вы тоже нигде не найдете.

В результате мы получаем общее значение уникальности текста, а также неуникальные фразы и ссылки на страницы с ними. Видя, какие именно фрагменты нужно уникализировать, копирайтер может улучшить этот показатель.

Корреляционные (нешингловые) алгоритмы

В этом случае тексты проверяются на схожесть по смыслу. Подробной информации о корреляционных алгоритмах я не смог найти. Известно лишь, что они строже и лучше обнаруживают рерайты, поскольку сравнивают статьи целиком, а не по фрагментам.

4. Программы проверки уникальности

Их довольно много, поэтому рассмотрим только самые известные системы.

Advego Plagiatus

Перейти на официальный сайт Advego Plagiatus

Одна из самых распространенных бесплатных антиплагиат-программ, основанная на двух алгоритмах: шингловом и лексических совпадений. Также в ней реализована технология псевдоуникализации, позволяющая обнаружить подмену русских букв на английские и другие нечестные способы повышения уникальности. Сервис имеет все основные функции и настройки, которых в большинстве случаев достаточно для проверки текстов.

Особенности Advego Plagiatus:

  • Два способа проверки — быстрая и полная.
  • Поддержка двух декапчеров — Antigate и собственного «Адвего Антикапча».
  • Возможность выбора поисковых систем — «Яндекс», Google, «Рамблер», Yahoo, Bing, Baidu и т. д.
  • Отображение в результатах уникальности по фразам и словам — результаты работы обоих алгоритмов.
  • Функция «Игнорировать URL при проверке» — удобно, если нужно доработать текст на проиндексированной странице.

Рекомендуемые разработчиком настройки Advego Plagiatus:

  • размер шингла и фразы — 4;
  • таймаут — 3 с;
  • максимальный размер документа — 1000 килобайт;
  • прерывание проверки — 0 %;
  • учет совпадений — от 0.5 %;
  • поисковые системы — «Яндекс» и Google.

Текущая версия программы на 30.04.2020 совместима с операционными системами Windows 2000, XP, 7, 8 и 10, Linux, macOS. Также доступен онлайн-сервис «Антиплагиат онлайн» с базовой функциональностью. Чтобы им воспользоваться, не нужно скачивать и устанавливать программу — достаточно зайти на эту страницу. Минус — придётся зарегистрироваться в сервисе Advego.

AntiPlagiarism.NET («eTXT Антиплагиат»)

Перейти на официальный сайт AntiPlagiarism.NET

Эта программа отличается впечатляющим набором возможностей, в том числе не имеющих никакого отношения к уникальности. Основана AntiPlagiarism.NET на двух алгоритмах: «Метод обнаружения копий» (шингловый) и «Метод обнаружения рерайта» (корреляционный).

Ключевые особенности:

  • Четыре основных режима проверки: стандартная, экспресс, глубокая, на рерайт.
  • Поддержка антикапчеров — в настройках можно ввести адрес любого сервиса и ключ.
  • Проверка текстов в пакетном режиме — для этого достаточно указать папку, где находятся файлы.
  • Проверка сайта — в этом случае программа самостоятельно скачивает текст по указанному адресу.
  • Онлайн-проверка — возможность анализа текстов без установки каких-либо программ и без риска блокировки IP поисковыми системами (бесплатно можно проверять только несколько текстов в день).
  • Сравнение текстов — удобная функция, позволяющая сравнить две статьи между собой. Удобно для проверки нескольких рерайтов одного и того же исходника.
  • Проверка уникальности изображения — новая функция, позволяющая сравнить два графических файла.
  • SEO-сервис — определение более 10 параметров сайта (тИЦ, PR, дата регистрации домена и т. д.). Адреса ресурсов можно вводить списком.

Удобно, что в настройках имеется несколько предустановленных профилей и кнопка «По умолчанию», позволяющая вернуть все установки в исходные значения.

Программа AntiPlagiarism.NET («eTXT Антиплагиат») существует в нескольких вариантах: для Windows, Linux и MacOS.

TEXT.RU

Перейти на официальный сайт TEXT.RU

Онлайновый сервис, основанный на корреляционном алгоритме. Мнения интернет-общественности об этой системе отличаются — одни хвалят ее за способность выявлять рерайтинг, другие жалуются на то, что ей крайне сложно угодить.

От лица нашей группы могу сказать, что нешингловый алгоритм text.ru часто мешает писать хорошие тексты. Выбирая эту систему как основное мерило уникальности, будьте готовы попрощаться с красивыми устойчивыми выражениями. В погоне за непохожестью вы можете получить безликие конструкции и странные сочетания слов.

Особенности сервиса:

  • отсутствие каких-либо настроек и режимов проверки;
  • проверка выполняется в режиме онлайн, то есть прямо в браузере;
  • возможность добавить проверку текста в очередь, не ожидая ее окончания;
  • формирование ссылок на результаты проверок, доступ к ним;
  • возможность установить на своем сайте счетчик уникальности — своего рода защита против воров контента.

Content Watch

Перейти на официальный сайт Content Watch

Как и text.ru, этот сервис основан на корреляционном алгоритме. По результатам он нам показался очень похожим на вышеупомянутый инструмент. Особенности:

  • Бесплатная версия позволяет проверять до трёх текстов в день размером не более 10 тысяч знаков каждый.
  • С платными тарифами расширены лимиты на количество и размер текстов, есть история проверок за месяц, нет рекламы.
  • Возможность проверять сайты, в том числе в пакетном режиме.

На 30.04.2020 сервис предлагает следующие месячные тарифы на ручную проверку текстов:

  • 150 проверок в день — 140 рублей;
  • 1000 проверок в день — 590 рублей;
  • 3000 проверок в день — 1490 рублей.

5. Настройка программ по проверке уникальности

Кроме размера шингла и поисковой фразы, существует еще ряд параметров, доступных в программах Advego Plagiatus и «eTXT Антиплагиат». Разберем самые важные из них:

  • Поисковые системы — помимо стандартного набора («Яндекс» и Google) программа может также поддерживать Yahoo, Bing и другие сервисы. Подключать их имеет смысл для текстов на иностранных языках, в противном случае вы только потеряете время.
  • Прокси — используя прокси-сервер, вы можете минимизировать риск бана вашего IP при проверке текстов. Чтобы активировать эту функцию, введите в соответствующих полях адрес сервера, порт, логин и пароль.
  • Антигейт — функция, позволяющая не вводить капчу самостоятельно. За вас это будут делать специально обученные люди за вполне разумные деньги. Чтобы воспользоваться этой возможностью, зарегистрируйтесь на сайте http://antigate.com/ или https://rucaptcha.com/, затем пополните счет, включите соответствующую службу в программе и введите свой персональный ключ.
  • Таймаут — время, в течение которого программа будет ждать ответа от запрашиваемого сайта. Увеличивать это значение следует при частом превышении интервала ожидания, уменьшать особого смысла нет — проверка будет проходить быстрее, но некоторые сайты могут не успеть ответить. По умолчанию таймаут в Advego Plagiatus составляет 15 с, в AntiPlagiarism.NET — 30 с.

6. Какая антиплагиат-система самая лучшая?

Любой опытный копирайтер вам скажет, что такой системы не существует — каждая из них имеет свои недостатки. Для большей части текстов мы рекомендуем (и пользуемся сами) AntiPlagiarism.NET («eTXT Антиплагиат») и Advego Plagiatus, которые давно развиваются и регулярно обновляются. Проверенные ими страницы хорошо ранжируются, поэтому у меня нет сомнений в их эффективности.

К плюсам этих систем можно отнести отсутствие ограничений по размеру и количеству проверок, к минусам — некоторые технические трудности, например, блокировку вашего IP поисковыми системами и необходимость вводить капчу. Решение этих вопросов — тема отдельной статьи. Если у вас нет желания этим заниматься, воспользуйтесь любым онлайновым сервисом. Я рекомендую бесплатный FindCopy или платный вариант AntiPlagiarism.NET, если проверять нужно много и часто.

Юрий Великанов