Что такое уникальность?

Не все наши заказчики знают, что такое уникальность текста, как ее проверять, какие при этом использовать параметры и какое значение она должна иметь. Это меня и сподвигло написать развернутую статью.

Оглавление

1. Что такое уникальность?

Уникальность — это процентное соотношение материала, не имеющего совпадений с другими публикациями в Интернете, к заимствованному. К примеру, если это значение равно 60 %, значит 40 % статьи скопировано из других источников — это может быть как целый фрагмент (полное совпадение), так и отдельные слова или их сочетания (частичное совпадение).

При уникальности 0 % можно говорить о полном плагиате, при 100 % — о том, что в статье нет ни одного ранее используемого в Сети фрагмента. Существует даже общепринятая шкала оценки уникальности:

  • очень высокая — 95-100 %;
  • высокая — 90-94 %;
  • средняя — 80-89 %;
  • низкая — 79 % и ниже.

2. Зачем нужна высокая уникальность?

Значение, близкое к 100 %, — это показатель того, что на сайте используется оригинальный контент, то есть не заимствованный с других ресурсов. «Яндекс» и Google это ценят, поэтому страницы с уникальными текстами имеют больше шансов получить хорошие позиции в поисковой выдаче, нежели «копипаст» — контент, скопированный с других источников. Разумеется, при равных условиях.

Уникальный контент необходим для успешного продвижения любого сайта. Простое же копирование текстовой информации не только бесполезно, но и чревато санкциями поисковых систем. Перед тем как перейти к конкретным программам для проверки уникальности, давайте разберемся, как они это делают.

3. Алгоритмы проверки уникальности текстов

Они бывают шингловыми или корреляционными. Программа для выявления плагиата может быть основана на одном из этих алгоритмов или сразу обоих.

Шингловые алгоритмы

Здесь за основу берется выявление совпадений текстовых фрагментов. Принцип работы следующий:

  1. Сначала из текста удаляются все стоп-слова: знаки препинания, союзы, предлоги, местоимения, причастия, междометия, частицы, вводные слова и другие элементы, которые не несут смысловой нагрузки.
  2. Очищенный от стоп-слов текст разбивается на фрагменты заданной в настройках длины, называемые шинглами.
  3. Составляются фразы для поисковых систем, указанных в настройках. В результате отработанных запросов алгоритм получает множество страниц, с которыми в итоге и будет сравниваться исследуемый текст. О том, как именно это делается, разработчики умалчивают.
  4. На этих страницах алгоритм ищет вхождения шинглов. Детального описания, как они это делают, вы тоже нигде не найдете.

В результате мы получаем общее значение уникальности текста, а также неуникальные фразы и ссылки на страницы с ними. Видя, какие именно фрагменты нужно уникализировать, копирайтер может улучшить этот показатель.

Корреляционные (нешингловые) алгоритмы

В этом случае тексты проверяются на схожесть по смыслу. Подробной информации о корреляционных алгоритмах я не смог найти. Известно лишь, что они строже и лучше обнаруживают рерайты, поскольку сравнивают статьи целиком, а не по фрагментам.

4. Программы проверки уникальности

Их довольно много, поэтому рассмотрим только самые известные системы.

Advego Plagiatus

Перейти на официальный сайт Advego Plagiatus

Одна из самых распространенных бесплатных антиплагиат-программ, основанная на шингловом алгоритме. Несмотря на статус бета-версии, она полностью работоспособна, имеет основные функции и настройки, которых в большинстве случаев достаточно для проверки текстов.

Особенности Advego Plagiatus:

  • Два режима проверки — быстрый и глубокий.
  • Поддержка двух декапчеров — Antigate и RuCaptcha.
  • Отображение в результатах не только уникальности, но и количества рерайта — результат работы корреляционного алгоритма. Его значение выводится в результатах только при 30 % совпадений и выше, в противном случае отображается лишь уникальность.
  • Функция «Игнорировать домены» — удобно, если нужно доработать текст на уже проиндексированной странице.
Внимание! Разработчик не рекомендует использовать показатель количества рерайта для оценки уникальности текста. Вероятно, это знак того, что корреляционный алгоритм Advego пока находится на стадии тестирования.

Рекомендуемые разработчиком настройки Advego Plagiatus:

  • размер шингла и фразы — 4;
  • таймаут — 15 с;
  • максимальный размер документа — 256 килобайт;
  • прерывание проверки — 0 %;
  • учет совпадений — от 1 %.

Недостаток программы — совместимость только с операционными системами семейства Windows.

AntiPlagiarism.NET («eTXT Антиплагиат»)

Перейти на официальный сайт AntiPlagiarism.NET

Эта программа отличается впечатляющим набором возможностей, в том числе не имеющих никакого отношения к уникальности. Основана AntiPlagiarism.NET на двух алгоритмах: «Метод обнаружения копий» (шингловый) и «Метод обнаружения рерайта» (корреляционный).

Ключевые особенности:

  • Четыре основных режима проверки: стандартная, экспресс, глубокая, на рерайт.
  • Поддержка антикапчеров — в настройках можно ввести адрес любого сервиса и ключ.
  • Проверка текстов в пакетном режиме — для этого достаточно указать папку, где находятся файлы.
  • Проверка сайта — в этом случае программа самостоятельно скачивает текст по указанному адресу.
  • Онлайн-проверка — возможность анализа текстов без установки каких-либо программ и без риска блокировки IP поисковыми системами (бесплатно можно проверять только несколько текстов в день).
  • Сравнение текстов — удобная функция, позволяющая сравнить две статьи между собой. Удобно для проверки нескольких рерайтов одного и того же исходника.
  • Проверка уникальности изображения — новая функция, позволяющая сравнить два графических файла.
  • SEO-сервис — определение более 10 параметров сайта (тИЦ, PR, дата регистрации домена и т. д.). Адреса ресурсов можно вводить списком.

Удобно, что в настройках имеется несколько предустановленных профилей и кнопка «По умолчанию», позволяющая вернуть все установки в исходные значения.

Программа AntiPlagiarism.NET («eTXT Антиплагиат») существует в нескольких вариантах: для Windows, Linux и MacOS.

FindCopy (ОБНОВЛЕНО)

Перейти на официальный сайт FindCopy

По этому адресу доступна программа проверки уникальности FindCopy от компании «Мирафокс», которой принадлежат известные сервисы Miralinks и Gogetlinks. Мне сложно сказать, на каком алгоритме она основана, поскольку разработчик об этом умалчивает, а я не настолько часто ей пользуюсь, чтобы делать предположения.

Особенности сервиса:

  • бесплатность, для работы не нужно регистрироваться в системе Copylancer (актуально на 30.08.2017);
  • отсутствие настроек и режимов проверки — предлагается только вставить текст в поле и нажать «Старт»;
  • для работы программы нужно установить расширение для браузера, иначе кнопка сервиса будет неактивна;
  • хорошая скорость — 20-30 секунд и никаких очередей, характерных для браузерных антиплагиат-систем;
  • кроме уникальности, текст также проверяется на информативность (процент «воды») и орфографию.

Ранее FindCopy продвигался в рамках сервиса Miralinks, потом прекратил свою работу. После обновления и смены адреса эта программа осталась тем же удобным бесплатным инструментом, совмещающим в себе сразу несколько полезных возможностей. Рекомендую.

TEXT.RU

Перейти на официальный сайт TEXT.RU

Онлайновый сервис, основанный на корреляционном алгоритме. Мнения интернет-общественности об этой системе отличаются — одни хвалят ее за способность выявлять рерайтинг, другие жалуются на то, что ей крайне сложно угодить.

От лица нашей группы могу сказать, что нешингловый алгоритм text.ru часто мешает писать хорошие тексты. Выбирая эту систему как основное мерило уникальности, будьте готовы попрощаться с красивыми устойчивыми выражениями. В погоне за непохожестью вы можете получить безликие конструкции и странные сочетания слов.

Особенности сервиса:

  • отсутствие каких-либо настроек и режимов проверки;
  • проверка выполняется в режиме онлайн, то есть прямо в браузере;
  • возможность добавить проверку текста в очередь, не ожидая ее окончания;
  • размер текста для незарегистрированных пользователей — 2000, после регистрации — 15 000 знаков;
  • формирование ссылок на результаты проверок, доступ к ним;
  • возможность установить на своем сайте счетчик уникальности — своего рода защита против воров контента.

Content Watch

Перейти на официальный сайт Content Watch

Как и text.ru, этот сервис основан на корреляционном алгоритме. По результатам он нам показался очень похожим на вышеупомянутый инструмент. Особенности:

  • Без регистрации можно проверить до 5 текстов в день размером не более 3000 знаков. Зарегистрированным пользователям доступно 20 проверок по 20 000 знаков.
  • Платные тарифы, с которыми можно выполнять от 100 до 500 проверок в день и активировать функцию регулярной проверки страниц вашего сайта на уникальность.
  • Возможность проверять сайты, в том числе в пакетном режиме.

5. Настройка программ по проверке уникальности

Кроме размера шингла и поисковой фразы, существует еще ряд параметров, доступных в программах Advego Plagiatus и «eTXT Антиплагиат». Разберем самые важные из них:

  • Поисковые системы — помимо стандартного набора («Яндекс» и Google) программа может также поддерживать Yahoo, Bing и другие сервисы. Подключать их имеет смысл для текстов на иностранных языках, в противном случае вы только потеряете время.
  • Прокси — используя прокси-сервер, вы можете минимизировать риск бана вашего IP при проверке текстов. Чтобы активировать эту функцию, введите в соответствующих полях адрес сервера, порт, логин и пароль.
  • Антигейт — функция, позволяющая не вводить капчу самостоятельно. За вас это будут делать специально обученные люди за вполне разумные деньги. Чтобы воспользоваться этой возможностью, зарегистрируйтесь на сайте http://antigate.com/ или https://rucaptcha.com/, затем пополните счет, включите соответствующую службу в программе и введите свой персональный ключ.
  • Таймаут — время, в течение которого программа будет ждать ответа от запрашиваемого сайта. Увеличивать это значение следует при частом превышении интервала ожидания, уменьшать особого смысла нет — проверка будет проходить быстрее, но некоторые сайты могут не успеть ответить. По умолчанию таймаут в Advego Plagiatus составляет 15 с, в AntiPlagiarism.NET — 30 с.

6. Какая антиплагиат-система самая лучшая?

Любой опытный копирайтер вам скажет, что такой системы не существует — каждая из них имеет свои недостатки. Для большей части текстов мы рекомендуем (и пользуемся сами) AntiPlagiarism.NET («eTXT Антиплагиат») и Advego Plagiatus, которые давно развиваются и регулярно обновляются. Проверенные ими страницы хорошо ранжируются, поэтому у меня нет сомнений в их эффективности.

К плюсам этих систем можно отнести отсутствие ограничений по размеру и количеству проверок, к минусам — некоторые технические трудности, например, блокировку вашего IP поисковыми системами и необходимость вводить капчу. Решение этих вопросов — тема отдельной статьи. Если у вас нет желания этим заниматься, воспользуйтесь любым онлайновым сервисом. Я рекомендую бесплатный FindCopy или платный вариант AntiPlagiarism.NET, если проверять нужно много и часто.

Юрий Великанов

Комментарии

Внимание! Оставляя комментарии на этом сайте, Вы даете согласие на обработку своих персональных данных ИП «Великанова Алёна Олеговна» в соответствии с Федеральным законом № 152 «О защите персональных данных» на условиях, указанных здесь.