Ожидаемый основной метод деанонимизации на машинном обучении

Материал из Викиреальностя
Перейти к: навигация, поиск
Research.png эта статья — авторское исследование; in a nutshell: mind > facts

Ожидаемый основной метод деанонимизации на машинном обучении — применение методов машинного обучения для выявления обхода блокировки в Википедии.

Разработчики Википедии сообщили о намерении внедрить систему деанонимизации виртуалов на базе искусственного интеллекта на машинном обучении. Такие алгоритмы уже существуют в Википедии для отката ботами правок напоминающих вандальные. Однако использование новой системы в корне меняет принципы обнаружения виртуалов, так как фактически используется автоматизированный вариант ВП:УТКА и деанонимизация не имеет никакого отношения к вашим IP, юзерагентам и т. п. Кроме текста еще использоваться будет время редактирования как параметр машинного обучения (тайминг правок). Предположительная дата внедрения алгоритмов — в течении 2022 года.

Содержание

[править] Кроме сокращения размера текста до менее 500 слов нет защиты от Искусственного Интеллекта на сопоставление авторства текстов

Профессиональный лексический анализ позволяет выявлять авторов по стилю лучше чем по отпечаткам пальцев. Если не принимать мер, то лингвист способен с вероятностью 95-98 % установить авторство текста.

Чекюзерами Англовики использовали частотный анализ tf-idf с 2008 года. Однако машинное обучение является принципиально более эффективным для выявления виртуалов, чем примитивный частотный анализ. Если частотный анализ требует экспертных знаний для сравнения частотных спектров в разных образцах текста, то Искусственный Интеллект может сразу выдать вероятность совпадения авторства в процентах.

Лингвисты-криминалисты обычно указывают, что при отсутствии явных признаков, установка авторства текста невозможна для фрагментов короче 500 слов. 98 % вероятность установки авторства достижима по образцам от 10.000 слов.

Машинное обучение чрезвычайно эффективно и никаких мер кроме как сокращение блоков текста от лица одного пользователя до 500 слов и короче не существует. Поэтому рекомендуется редактировать строго от лица анонимных пользователей и сменять IP или регистрировать нового пользователя через указанный лимит или выявление Искусственным Интеллектом, что именно вы автор текста от лица нескольких виртуалов неизбежно.

[править] Анализ по времени редактирования

Одним из простых средств выявления совпадения аккаунтов является анализ времени редактирования. Такая практика описана в примерной инструкции чекюзера Англовики с 2008 года. Однако, Википедия планирует включить тайминг редактирования в параметры машинного обучения для идентификации автора текста, так как кроме самих выражений время между правками является хорошим маркером автора.

Это означает, что нужно стараться внести свои правки сразу же без промежуточных редакций и лучше подготовить свой вариант текста в какой-то «вики-песочнице».

[править] Анализ на совпадающие статьи для виртуалов

Один из базовых критериев машинного обучения — сравнение статей где два подозреваемых пользователя делали правки. В связи с этим нельзя одним виртуалом править более 1й статьи с пересечением или резко повышается вероятность деанонимизации.

[править] Формирование базы текстов на известных кукловодов

Машинное обучение — довольно ресурсоемкий процесс. Для обхода его Википедия предлагает в специальное хранилище вручную Сообществом отправлять правки известных виртуалов для обучения на них искусственного интеллекта. В связи с этим крайне важно разорвать свой вклад на множество пользователей или анонимов, то есть увеличение базы текста достоверно принадлежащего вам крайне быстро повышает вероятность срабатывания искусственного интеллекта на вас до более чем 90 %.

[править] См. также