Почему открытые источники стали ключевым фактором GEO
Generative Engine Optimization (GEO) — это дисциплина, которая отвечает на вопрос: почему ИИ-системы упоминают одни бренды, а другие игнорируют? Если в SEO мы работали с позициями в выдаче, то в GEO мы работаем с тем, попадает ли бренд в ответ языковой модели вообще.
Большинство крупных языковых моделей — GPT-4, Claude, Gemini — обучались на корпусах текстов, в которых открытые источники занимают непропорционально большую долю. Wikipedia, Wikidata, открытые академические базы, государственные реестры — всё это не просто «фоновый шум», а структурированный сигнал о том, что существует, кто что делает и насколько это заслуживает доверия. Именно поэтому geo авторитетность источника напрямую зависит от присутствия в этих базах.
Ключевой вывод: если о вашем бренде, продукте или экспертизе не написано в авторитетных открытых источниках, для языковой модели вы статистически «не существуете» или существуете с низкой степенью достоверности.
Как Wikipedia и ChatGPT связаны сильнее, чем кажется
Связь wikipedia и chatgpt — не маркетинговый миф. Исследователи неоднократно фиксировали: статьи Wikipedia входили в обучающие датасеты практически всех крупных LLM. При этом Wikipedia обладает рядом свойств, которые делают её особенно ценной для модели:
- Структурированность. Разделы, шаблоны, инфобоксы — модель легко извлекает факты: основатели, год создания, отрасль, ключевые продукты.
- Нейтральность тона. Wikipedia требует нейтральной точки зрения (НТЗ), поэтому её содержимое воспринимается моделью как более достоверное по сравнению с коммерческими сайтами.
- Перекрёстные ссылки. Статья о компании, связанная со статьями об отрасли, персонах и событиях, создаёт граф знаний — именно он формирует «контекстный вес» бренда.
Важно понимать: языковые модели не «ходят» в Wikipedia в реальном времени (если нет плагина поиска). Они воспроизводят паттерны из обучающих данных. Но Perplexity, Bing Copilot и ряд других систем используют Wikipedia как живой источник при RAG-генерации (retrieval-augmented generation) — то есть подтягивают статьи прямо в момент формирования ответа. Это делает присутствие в открытых источниках нейросети критичным не только для «старых» моделей, но и для актуальных поисковых ИИ-систем.
Не хотите разбираться сами?
Divitio закроет задачу под ключ — Яндекс ИИ и нейросети: видимость бренда в генеративном поиске. Аудит и план работ — бесплатно.
Обсудить проект →Что конкретно читают нейросети: карта открытых источников
Чтобы грамотно выстраивать стратегию, нужно понимать, какие именно открытые источники нейросети используют чаще всего:
- Wikipedia и Wikimedia-проекты (Wikidata, Wikiquote, Wikisource) — базовый слой знаний о сущностях.
- Common Crawl — архив публичного веба; сюда попадают СМИ, блоги, форумы.
- arXiv, PubMed, Semantic Scholar — академические источники; критичны для медицины, науки, технологий.
- Государственные реестры и открытые данные (data.gov, открытые данные Минэкономики РФ и пр.) — подтверждают легальность и масштаб бизнеса.
- Новостные агрегаторы и крупные СМИ — РБК, Forbes, Коммерсантъ, TechCrunch — они попадают в Common Crawl и формируют медиавес бренда.
Для российского бизнеса особенно актуально присутствие в русскоязычном сегменте Wikipedia и в ведущих деловых СМИ, которые активно индексируются и архивируются.
Практическая стратегия: как использовать wikipedia для geo
Использование wikipedia для geo — это не «заказ статьи на бирже». Wikipedia имеет строгие правила значимости, и нарушение их ведёт к удалению материала и репутационным рискам. Вот легитимная последовательность действий:
- Шаг 1. Проверьте критерии значимости. Для компании нужны независимые публикации в авторитетных СМИ (не пресс-релизы). Для персоны — подтверждённые достижения, упоминания в источниках с редакционной политикой.
- Шаг 2. Соберите источниковую базу до написания статьи. Минимум 3–5 независимых публикаций в изданиях с редакцией. Без этого статья будет удалена как «незначимая».
- Шаг 3. Создайте Wikidata-запись. Wikidata — машиночитаемый граф знаний, который напрямую используется в RAG-системах. Запись можно создать даже без Wikipedia-статьи.
- Шаг 4. Добавьте бренд в существующие тематические статьи. Упоминание в разделе «известные компании» отраслевой статьи — законный и часто более устойчивый способ присутствия.
- Шаг 5. Поддерживайте актуальность. Устаревшие данные в Wikipedia снижают доверие модели к информации о вас.
Если вы хотите выстроить системную работу с цитируемостью в ИИ-поиске, ознакомьтесь с тем, как устроена GEO-стратегия для бизнеса — там же можно оценить текущий уровень присутствия бренда в ответах языковых моделей.
Ошибки, которые уничтожают цитируемость в ai
Цитируемость в ai формируется годами и разрушается быстро. Вот типичные ошибки, которые совершают бренды:
- Рекламный тон в Wikipedia. Фразы «лидер рынка», «инновационное решение», «лучший в отрасли» — прямой путь к удалению статьи и блокировке аккаунта. Нейтральность обязательна.
- Ссылки только на собственные ресурсы. Если все источники в статье — это сайт компании и её пресс-релизы, Wikipedia-редакторы пометят материал как рекламный.
- Игнорирование Wikidata. Многие бренды создают Wikipedia-статью, но не заполняют структурированные данные в Wikidata. Именно Wikidata используется в knowledge graph Google и в ряде RAG-систем.
- Отсутствие медиаприсутствия перед созданием статьи. Попытка «создать значимость через Wikipedia» не работает — должна быть первична реальная медиаактивность.
- Единоразовый подход. GEO — это не разовая задача. Открытые источники нужно регулярно обновлять, следить за точностью данных и наращивать упоминаемость в СМИ.
Медиаприсутствие как основа авторитетности для ИИ
Wikipedia — важный, но не единственный рычаг. Geo авторитетность источника складывается из совокупности сигналов: количества упоминаний в независимых изданиях, разнообразия контекстов (бренд упоминается в разных темах и в разных ролях), а также качества изданий, которые о вас пишут.
Для языковой модели «авторитет» — это статистическая частота совместного появления вашего бренда с релевантными концепциями в достоверных источниках. Чем чаще Forbes пишет о вашей компании в контексте e-commerce, тем выше вероятность, что модель упомянет вас, отвечая на вопрос об e-commerce-игроках.
Практические инструменты наращивания медиаприсутствия: экспертные колонки в деловых СМИ, участие в отраслевых рейтингах (с публичными результатами), партнёрские материалы с редакционным контролем, участие в конференциях с публикацией тезисов. Всё это создаёт «след» в открытом вебе, который попадает в обучающие данные и в реальном времени подтягивается поисковыми ИИ-системами.
Если вы работаете над комплексным продвижением, имеет смысл объединить работу с открытыми источниками с SEO-стратегией: органическая видимость в поиске и цитируемость в ИИ взаимно усиливают друг друга — хорошо ранжирующийся контент активнее попадает в RAG-выборку. А для автоматизации мониторинга упоминаний бренда в ИИ-ответах стоит рассмотреть AI-автоматизацию рутинных процессов сбора данных.
Частые вопросы
Можно ли создать Wikipedia-статью о небольшой компании?
Да, если компания соответствует критериям значимости: есть независимые публикации в авторитетных СМИ, а не только пресс-релизы. Размер компании сам по себе не критерий — важна медийная значимость.
Влияет ли Wikidata на ответы ChatGPT напрямую?
Напрямую — только в системах с поиском в реальном времени (Perplexity, Bing Copilot). Для «статичных» моделей Wikidata влияла через обучающие данные. В обоих случаях наличие структурированной записи повышает шанс точного и корректного упоминания бренда.
Сколько времени занимает рост цитируемости в ИИ через открытые источники?
Для систем с живым поиском (RAG) — эффект заметен в течение нескольких недель после появления материалов в индексе. Для моделей на статичных весах — только после переобучения, которое происходит раз в несколько месяцев или реже. Именно поэтому начинать работу с открытыми источниками нужно сейчас, а не перед следующим обновлением модели.