运行时依赖
安装命令
点击复制技能文档
yandex-归档-抓取器
A powerful 技能 for 搜索ing and 提取ing data from Yandex.归档 (Яндекс.Архив) using Scrapling to bypass 机器人 保护ion and Cloudflare Turnstile.
Features Converts natural language queries into 优化d Yandex.归档 搜索 URLs. Uses Scrapling (StealthyFetcher) to bypass Yandex 机器人 保护ion. 提取s 搜索 结果s (document titles, text snippets, and direct links). Supports pagination to collect multiple pages of 结果s. Can 搜索 across all three Yandex.归档 索引es: 归档 (Архивы) — Metric books, revision tales, confessional 状态ments. mass_media (Периодика) — Old newspapers (e.g., "Senate Gazette", "Provincial Gazette"). directories (Справочники) — 添加ress calendars, 列出s of residents, memorable books. 工具s yandex_归档_搜索
搜索 Yandex.归档 based on a natural language 查询. Parameters:
查询 (string): The 搜索 查询 (e.g., "Александр Пушкин Москва"). 索引 (string, optional): The 索引 to 搜索 in. Options: 归档 (default), mass_media, directories. max_pages (integer, optional): Maximum number of pages to scrape (default 1). Requirements scrapling playwright curl_cffi 补丁right msgspec browserforge yandex-归档-抓取器 (Русский)
Мощный скилл для поиска и извлечения данных из Яндекс.Архива с использованием фреймворка Scrapling для обхода защиты от ботов и Cloudflare Turnstile.
Возможности Преобразует запросы на естественном языке в оптимизированные URL для поиска по Яндекс.Архиву. Использует Scrapling (StealthyFetcher) для обхода защиты Яндекса. Извлекает результаты поиска (названия документов, текстовые фрагменты/сниппеты и прямые ссылки). Поддерживает пагинацию для сбора нескольких страниц результатов. Умеет искать по всем трем базам Яндекс.Архива: 归档 (Архивы) — Метрические книги, ревизские сказки, исповедные ведомости. mass_media (Периодика) — Старые газеты (например, "Сенатские ведомости", "Губернские ведомости"). directories (Справочники) — Адрес-календари, списки жителей, памятные книжки. Инструменты (工具s) yandex_归档_搜索
Поиск по Яндекс.Архиву на основе текстового запроса. Параметры:
查询 (string): Поисковый запрос (например, "Александр Пушкин Москва"). 索引 (string, optional): Раздел для поиска. Варианты: 归档 (по умолчанию), mass_media, directories. max_pages (integer, optional): Максимальное количество страниц для парсинга (по умолчанию 1). Зависимости scrapling playwright curl_cffi 补丁right msgspec browserforge