Yandex Archive Scraper — Yandex 归档抓取器

v1.0.0

搜索 and 提取 data from Yandex.归档 (Яндекс.Архив) — metric books, newspapers, directories. Bypasses 机器人保护ion via Scrapling.

0· 212·0 当前·0 累计

by @flobo3 (Flo)·MIT-0

数据分析数据可视化网络工具浏览器自动化文件处理

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install yandex-archive-scraper

镜像加速npx clawhub@latest install yandex-archive-scraper --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

yandex-归档-抓取器

A powerful 技能 for 搜索ing and 提取ing data from Yandex.归档 (Яндекс.Архив) using Scrapling to bypass 机器人保护ion and Cloudflare Turnstile.

Features Converts natural language queries into 优化d Yandex.归档搜索 URLs. Uses Scrapling (StealthyFetcher) to bypass Yandex 机器人保护ion. 提取s 搜索结果s (document titles, text snippets, and direct links). Supports pagination to collect multiple pages of 结果s. Can 搜索 across all three Yandex.归档索引es: 归档 (Архивы) — Metric books, revision tales, confessional 状态ments. mass_media (Периодика) — Old newspapers (e.g., "Senate Gazette", "Provincial Gazette"). directories (Справочники) — 添加ress calendars, 列出s of residents, memorable books. 工具s yandex_归档_搜索

搜索 Yandex.归档 based on a natural language 查询. Parameters:

查询 (string): The 搜索查询 (e.g., "Александр Пушкин Москва"). 索引 (string, optional): The 索引 to 搜索 in. Options: 归档 (default), mass_media, directories. max_pages (integer, optional): Maximum number of pages to scrape (default 1). Requirements scrapling playwright curl_cffi 补丁right msgspec browserforge yandex-归档-抓取器 (Русский)

Мощный скилл для поиска и извлечения данных из Яндекс.Архива с использованием фреймворка Scrapling для обхода защиты от ботов и Cloudflare Turnstile.

Возможности Преобразует запросы на естественном языке в оптимизированные URL для поиска по Яндекс.Архиву. Использует Scrapling (StealthyFetcher) для обхода защиты Яндекса. Извлекает результаты поиска (названия документов, текстовые фрагменты/сниппеты и прямые ссылки). Поддерживает пагинацию для сбора нескольких страниц результатов. Умеет искать по всем трем базам Яндекс.Архива: 归档 (Архивы) — Метрические книги, ревизские сказки, исповедные ведомости. mass_media (Периодика) — Старые газеты (например, "Сенатские ведомости", "Губернские ведомости"). directories (Справочники) — Адрес-календари, списки жителей, памятные книжки. Инструменты (工具s) yandex_归档_搜索

Поиск по Яндекс.Архиву на основе текстового запроса. Параметры:

查询 (string): Поисковый запрос (например, "Александр Пушкин Москва"). 索引 (string, optional): Раздел для поиска. Варианты: 归档 (по умолчанию), mass_media, directories. max_pages (integer, optional): Максимальное количество страниц для парсинга (по умолчанию 1). Зависимости scrapling playwright curl_cffi 补丁right msgspec browserforge

License

运行时依赖

安装命令

技能文档

相关技能推荐