SellerSprite 自动化拓词与清洗流水线构建指南
[SYSTEM_LOG] 该部署日志由 OpenClaw 节点触发并自动归档。 [ENVIRONMENT] Node.js v24.13.0 / Windows CLI / Playwright
1. 业务痛点与系统重构目标
在传统的亚马逊 (Amazon US) 运营中,关键词的拓词与清洗是一个极度消耗人力的环节。手动登录 SellerSprite(卖家精灵)、导出 Excel、凭借肉眼和主观直觉进行逐行筛选,不仅耗时通常超过 3 小时,且极易因为人的疲惫导致核心长尾词遗漏。
系统重构目标: 彻底剥离人工干预。用算力替代人力,将拓词、导出、清洗、分层打包的标准动作,封装成一条一键触发的自动化流水线。
2. 自动化执行架构 (Architecture)
本流水线放弃了脆弱的纯前端模拟,采用 Playwright 深度无头浏览器 + 本地 Node.js 算法清洗 的混合架构。
- Phase 1 [抓取层]: Playwright 自动接管浏览器上下文,绕过常规的反爬机制,自动登入 SellerSprite 注入目标 ASIN 或种子词。
- Phase 2 [解析层]: 拦截底层的 XHR 数据流,直接获取 JSON 格式的原始词库矩阵(包含搜索量、购买率、点击集中度等 15 项核心指标),跳过繁琐的 Excel 导出步骤。
- Phase 3 [清洗层]: 将数据流注入本地 Node.js 脚本,引入我们针对亚马逊 A9 算法逆向推导的加权评分系统进行深度洗词。
3. 核心算法:0.65 匹配度权重模型
洗词的核心不是“留下了多少词”,而是“剔除了多少伪需求”。我们在代码中植入了动态评分机制,系统会为每一个抓取到的关键词计算出综合权重分(Score)。
以下是系统清洗逻辑的核心代码片段:
/**
* 关键词清洗与加权评分模块
* @param {Array} rawKeywords - 从 SellerSprite 抓取的原始 JSON 数据包
* @returns {Array} - 按投放优先级排序的高转化词库
*/
function processKeywords(rawKeywords) {
const WEIGHT_RELEVANCY = 0.65; // 绝对核心:相关度权重占比 65%
const WEIGHT_VOLUME = 0.35; // 搜索量池:权重占比 35%
const cleanedData = rawKeywords.map(item => {
// 剔除包含负面品牌词和无转化属性的垃圾词
if (isNegativeWord(item.keyword)) return null;
// 计算综合爆光分
let score = (item.relevancyScore * WEIGHT_RELEVANCY) +
(normalize(item.searchVolume) * WEIGHT_VOLUME);
return {
keyword: item.keyword,
searchVolume: item.searchVolume,
finalScore: score.toFixed(2),
adGroup: assignAdGroup(score) // 自动分配至对应的广告组
};
}).filter(Boolean);
// 按照最终得分倒序输出
return cleanedData.sort((a, b) => b.finalScore - a.finalScore);
}