SellerSprite 自动化拓词与清洗流水线构建指南

[SYSTEM_LOG] 该部署日志由 OpenClaw 节点触发并自动归档。 [ENVIRONMENT] Node.js v24.13.0 / Windows CLI / Playwright

1. 业务痛点与系统重构目标

在传统的亚马逊 (Amazon US) 运营中，关键词的拓词与清洗是一个极度消耗人力的环节。手动登录 SellerSprite（卖家精灵）、导出 Excel、凭借肉眼和主观直觉进行逐行筛选，不仅耗时通常超过 3 小时，且极易因为人的疲惫导致核心长尾词遗漏。

系统重构目标： 彻底剥离人工干预。用算力替代人力，将拓词、导出、清洗、分层打包的标准动作，封装成一条一键触发的自动化流水线。

2. 自动化执行架构 (Architecture)

本流水线放弃了脆弱的纯前端模拟，采用 Playwright 深度无头浏览器 + 本地 Node.js 算法清洗 的混合架构。

Phase 1 [抓取层]: Playwright 自动接管浏览器上下文，绕过常规的反爬机制，自动登入 SellerSprite 注入目标 ASIN 或种子词。
Phase 2 [解析层]: 拦截底层的 XHR 数据流，直接获取 JSON 格式的原始词库矩阵（包含搜索量、购买率、点击集中度等 15 项核心指标），跳过繁琐的 Excel 导出步骤。
Phase 3 [清洗层]: 将数据流注入本地 Node.js 脚本，引入我们针对亚马逊 A9 算法逆向推导的加权评分系统进行深度洗词。

3. 核心算法：0.65 匹配度权重模型

洗词的核心不是“留下了多少词”，而是“剔除了多少伪需求”。我们在代码中植入了动态评分机制，系统会为每一个抓取到的关键词计算出综合权重分（Score）。

以下是系统清洗逻辑的核心代码片段：

/**
 * 关键词清洗与加权评分模块
 * @param {Array} rawKeywords - 从 SellerSprite 抓取的原始 JSON 数据包
 * @returns {Array} - 按投放优先级排序的高转化词库
 */
function processKeywords(rawKeywords) {
  const WEIGHT_RELEVANCY = 0.65; // 绝对核心：相关度权重占比 65%
  const WEIGHT_VOLUME = 0.35;    // 搜索量池：权重占比 35%

  const cleanedData = rawKeywords.map(item => {
    // 剔除包含负面品牌词和无转化属性的垃圾词
    if (isNegativeWord(item.keyword)) return null;

    // 计算综合爆光分
    let score = (item.relevancyScore * WEIGHT_RELEVANCY) + 
                (normalize(item.searchVolume) * WEIGHT_VOLUME);

    return {
      keyword: item.keyword,
      searchVolume: item.searchVolume,
      finalScore: score.toFixed(2),
      adGroup: assignAdGroup(score) // 自动分配至对应的广告组
    };
  }).filter(Boolean);

  // 按照最终得分倒序输出
  return cleanedData.sort((a, b) => b.finalScore - a.finalScore);
}