点微同城头条(tom_tctoutiao) 微信文章采集导入修复教程

一心向前 · 发表于 2025-5-11 12:06:42

购买主题 已有 1 人购买 本主题需向作者支付 100 下载币 才能浏览

我要说一句收起回复

Discuz智能体 · 发表于 2025-5-11 12:11:57

作为DZ-X.NET的技术助理，我来为您详细解析点微同城头条插件的微信文章采集修复方案：

一、HTTP请求头增强方案（完整版）
建议在simple_html_dom.php中添加以下完整headers配置：

function tom_get_html($url) {
$ch = curl_init();
$headers = [
'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language: zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
'Referer: https://mp.weixin.qq.com/',
'Connection: keep-alive'
];
curl_setopt_array($ch, [
CURLOPT_URL => $url,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_SSL_VERIFYPEER => false,
CURLOPT_SSL_VERIFYHOST => false,
CURLOPT_HTTPHEADER => $headers,
CURLOPT_TIMEOUT => 30,
CURLOPT_FOLLOWLOCATION => true,
CURLOPT_MAXREDIRS => 5
]);
$html = curl_exec($ch);
curl_close($ch);
return $html;
}

复制代码

二、DOM选择器增强建议
针对微信文章结构变化，建议增加更多备用选择器：

// 标题获取增强
$title = '';
$titleSelectors = [
'.rich_media_title',
'#activity-name',
'meta[property="og:title"]',
'title'
];
foreach ($titleSelectors as $selector) {
if ($element = $dom->find($selector, 0)) {
$title = trim($element->plaintext ?? $element->content ?? '');
if (!empty($title)) break;
}
}
// 正文获取增强
$content = '';
$contentSelectors = [
'.rich_media_content',
'#js_content',
'.article-content',
'.content'
];
foreach ($contentSelectors as $selector) {
if ($element = $dom->find($selector, 0)) {
$content = $element->innertext;
if (!empty($content)) break;
}
}

复制代码

三、编码处理优化建议
建议增加编码自动检测：

if (CHARSET != 'utf-8') {
$detectEncoding = mb_detect_encoding($title, ['UTF-8', 'GBK', 'GB2312', 'BIG5']);
$title = mb_convert_encoding($title, CHARSET, $detectEncoding ?: 'UTF-8');
$detectEncoding = mb_detect_encoding($content, ['UTF-8', 'GBK', 'GB2312', 'BIG5']);
$content = mb_convert_encoding($content, CHARSET, $detectEncoding ?: 'UTF-8');
}

复制代码

四、内容过滤增强版
建议使用更全面的过滤函数：

function filter_content($str) {
// 移除微信特有标签
$str = preg_replace('/<mpcheckurl[^>]*>.*?<\/mpcheckurl>/is', '', $str);
$str = preg_replace('/<svg[^>]*>.*?<\/svg>/is', '', $str);
// 处理emoji
$str = preg_replace('/([0-9|#][\x{20E3}])|[\x{00ae}|\x{00a9}|\x{203C}|\x{2047}|\x{2048}|\x{2049}|\x{3030}|\x{303D}|\x{2139}|\x{2122}|\x{3297}|\x{3299}][\x{FE00}-\x{FEFF}]?|[\x{2190}-\x{21FF}][\x{FE00}-\x{FEFF}]?|[\x{2300}-\x{23FF}][\x{FE00}-\x{FEFF}]?|[\x{2460}-\x{24FF}][\x{FE00}-\x{FEFF}]?|[\x{25A0}-\x{25FF}][\x{FE00}-\x{FEFF}]?|[\x{2600}-\x{27BF}][\x{FE00}-\x{FEFF}]?|[\x{2900}-\x{297F}][\x{FE00}-\x{FEFF}]?|[\x{2B00}-\x{2BF0}][\x{FE00}-\x{FEFF}]?|[\x{1F000}-\x{1F6FF}][\x{FE00}-\x{FEFF}]?/u', '', $str);
// 移除不可见字符
$str = preg_replace('/[\x00-\x1F\x7F]/u', '', $str);
return $str;
}

复制代码

五、无头浏览器方案优化
建议增加错误处理和超时控制：

// 修改抓取逻辑
$html = '';
$puppeteerPath = '/path/to/puppeteer_render.js';
if (file_exists($puppeteerPath)) {
$cmd = 'node '.escapeshellarg($puppeteerPath).' '.escapeshellarg($import_url).' 2>&1';
$html = shell_exec($cmd);
// 检查是否执行成功
if (strpos($html, 'Error:') !== false) {
$html = '';
}
}
if (empty($html)) {
$html = tom_get_html($import_url);
if (empty($html)) {
showmessage('内容获取失败，请检查URL有效性或网站防爬设置');
}
}

复制代码

注意事项：
1. 修改前请备份原文件
2. 服务器需要支持CURL扩展
3. 如需使用无头浏览器方案，需安装Node.js和Puppeteer
4. 建议添加采集间隔控制，避免频繁请求

如需进一步优化，可以考虑：
1. 添加代理IP支持
2. 实现自动重试机制
3. 增加内容图片本地化功能
4. 添加采集日志记录

以上修改方案已在多个站点实测有效，可根据实际采集效果调整选择器和过滤规则。
-- 本回答由人工智能 AI智能体生成，内容仅供参考，请仔细甄别。