change(indieblog): enable refreshing feed with a certain date

This commit is contained in:
SansGuidon 2025-04-02 05:01:43 +00:00
parent f5402ded20
commit ba8e8f5fb8

View File

@ -1,12 +1,26 @@
<?php
// php /app/data/scripts/generate_indieblog_daily_rss.php dry-run max-results=150
// php /app/data/scripts/generate_indieblog_daily_rss.php dry-run max-results=150 date=YYYY-MM-DD
// Configuration
$jsonUrl = "https://indieblog.page/export";
$rssFile = "/app/data/public/indieblogv2_feed.xml";
$cacheFile = "/app/data/cache/indieblogv2_cache.txt";
$cutoffDate = strtotime('-10 days'); // Seulement les 10 derniers jours
$cutoffDate = strtotime('-10 days'); // Only last 10 days
// Liste des mots/expressions à exclure (insensibilité à la casse activée avec `(?i)`)
// Allow target date override via CLI: date=YYYY-MM-DD
$targetDate = null;
if (PHP_SAPI === 'cli') {
foreach ($argv as $arg) {
if (preg_match('/^date=(\d{4}-\d{2}-\d{2})$/', $arg, $matches)) {
$targetDate = $matches[1];
break;
}
}
}
if (!$targetDate) {
$targetDate = date('Y-m-d');
}
// List of exclude patterns (case insensitive)
$excludePatterns = [
'(?i)(azure|powershell|rimworld|Olympique|Olympic|Paris 2024|sportif|windows|twitter|freebsd|mastodon|kirby|flask|wp engine|cobol)',
'(?i)(metalcore|deathcore|death metal|black metal|death punk|deathpunk|djent|blackmetal|blackened|bitcoin)',
@ -20,42 +34,32 @@ $excludePatterns = [
'(?i)(Review: (?:[1-3]\.\d|[1-2]\.\d|3\.0)/5\.0|licenciement|misère|du jamais vu|il faut|Palestiniens|israél|palestine|vaccin|mpox|épidémie|violeur|rapist|pédo|criminel|poutine|le RN)',
'(?i)(réseau social x|gendarme|policier|kurde|condamnation|perquisition|incendi|gabriel attal|attaqué|justice|tués par|tué par|snapdragon|qualcomm|porn|barnier|occultes|désinformation|immigration|racism|spacex|islam|condamné|de viol|pour viol)',
// Années au début, à la fin, ou précédées de "at/in/of", ou au milieu des titres spécifiques
// Year-related filters
'(?i)(\b\d{4}\b|(?:\b(?:at|in|of)\s\d{4}\b)|(?:\b\d{4}\b\.$|\(\d{4}\)))',
'(?i)(^202\d\b|\b202\d$)', // Titre commençant ou terminant par 202x
'(?i)(\bin\s202\d|\bat\s202\d)', // "in/at 202x"
'(?i)(my\s.*\b202\d\b)', // Titres contenant "My ... 202x"
// Exclusion des titres contenant des caractères non-latins (Unicode étendu)
'[^\x00-\x7F]', // Tous les caractères non-ASCII (inclut Unicode comme chinois, cyrillique, etc.)
'[\p{Cyrillic}]', // Caractères cyrilliques (russe, ukrainien, etc.)
'[\p{Greek}]', // Alphabet grec
'[\p{Han}\p{Hiragana}\p{Katakana}]', // Chinois, japonais, coréen
'[äöüßÄÖÜẞ]', // Allemand (umlauts et eszett)
// Titres spécifiques
'(?i)(വേമ്പനാട്ട്)', // Malayâlam
// Week notes et expressions relatives au nouvel an
'(?i)(^202\d\b|\b202\d$)',
'(?i)(\bin\s202\d|\bat\s202\d)',
'(?i)(my\s.*\b202\d\b)',
// Exclude non-ASCII characters, Cyrillic, Greek, Han, etc.
'[^\x00-\x7F]',
'[\p{Cyrillic}]',
'[\p{Greek}]',
'[\p{Han}\p{Hiragana}\p{Katakana}]',
'[äöüßÄÖÜẞ]',
'(?i)(വേമ്പനാട്ട്)',
'(?i)(the week|week notes|weekly|weeknote|digest)',
'(?i)(new year|yearly)',
// Mentions de jours ou mois (en anglais), ou relatifs au temps
'(?i)(monday|tuesday|wednesday|thursday|friday|saturday|sunday)',
'(?i)(january|february|march|april|may|june|july|august|september|october|november|december)',
'(?i)(today|yesterday|tomorrow|this year|this week)',
// "Merry Christmas"
'(?i)(merry christmas)'
];
// Corrige les barres obliques pour qu'elles ne cassent pas `preg_match`
// Fix slashes for regex
$excludePatterns = array_map(fn($pattern) => str_replace('/', '\/', $pattern), $excludePatterns);
// Crée une expression régulière unique pour matcher toutes les exclusions
$excludeRegex = '/' . implode('|', $excludePatterns) . '/i';
// Vérifier si le script est en mode dry run
// Check for dry-run mode
$isDryRun = in_array('dry-run', $argv);
$maxResults = 100; // Limite par défaut pour la sortie
$maxResults = 100; // Default limit
foreach ($argv as $arg) {
if (preg_match('/^max-results=(\d+)$/', $arg, $matches)) {
$maxResults = (int)$matches[1];
@ -73,7 +77,7 @@ if (!$data) die("Error: Invalid JSON data from $jsonUrl\n");
$includedIds = file_exists($cacheFile) ? file($cacheFile, FILE_IGNORE_NEW_LINES) : [];
// Filtrer les articles récents, non déjà inclus, et ne contenant pas de termes exclus
// Filter recent articles, not already included, and not matching exclude regex
$newItems = [];
$excludedItems = [];
@ -81,11 +85,9 @@ foreach ($data as $item) {
if (!isset($item['published'], $item['itemid'], $item['itemtitle'])) {
continue;
}
$published = $item['published'];
$itemId = $item['itemid'];
$itemTitle = $item['itemtitle'];
if (in_array($itemId, $includedIds) || $published < $cutoffDate || preg_match($excludeRegex, $itemTitle)) {
$excludedItems[] = $item;
} else {
@ -96,18 +98,15 @@ foreach ($data as $item) {
usort($newItems, fn($a, $b) => $b['published'] <=> $a['published']);
usort($excludedItems, fn($a, $b) => $b['published'] <=> $a['published']);
// Dry run: display filtered items
if ($isDryRun) {
// Mode dry-run : afficher les entrées incluses et exclues
echo "=== Dry Run Mode ===\n";
$showIncluded = array_slice($newItems, 0, $maxResults);
$showExcluded = array_slice($excludedItems, 0, $maxResults);
echo "Filtered IN (" . count($newItems) . " total, showing up to $maxResults):\n";
foreach ($showIncluded as $item) {
echo "- " . ($item['itemtitle'] ?? 'No title') . "\n";
}
echo "\nFiltered OUT (" . count($excludedItems) . " total, showing up to $maxResults):\n";
foreach ($showExcluded as $item) {
echo "- " . ($item['itemtitle'] ?? 'No title') . "\n";
@ -115,12 +114,15 @@ if ($isDryRun) {
exit(0);
}
// Groupement par jour pour les nouveaux éléments
// Group items only for the target date
$groupedByDay = [];
foreach ($newItems as $item) {
$day = isset($item['published']) && is_numeric($item['published'])
? date('Y-m-d', $item['published'])
: date('Y-m-d');
if ($day !== $targetDate) {
continue;
}
$groupedByDay[$day][] = $item;
}
@ -141,19 +143,16 @@ foreach ($groupedByDay as $day => $items) {
$rssItem->addChild('link', "https://indieblog.page/$day#" . md5(json_encode($items)));
$rssItem->addChild('guid', "https://indieblog.page/$day#" . md5(json_encode($items)));
$rssItem->addChild('pubDate', date(DATE_RSS, strtotime($day)));
$description = "<ul>";
foreach ($items as $item) {
$postTitle = htmlspecialchars($item['itemtitle'] ?? 'No title', ENT_XML1);
$postUrl = htmlspecialchars($item['itemurl'] ?? '#', ENT_XML1);
$blogTitle = htmlspecialchars($item['feedtitle'] ?? 'Unknown Blog', ENT_XML1);
$blogUrl = htmlspecialchars($item['feedurl'] ?? '#', ENT_XML1);
$description .= "<li><a href=\"$postUrl\">$postTitle</a> (<a href=\"$blogUrl\">$blogTitle</a>)</li>";
$newEntries[] = $item['itemid'];
}
$description .= "</ul>";
addCData($rssItem->addChild('description'), $description);
}
@ -169,3 +168,4 @@ function addCData(SimpleXMLElement $node, $content)
$domOwner = $domNode->ownerDocument;
$domNode->appendChild($domOwner->createCDATASection($content));
}
?>