nakolesah.ru base Parser

Грабим nakolesah.ru

Un exemple de site analyseur nakolesah.ru

Ugh, dokrutil nakolesah analyseur à l'État présumé et sgrabil choix de pneus sur la voiture. Qui se soucie - une référence au script à la fin du jeûne.

Quelque chose en lui encore être modifié, pas vraiment j'aime la logique de l'actuelle, fondée sur l'EEG-demandes (alors que le navigateur reçoit toutes les informations se référant à l'ASP-script pour le transfert de divers paramètres dans les POST-demande). Je signale seulement à la fin, et nous devrions essayer de copier votre navigateur, mais le temps n'était pas particulièrement à comprendre.

Ce n'est pas comme une béquille en fonction du remplacement des noms de modèles de machines. Lorsque l'analyse nkolesah confrontés au problème (s'applique uniquement aux demandes GET-) marques différentes et des modifications des machines dans le bas-listes déroulantes et l'adresse de la page, par exemple:

  sous TransformModel ($$){
 my ($ marque, car_model $) = @ _;
	 $ Car_model s = ~ / - / / g, si la marque $! ~ / Saab | Jaguar | Nissan | Honda | Citroen | MG | Mercedes | Mazda | Ford / i;
	 $ Car_model = ~ s /[-+]/_/ g si la marque $! ~ / Citroën / i;

	 if ($ marque = ~ / Nissan / i) (
		 $ Car_model = ~ s/Z/350z/i;
		 Car_model $ = ~ s / GT_R / GTR / i;
	 )

	 $ Car_model = 'navigaror_1 «si la marque $ = ~ m # # i Lincoln et car_model $ eq' Navigator ';
	 $ Car_model 81ato = '% D1% Du «si la marque $ = ~ m # # Fiat i et $ car_model = ~ / dusato / i;

	 if ($ marque = ~ / Chery / i) (
		 $ Car_model = 'c_eastar «Si car_model $ eq' CrossEastar;
		 marque $ = $ Car_model .'_'.  $ Si $ Car_model car_model = ~ / kimo | qq \ d? / I;
	 )
 return $ car_model;
 ) 

Pleine de déchargement prend environ 12 heures d'un mode séquentiel (qui fonctionne dans un ruisseau, le client n'a pas besoin de multithreading, mais je n'avais pas le temps de mettre en ligne pour le plaisir). Si quelqu'un est artificiellement le déchargement et l'analyse de produire - de conseiller, par exemple, quatre copies du script et la dissolution du groupe les marques de véhicules en quatre groupes, respectivement (tous dans la base de données nakolesah 61 marque pour le moment). Vous pouvez utiliser la décomposition prêt, qui est le code que j'ai fait:

  # Ensuite, si la marque $! ~ / Rover | FAW | Volkswagen | Ferrari | Jaguar | Smart | Suzuki | Gaz | Bentley |
 Peugeot | Pontiac | Honda | Maybach | Vaz | Infiniti | Buick | Subaru / i;
 # Ensuite, si la marque $! ~ / Lancia | Opel | Daihatsu | Hummer | Kia | Fiat | Nissan | Saturn |
 Mini | | Hyundai | Renault | Citroen | Lincoln | Chevrolet Dodge / i;
 # Ensuite, si la marque $! ~ / Chery | Mazda | Ford | UAZ | Acura | Porsche | Lotus | Volvo | Toyota |
 Skoda | Cadillac | Scion | Saab | Mercury | Daewoo / i;
 # Ensuite, si la marque $! ~ / Chrysler | BMW | Isuzu | MG | Mercedes | GMC | Siège | Maserati |
 Mitsubishi | Jeep Lexus | | Audi | Lifan | Geely / i; 

Dans chacun des quatre exemplaires décommentez la fourchette souhaitée, les fichiers sont mieux décrites de différentes façons, parce que la sortie par défaut est un fichier nommé imya_skripta.xml (si vous pouvez avec un peu de clés zpuske sortie de transfert de fichiers).

Sur le chemin, ne skriptik pour valider les résultats de l'analyseur nakolesah.ru, une fois de plus se réjouissait de la beauté de la perle regulyarok:

  m | <(\ w +) \ s? \ w * *=?"? \ w "?> \ s * </ \ 1 ig> | $ 

on vérifie en ligne les balises sur l'occupation (tous pour le télécharger), comprend les balises avec des attributs et sans. résultats Validator déchargement nakolesah.ru peut être téléchargé avec l'analyseur.

Pour peu de plaisir statistiques sociales (qui peuvent tirer ponostalgirovat :) ):

  • base de données en XML net (sans les lignes vides):
      nakolesah.ru_full_base_4.12.2009.xml $ wc-l
     550657 nakolesah.ru_full_base_4.12.2009.xml 
  • 577 modèles de machines

Comme promis, le lien pour télécharger le parser-grabber site nakolesah.ru (sortie validateur réside également dans l'archive): + validateur nakolesah.ru_parser

Bonne chance!

Plus d'informations sur des sujets similaires:

Laisser un commentaire