Каталог аккумуляторов с avtoakkumulator.ru

Выкачивал для своих нужд каталог автомобильных аккумуляторов по производителям с сайта avtoakkumulator.ru — выкладываю, может кому-то для чего-нибудь понадобится: скачать каталог avtoakkumulator.ru

Выглядит выгруженный каталог следующим образом:

<!-- Banner всего: 108 -->
<brand name="Banner">
 <model name="UNI BULL, 50500, 010505000101">
   <capacity>80</capacity>
   <cranking>
    <en>700</en>
    <sae>750</sae>
    <din>440</din>
   </cranking>
   <dimensions>278*175*190</dimensions>
   <Исполнение днищевой планки>выступ с 4 сторон</Исполнение днищевой планки>
   <Напряжение>12 В</Напряжение>
   <Полярность>универсальная полярность</Полярность>
   <Расположение клемм>утопленные</Расположение клемм>
   <Тип клемм>комбинированные</Тип клемм>
 </model>

Пользуйтесь, кому нужно :)
P.S. При необходимости «почистить» теги XML от пробелов и другого мусора — см. ниже.

#!/usr/bin/perl
#=========================================================
#         FILE:  xmlcleaner.pl
#        USAGE:  cat input_file*.xml | sed '/<!--/'d | ./xmlcleaner.pl output_file.xml
#      VERSION:  0.2
#=========================================================
use warnings;
use strict;
use encoding 'utf8', STDOUT => 'utf8';

my $outfile = shift || die "enter outfile name\n";

open(OUT, '>', $outfile) or die "Can't open $outfile: $!\n";

print OUT '<?xml version="1.0" encoding="UTF-8"?>',"\n\n";
print OUT '<root>',"\n\n";

while (my $line = <>) {
    chomp($line);

    if ($line =~ /^(\s*)(<.+?>)(.+?<\/)(.+?>)$/) {
        my ($indent, $first, $middle, $end) = ($1, $2, $3, $4);

        #(.,;:/\)
        $first =~ s/\s/_/g;
        $first =~ s/[\.,:;\\\/\(\)]//g;

        $end =~ s/\s/_/g;
        $end =~ s/[\.,:;\\\/\(\)]//g;

        $line = $indent . $first . $middle . $end;
    }

    print OUT $line,"\n";

}

print OUT '</root>',"\n\n";

close(OUT);
exit 0;

Еще на похожие темы:

Leave a Reply