Opcja 2: sam zmajstrowujesz sobie jakies skrypty w perlu, pythonie albo w innym ulubionym jezyku i ekstrachujesz artykuly. Tego chyba tez nie bedzie chcialo Ci sie robic.
Jestem fanem dosa. Intensywnie korzystam z batchy. Mam takiego progsa - gsar.exe - general search and replace utlility.
Plik sgl doprowadziłem do postaci, że mam w jednym wierszu jeden artykuł. Widzę, że są indywidualne cyfry-znaczniki dla artykułu, obrazka, dyskusji etc... Gorzej z sortowaniem bo najsilniejsze narzędzie, jakie posiadam sortuje do 32 kb w linii a niektore artykuly sa dluzsze. Zauwazylem tez, ze w jednym wierszu sa cztery znaczniki - niestety identyczne, w postaci:
','
1.znacznik artykulu 2. tresc 3. komentarze 4. smieci o dacie edycji, edytujacych itp.
no i tu utknalem. Cel jest nastepujacy: Miec plik ascii tylko z zawartoscia artykulow. Chce go miec aby zrobic np. statystyke bledow. Na razie znajduje rozne bledy i niestety wiekszosc z nich jest w innych miejscach niz artykuly i wale na slepo. Wyszukuje bledy, i co ktorys tylko okazuje sie bledem wartym poprawy. Pewnie zreszta zauwazyles, ze skacze ostatnio po roznych haslach - wlasnie tych, w ktorych znalazlem bledy.
Gdybym dysponowal tylko danymi z artykulow moglbym porobic sporo fajnych rzeczy.
Beno
ps. Uzywam w dosie jeszcze narzedzia rpsort.com - genialne, sortuje z roznymi opcjami (np. usuwanie duplikatow) a sortowanie pliku 15 MB to jest kilka sekund - wprost niewiarygodnie szybko.