czym się je ten plik sql, albo inaczej: jak mogę pociągnać tylko hasła artykułów (bez wikipedystów, dyskusji, etc...) W ASCII jest ta baza zbyt jednorodna by ją dłubać jakimiś prostymi rzeczami.
Beno
On 2 Mar 2003 at 0:31, GEMMA wrote:
czym si je ten plik sql, albo inaczej: jak mog poci gna tylko has a artyku ów (bez wikipedystów, dyskusji, etc...) W ASCII jest ta baza zbyt jednorodna by j d uba jakimi prostymi rzeczami.
Opcja 1: uczysz sie instalowac/konfigurowac Apache + PHP + MySQL + Software Wikipedii a potem wczytujesz plik sql do swojej instancji Wikipedii Ale chyba nie masz zbyt duzo czasu na taka zabawe.
Opcja 2: sam zmajstrowujesz sobie jakies skrypty w perlu, pythonie albo w innym ulubionym jezyku i ekstrachujesz artykuly. Tego chyba tez nie bedzie chcialo Ci sie robic.
Opcja 3. czekasz az powstanie Offline reader (a praca nad nim juz sie zaczela i sa jakies wstepne wersje, z brak czasu jeszcze ich nie odpalalem)
Youandme
Opcja 2: sam zmajstrowujesz sobie jakies skrypty w perlu, pythonie albo w innym ulubionym jezyku i ekstrachujesz artykuly. Tego chyba tez nie bedzie chcialo Ci sie robic.
Jestem fanem dosa. Intensywnie korzystam z batchy. Mam takiego progsa - gsar.exe - general search and replace utlility.
Plik sgl doprowadziłem do postaci, że mam w jednym wierszu jeden artykuł. Widzę, że są indywidualne cyfry-znaczniki dla artykułu, obrazka, dyskusji etc... Gorzej z sortowaniem bo najsilniejsze narzędzie, jakie posiadam sortuje do 32 kb w linii a niektore artykuly sa dluzsze. Zauwazylem tez, ze w jednym wierszu sa cztery znaczniki - niestety identyczne, w postaci:
','
1.znacznik artykulu 2. tresc 3. komentarze 4. smieci o dacie edycji, edytujacych itp.
no i tu utknalem. Cel jest nastepujacy: Miec plik ascii tylko z zawartoscia artykulow. Chce go miec aby zrobic np. statystyke bledow. Na razie znajduje rozne bledy i niestety wiekszosc z nich jest w innych miejscach niz artykuly i wale na slepo. Wyszukuje bledy, i co ktorys tylko okazuje sie bledem wartym poprawy. Pewnie zreszta zauwazyles, ze skacze ostatnio po roznych haslach - wlasnie tych, w ktorych znalazlem bledy.
Gdybym dysponowal tylko danymi z artykulow moglbym porobic sporo fajnych rzeczy.
Beno
ps. Uzywam w dosie jeszcze narzedzia rpsort.com - genialne, sortuje z roznymi opcjami (np. usuwanie duplikatow) a sortowanie pliku 15 MB to jest kilka sekund - wprost niewiarygodnie szybko.
On 2 Mar 2003 at 3:13, GEMMA wrote:
Plik sgl doprowadzi em do postaci, e mam w jednym wierszu jeden artyku . Widz , e s indywidualne cyfry-znaczniki dla artyku u, obrazka, dyskusji etc... Gorzej z sortowaniem bo najsilniejsze narz dzie, jakie posiadam sortuje do 32 kb w linii a niektore artykuly sa dluzsze. Zauwazylem tez, ze w jednym wierszu sa cztery znaczniki - niestety identyczne, w postaci:
','
1.znacznik artykulu 2. tresc 3. komentarze 4. smieci o dacie edycji, edytujacych itp.
no i tu utknalem.
Na poczatku pliku sql jest definicja tabeli, czyli tez formatu danych, w ktorym podane sa wszystkie informacje nt. artykulu. Dane o artykulach sa zapisane w postaci zapytania SQL-owego INSERT... Po slowie kluczowym VALUES jest umieszczona zawartosc rekordow, jeden za drugim z defaultowym separatorem, czyli przecinkiem. Zapytanie INSERT grupuje duzo, ale _nie wszystkie_ rekordy! Caly plik zawiera wiecej takich instrukcji! W rekordzie, wartosci typu varchar, mediumtext, itp. sa otaczane pojedynczymi apostrofami, jesli apostrofy wystepuja w tekscie sa poprzedzone backslashami. Taka wiedza chyba juz powinna wystarczac do rozebrania pliku na czesci.
Kod zrodlowy Wikipedii jest do wgladu pod adresem http://cvs.sourceforge.net/cgi-bin/viewcvs.cgi/wikipedia/phpwiki/newcodebase... Na jego podstawie mozesz wydedukowac czego Ci jeszcze potrzeba
Pozdrawiam Youandme