wiki do pobrania

List overview All Threads
Download

newer

older

balet - 3

blad wiki

GEMMA

2 Mar 2003 2 Mar '03

3:31 a.m.

czym się je ten plik sql, albo inaczej: jak mogę pociągnać tylko hasła artykułów (bez wikipedystów, dyskusji, etc...) W ASCII jest ta baza zbyt jednorodna by ją dłubać jakimiś prostymi rzeczami.

Beno

Show replies by date

Youandme

2 Mar 2 Mar

5:06 a.m.

On 2 Mar 2003 at 0:31, GEMMA wrote:

...

czym si je ten plik sql, albo inaczej: jak mog poci gna tylko has a artyku ów (bez wikipedystów, dyskusji, etc...) W ASCII jest ta baza zbyt jednorodna by j d uba jakimi prostymi rzeczami.

Opcja 1: uczysz sie instalowac/konfigurowac Apache + PHP + MySQL + Software Wikipedii a potem wczytujesz plik sql do swojej instancji Wikipedii Ale chyba nie masz zbyt duzo czasu na taka zabawe.

Opcja 2: sam zmajstrowujesz sobie jakies skrypty w perlu, pythonie albo w innym ulubionym jezyku i ekstrachujesz artykuly. Tego chyba tez nie bedzie chcialo Ci sie robic.

Opcja 3. czekasz az powstanie Offline reader (a praca nad nim juz sie zaczela i sa jakies wstepne wersje, z brak czasu jeszcze ich nie odpalalem)

Youandme

GEMMA

6:13 a.m.

...

Opcja 2: sam zmajstrowujesz sobie jakies skrypty w perlu, pythonie albo w innym ulubionym jezyku i ekstrachujesz artykuly. Tego chyba tez nie bedzie chcialo Ci sie robic.

Jestem fanem dosa. Intensywnie korzystam z batchy. Mam takiego progsa - gsar.exe - general search and replace utlility.

Plik sgl doprowadziłem do postaci, że mam w jednym wierszu jeden artykuł. Widzę, że są indywidualne cyfry-znaczniki dla artykułu, obrazka, dyskusji etc... Gorzej z sortowaniem bo najsilniejsze narzędzie, jakie posiadam sortuje do 32 kb w linii a niektore artykuly sa dluzsze. Zauwazylem tez, ze w jednym wierszu sa cztery znaczniki - niestety identyczne, w postaci:

','

1.znacznik artykulu 2. tresc 3. komentarze 4. smieci o dacie edycji, edytujacych itp.

no i tu utknalem. Cel jest nastepujacy: Miec plik ascii tylko z zawartoscia artykulow. Chce go miec aby zrobic np. statystyke bledow. Na razie znajduje rozne bledy i niestety wiekszosc z nich jest w innych miejscach niz artykuly i wale na slepo. Wyszukuje bledy, i co ktorys tylko okazuje sie bledem wartym poprawy. Pewnie zreszta zauwazyles, ze skacze ostatnio po roznych haslach - wlasnie tych, w ktorych znalazlem bledy.

Gdybym dysponowal tylko danymi z artykulow moglbym porobic sporo fajnych rzeczy.

Beno

ps. Uzywam w dosie jeszcze narzedzia rpsort.com - genialne, sortuje z roznymi opcjami (np. usuwanie duplikatow) a sortowanie pliku 15 MB to jest kilka sekund - wprost niewiarygodnie szybko.

Youandme

1:53 p.m.

On 2 Mar 2003 at 3:13, GEMMA wrote:

...

Plik sgl doprowadzi em do postaci, e mam w jednym wierszu jeden artyku . Widz , e s indywidualne cyfry-znaczniki dla artyku u, obrazka, dyskusji etc... Gorzej z sortowaniem bo najsilniejsze narz dzie, jakie posiadam sortuje do 32 kb w linii a niektore artykuly sa dluzsze. Zauwazylem tez, ze w jednym wierszu sa cztery znaczniki - niestety identyczne, w postaci:

','

1.znacznik artykulu 2. tresc 3. komentarze 4. smieci o dacie edycji, edytujacych itp.

no i tu utknalem.

Na poczatku pliku sql jest definicja tabeli, czyli tez formatu danych, w ktorym podane sa wszystkie informacje nt. artykulu. Dane o artykulach sa zapisane w postaci zapytania SQL-owego INSERT... Po slowie kluczowym VALUES jest umieszczona zawartosc rekordow, jeden za drugim z defaultowym separatorem, czyli przecinkiem. Zapytanie INSERT grupuje duzo, ale _nie wszystkie_ rekordy! Caly plik zawiera wiecej takich instrukcji! W rekordzie, wartosci typu varchar, mediumtext, itp. sa otaczane pojedynczymi apostrofami, jesli apostrofy wystepuja w tekscie sa poprzedzone backslashami. Taka wiedza chyba juz powinna wystarczac do rozebrania pliku na czesci.

Kod zrodlowy Wikipedii jest do wgladu pod adresem http://cvs.sourceforge.net/cgi-bin/viewcvs.cgi/wikipedia/phpwiki/newcodebase... Na jego podstawie mozesz wydedukowac czego Ci jeszcze potrzeba

Pozdrawiam Youandme

7937

Age (days ago)

7938

Last active (days ago)

wikipl-l@lists.wikimedia.org

3 comments

2 participants

tags (0)

participants (2)

GEMMA
Youandme