IT pro otrlé

O lidech, o vztazích, o politice, o názorech, o opicích a o ufonech.

Moderátor: Faskal

Odpovědět
Uživatelský avatar
Sosacek
Příspěvky: 23511
Registrován: 14. 7. 2004, 19:30

Re: IT pro otrlé

Příspěvek od Sosacek » 28. 9. 2014, 12:29

Ja mam z geventu pocit, ze vyrobit threadpool, ktery to protoci a dela futures jenom do velikosti toho poolu, abys necekal na moc IO.

Zkusim si s tim nejak pohrat. Ale v Jave to asi bude tezke udelat.

Ja bych idealne potreboval, aby se mi par spolecnymi spojenimi http s keeplive tahaly nove a nove stranky jak prijdou na radu, a pak padaly do pipeline. Ale to bych si asi musel napsat vlastni HTTP engine, a to se mi nechce - ta vec, na kterou to potrebuju funguje i takhle, akorat neni hezka.
“The law, in its majestic equality, forbids rich and poor alike to sleep under bridges, to beg in the streets, and to steal their bread.”

Uživatelský avatar
Alef0
Administrátor
Příspěvky: 5829
Registrován: 7. 6. 2004, 11:22
Bydliště: Košice, SR.

Re: IT pro otrlé

Příspěvek od Alef0 » 29. 9. 2014, 11:01

a nejaky crawler v jave neexistuje? nutch?
Preklady [preklad/korektury/layout]:
Wilderness of Mirrors: 100%/99%/0
In a Wicked Age, CZ: 100%/100%/0
FATE SK: 100/100/0

Uživatelský avatar
Sosacek
Příspěvky: 23511
Registrován: 14. 7. 2004, 19:30

Re: IT pro otrlé

Příspěvek od Sosacek » 29. 9. 2014, 11:59

Ja nechci celej crawler.

Ja chci

(-> (format "http://investing.money.msn.com/investme ... ?symbol=%s" symbol)
get
extract
update)

a

(-> (format "http://investing.money.msn.com/investme ... ?symbol=%s" symbol)
get
extract
update)

pro symboly AAPL, ATVI, ..., count(*) from symboly = 6680 nebo kolik.

Kdyby stockscouter mel api, tak tohle cviceni nemusim vubec absolvovat, ale to je smula.
“The law, in its majestic equality, forbids rich and poor alike to sleep under bridges, to beg in the streets, and to steal their bread.”

Uživatelský avatar
Sosacek
Příspěvky: 23511
Registrován: 14. 7. 2004, 19:30

Re: IT pro otrlé

Příspěvek od Sosacek » 30. 11. 2014, 20:21

“The law, in its majestic equality, forbids rich and poor alike to sleep under bridges, to beg in the streets, and to steal their bread.”

Uživatelský avatar
Aljen
Příspěvky: 5282
Registrován: 26. 2. 2008, 12:08
Kontaktovat uživatele:

Re: IT pro otrlé

Příspěvek od Aljen » 27. 2. 2015, 16:28

ech chlapci potrebujem poradit vhodnu technologiu a pristup
---
Situacia: Mam desiatky PDFiek Dark Heresy* (nech 100), komplexne layouty a rozsah od 50 - 450 stran
Chcel by som system ktorym by som mohol fulltextovo vyhladavat v texte (vyskoci mi text odstavca s highlitom na hladanom slove/slovach) a ktory by tieto textove data zmysluplne zatriedil do kategorii (Zbrane, Powers, NPC, Quotes a pod). Ten datamining pdfiek moze trvat dlho (robi sa len velmi zriedka), fulltext co najrychlejsi. Extrahovane obrazky by administrator enginu/db cize ja priradil manualne (aspon minimalisticke UI).

Momentalne extrahujem pdfka cez itextpdf kniznicu a ukladam do textaku. To facha celkom rychlo a spolahlivo.
Spravil som 600Mb textak (co je asi velkost DH+RT+BC) a zacal riesit fulltext vyhladavanie.
Najrychlejsie je prezerat riadok po riadku BufferedReaderom, kuknut indexof a porovnat cez StringSearch BNDMCI co da priblizne 4.5s
skusal som Perl (netusim aky dobry algoritmus som nasiel ale daval tiez okolo 4.5s), inMemory mapy, scanner, OS grep a mozno OS grep bol kusok rychlejsi.

Teraz som skusil Lucene kniznicu a aj ked je to o dost komplexnejsie na spravne nastavenie tak mi search dava 1.5s co je fajn.
Mala nevyhoda je ze indexove subory zaberaju nemale miesto na disku (netusim ako to s miestom bude trebars na free OpenShift kde by som to rad pustil v zavere, preto to riesim).

(engine zatriedovania do kategorii je mozny na zaklade postupnosti typov a velkosti fontov, sporne casti manualne, tomu som sa zatial nevenoval ako to urobit aspon trochu inteligentne. Neviem ci to bude stat za nejaky rules engine. asi ee)

Kedze by som rad mal kategorie dat a pozeral si pdfko s pripojenym obrazkom v nejakom klientovi (daco v browseri, node.js mozno - nech sa aj na to kuknem), alebo len danu kategoriu (trebars vsetkych zbrani v DH), zisla by sa rozumna DB. S Lucene vie vraj pracovat h2 a aj eXist. Blizsie som sa zatial nevenoval.

Tento projekt je treningom aby som programatrsky uplne nezhrdzavel kedze teraz robim integraciu a server adminovanie.
---
Akoby ste k tomuto zadaniu pristupili vy a co by ste vybrali za technologie/techniky?
System does mother
Hram Sógarda v Dungeon World kampani PbP
Nemas s kym hrat? Chces vyskusat iny RPG system a tvoja parta to odmieta? Pozri sem!

Uživatelský avatar
Alef0
Administrátor
Příspěvky: 5829
Registrován: 7. 6. 2004, 11:22
Bydliště: Košice, SR.

Re: IT pro otrlé

Příspěvek od Alef0 » 9. 3. 2015, 18:17

Nemal by som nervy párať sa s Lucene. Štartol by som ElasticSearch (ten už má Lucene pod sebou a rozumné API) a išiel na fulltext oproti tomu. To, že sú súbory veľké, je v praxi nepodstatné (index je to, čo zrýchľuje vyhľadávanie z pár sekpnd. na milisekundy).

Ako je to s ukladaním indexu Lucene do iných databáz, netuším, ale nemyslím, že vyriešiť problém s miestom. (Máš málo miesta na filesystéme? Vážne?).

ElasticSearch sa dá použiť aj ako NoSQL databáza, má to síce isté obmedzenia, ale je to v praxi využiteľné.

Problém je, že netuším, ako to nahostovať: jedine na vlastnom VPSku.
Preklady [preklad/korektury/layout]:
Wilderness of Mirrors: 100%/99%/0
In a Wicked Age, CZ: 100%/100%/0
FATE SK: 100/100/0

Uživatelský avatar
Aljen
Příspěvky: 5282
Registrován: 26. 2. 2008, 12:08
Kontaktovat uživatele:

Re: IT pro otrlé

Příspěvek od Aljen » 9. 3. 2015, 18:22

Som na Openshift Cloude a tam nemam miesta do aleluje na free konte.
ExistDB sa mi moc nehodi a tak to budem zrejme riesit cez H2 - ma fulltext cez Lucene zabudovany.

BTW to ze mas subory velke znamena ze mas aj index velky :P

Ak mas jednu db 0.5-1GB a index 150-300MB ... predpokladas x databaz tak uz to zacina hrat rolu.
System does mother
Hram Sógarda v Dungeon World kampani PbP
Nemas s kym hrat? Chces vyskusat iny RPG system a tvoja parta to odmieta? Pozri sem!

Uživatelský avatar
Alef0
Administrátor
Příspěvky: 5829
Registrován: 7. 6. 2004, 11:22
Bydliště: Košice, SR.

Re: IT pro otrlé

Příspěvek od Alef0 » 9. 3. 2015, 18:32

To je ale problém v tom, keď ideš riešiť rozsiahlejšie veci s hračkárskymi možnosťami :-)

Na databázu nemáš limit disku? Alebo ako to plánuješ opajcať?

Ono keď ti stačí hlúpejší index, tak MySQL a InnoDB tabuľky majú tiež natívny fulltext.
Preklady [preklad/korektury/layout]:
Wilderness of Mirrors: 100%/99%/0
In a Wicked Age, CZ: 100%/100%/0
FATE SK: 100/100/0

Uživatelský avatar
Aljen
Příspěvky: 5282
Registrován: 26. 2. 2008, 12:08
Kontaktovat uživatele:

Re: IT pro otrlé

Příspěvek od Aljen » 12. 3. 2015, 11:14

heej nebi ma, to je len predpoklad, neviem ake presne su parametre gearu openshiftu :)
snazim sa len pripravit a setrit stovky mega ak je to mozne

edit uz viem: 1GB na 1 gear a mam 3 gears (dalsi gear z tych 3och sa pusti ked je treba) pricom na nich mas vsetko aj app aj db aj fs
System does mother
Hram Sógarda v Dungeon World kampani PbP
Nemas s kym hrat? Chces vyskusat iny RPG system a tvoja parta to odmieta? Pozri sem!

Uživatelský avatar
Sosacek
Příspěvky: 23511
Registrován: 14. 7. 2004, 19:30

Re: IT pro otrlé

Příspěvek od Sosacek » 29. 8. 2015, 00:30

Kód: Vybrat vše

mysql> load xml concurrent local infile 'rpgforum_dump.xml' into table rpgf_posts character set utf8;
Query OK, 265105 rows affected (1 hour 23 min 3.43 sec)
Records: 265105  Deleted: 0  Skipped: 0  Warnings: 0

Kód: Vybrat vše

adiator:vagrant-ubuntu jakub$ pgloader --encoding utf8 mysql://192.168.33.10/rpgf postgresql://192.168.33.10/rpgf
2015-08-28T15:23:34.020000-07:00 LOG Main logs in '/private/tmp/pgloader/pgloader.log'
2015-08-28T15:23:34.023000-07:00 LOG Data errors in '/private/tmp/pgloader/'
2015-08-28T15:23:34.225000-07:00 WARNING Postgres warning: table "rpgf_posts" does not exist, skipping
                    table name       read   imported     errors            time
------------------------------  ---------  ---------  ---------  --------------
               fetch meta data          1          1          0          0.073s
                  create, drop          0          2          0          0.030s
------------------------------  ---------  ---------  ---------  --------------
                    rpgf_posts     265105     265105          0         40.972s
        Index Build Completion          0          0          0          0.000s
------------------------------  ---------  ---------  ---------  --------------
                Create Indexes          0          0          0          0.000s
               Reset Sequences          0          0          0          0.027s
                  Primary Keys          0          0          0          0.000s
                  Foreign Keys          0          0          0          0.000s
                      Comments          0          0          0          0.000s
------------------------------  ---------  ---------  ---------  --------------
             Total import time     265105     265105          0         41.102s
Oukej, to je dobrej rozdil v rychlosti.
“The law, in its majestic equality, forbids rich and poor alike to sleep under bridges, to beg in the streets, and to steal their bread.”

Uživatelský avatar
Alef0
Administrátor
Příspěvky: 5829
Registrován: 7. 6. 2004, 11:22
Bydliště: Košice, SR.

Re: IT pro otrlé

Příspěvek od Alef0 » 1. 9. 2015, 09:40

PegDown má rozkošný bug v Markdowne:

![](drakkar.jpg)

sa nevyrenderuje.

Kodôsledok: neexistuje implementácia Markdown parsera pre Javu, ktorá podporuje Markdown v HTML elementoch (ako Markdown Extended v PHP).
Preklady [preklad/korektury/layout]:
Wilderness of Mirrors: 100%/99%/0
In a Wicked Age, CZ: 100%/100%/0
FATE SK: 100/100/0

Uživatelský avatar
Sosacek
Příspěvky: 23511
Registrován: 14. 7. 2004, 19:30

Re: IT pro otrlé

Příspěvek od Sosacek » 1. 9. 2015, 11:44

To neviem.

Ja pouzivam pandoc, protoze vladne, ale to bys musel volat pres shell coz asi nechces.
“The law, in its majestic equality, forbids rich and poor alike to sleep under bridges, to beg in the streets, and to steal their bread.”

Uživatelský avatar
Alef0
Administrátor
Příspěvky: 5829
Registrován: 7. 6. 2004, 11:22
Bydliště: Košice, SR.

Re: IT pro otrlé

Příspěvek od Alef0 » 1. 9. 2015, 12:26

Riesenie:

![ ](dracak.jpg)
Preklady [preklad/korektury/layout]:
Wilderness of Mirrors: 100%/99%/0
In a Wicked Age, CZ: 100%/100%/0
FATE SK: 100/100/0

Uživatelský avatar
Sosacek
Příspěvky: 23511
Registrován: 14. 7. 2004, 19:30

Re: IT pro otrlé

Příspěvek od Sosacek » 1. 9. 2015, 15:39

Takze to nepodporuje drakkar, ale jenom dracak?
“The law, in its majestic equality, forbids rich and poor alike to sleep under bridges, to beg in the streets, and to steal their bread.”

Uživatelský avatar
Sosacek
Příspěvky: 23511
Registrován: 14. 7. 2004, 19:30

Re: IT pro otrlé

Příspěvek od Sosacek » 26. 9. 2015, 13:12

Regexp co chyti [cokoli] je jedna vec. Ale regexp co chyt [quote cokoli [\quote] ?
“The law, in its majestic equality, forbids rich and poor alike to sleep under bridges, to beg in the streets, and to steal their bread.”

Odpovědět

Zpět na „Realita a pseudorealita“

Kdo je online

Uživatelé prohlížející si toto fórum: Žádní registrovaní uživatelé a 7 hostů