Tuesday 26 September 2017

Hadoop Kauppa Järjestelmä


Minulla on hauskaa oppia Hadoopista ja sen ympärillä olevista erilaisista projekteista ja tällä hetkellä on kaksi erilaista strategiaa, jotka ajattelen järjestelmän rakentaessa suuren sarjan markkinakorttitietoja. Aloitan vain Hadoop HDSF: n ja HBase: n kanssa, mutta toivon joku voi auttaa minua kasvattamaan järjestelmän siemeniä, jonka voisin hävitä myöhemmin näiden tekniikoiden avulla Seuraavana on järjestelmän ja vaatimusten äärellinen kysely - ja datankäyttötapausten käyttö ja viimeinen ajankohtainen ajattelu paras tapa lähestyä pikku asiakirjoja I on lukenut Avoin kysymys, ja mielelläni on mielestäni jokin vastaus, joka on oivallinen ja hyväksyy paras, voit kommentoida mitä tahansa tai kaikkia seuraavista kohdista - Duncan Krebs. System Requirements - Voita hyödyntää tietovarastoa järjestelmien historialliseen taktiseen testaukseen, historialliseen tietojen kartoittamiseen ja tulevaisuuden tiedonhankintaan Kun tallennetut tiedot ovat aina vain luettavissa, nopea tiedonsiirto on toivottavaa, mutta ei ole pakko saada, kun takaisintestaus tehdään. Static Schema - Hyvin yksinkertainen, haluan kaapata 3 viestityyppiä syötteestä. Valinta sisältää päivämäärän, päivämäärän ja ajan. Kuulet sisältäen Symbolin, aikaleiman, kysy, kysy, hintatarjous, bidSize, volyymi noin 40 sarakkeessa data. Trade mukaan lukien symboli, aikaleima , hinta, koko, vaihto Tietoja noin 20 sarakkeesta. Datan lisääminen Käytä tapauksia - Joko suorana lähetyksenä suoritetusta tietoverkosta tai etsinnästä välittäjän kautta. Sovellusohjeet Käytä tapauksia - Alla on esimerkki siitä, miten haluaisin loogisesti kysyä tietoja. kaikki Quotes, Trades, Timestamps GOOG: lle 9.2.2014. Ota minulle kaikki kaupat GOOG: sta, FB ennen 9 1 2014 JA JÄLKEEN 5 1 2014.Kerke minulle näiden 50 symbolien kauppoja päivittäin viimeisten 90 päivän aikana. Pyhä Graal - Voidaanko MapReducea käyttää seuraavissa käyttötarkoituksissa? Luodaan metatietoja raaka-ainekohtaisista tiedoista hajautettujen toimijoiden kautta. Esimerkiksi Kirjoita työpaikka, joka laskee keskimääräisen kaupankäynnin tilavuuden 1 minuutin välein kaikille varastoille ja kaikille istuntoja tallennetaan tietokantaan Luo tehtävä, jolla on agentti jokaiselle stock session tha t kerron mitä varastossa ja istunnossa se laskee tämän arvon. Onko tämä mitä MapReduce voi tehdä. Asiantuntijaryhmän luokkatietokannassa voin lisätä oman käyttössänni siten, että esim. esimerkkinä oleva käyttötapa voisi julkaista arvonsa keskuskorotukseen tai Messaging-palvelin Voin asentaa agentin OSGI-pakettina. Luodaan eri agenttien tyypit erilaisiin metrijärjestelmiin ja pisteisiin, jotka toteutetaan joka aamu ennen ennen kaupankäynnin aloittamista. Korkean taajuuden kaupankäynti Olen myös kiinnostunut, jos joku voi jakaa kokemuksia Hadoopilla korkean taajuuden kaupankäynnin järjestelmien yhteydessä Ainoastaan ​​tähän tekniikkaan pääseminen on minun mielestäni Hadoop voi olla loistava tallentaa ja käsitellä suuria määriä historiallisia rastien tietoja, jos joku käyttää tätä reaaliaikaiseen kaupankäyntiin. Haluaisin oppia lisää - Duncan Krebs. Minun ymmärtääkseni sinun tarpeisiisi, Hadoop olisi todella hyvä ratkaisu tietojen tallentamiseen ja kyselyjen suorittamiseen Hive Storesta. Voit tallentaa tiedot Hadoopissa ohjaajana y-rakenteeseen. Näytössä olevaan kansioon voidaan sijoittaa päivämäärän erityisiä tietoja. Yksi tällaisen rakenteen käyttämisen etu on, että voit luoda ulkoisia taulukoita Hiveen näiden tietojen avulla osiin vuosia, kuukausia, päiviä ja tunteja varten Kyselylomakkeessa on jotain kaltaista, kun olet tallentanut edellä mainitussa muodossa olevat tiedot, voit helposti käyttää yksinkertaisia ​​kyselyitä. Ota minulta kaikki Quotit, kaupat ja aikaleimat GOOG: lle 9.2.2014. Ota minulle kaikki kaupat GOOG: sta, FB ENNEN 9 1 2014 JA JÄLKEEN 5 1 2014. Voit suorittaa tällaisia ​​aggregaatiokyselyitä kerran päivässä ja käyttää tulosta esittelemään tiedot ennen markkinoiden ennen kaupankäyntiä Koska Hive sisäisesti suorittaa kartoittaa nämä kyselyt voittanut olla erittäin nopea. Jotta saada nopeammin tuloksia, voit käyttää joitakin muistiprojekteissa, kuten Impala tai Spark Olen itse käyttänyt Impalaa suorittamaan kyselyjä minun hiirellä taulukot ja olen nähnyt huomattavaa parannusta aikavälillä minun kyselyitä noin 40x myös te wouldn t täytyy tehdä muutoksia rakenteeseen Tietojen syöttäminen Käytä tapauksia Käytä työkaluja, kuten Flume tai Kafka, jotta tietoja voidaan syöttää reaaliaikaisesti Hadoopille ja siten pesätaulukoihin. Flume on lineaarisesti skaalautuva ja voi myös auttaa käsittelemään lentotapahtumia siirron aikana. Kaiken kaikkiaan useiden suurten datatekniikoiden yhdistelmä voi tarjota todella miellyttävän ratkaisun ehdotettuun ongelmaan ja nämä ratkaisut skaalautuisivat valtavaan tietomääriin. Apache Rivet on järjestelmä, jolla luodaan dynaamista Web-sisältöä Apache Web Serverin avulla integroidun Tcl-ohjelmointikielen avulla. jotka on suunniteltu nopeiksi, tehokkaiksi ja laajennettaviksi, kuluttavat vain vähän järjestelmän resursseja, ovat helppoja oppia ja tarjoavat käyttäjälle käyttöympäristön, jota voidaan käyttää myös mons-IO sisältää hyödyllisyysluokkia, stream-toteutuksia, tiedostojen suodattimia, tiedostojen vertailijoita ja endian-luokkia. Apache Flex - yhteisö on ilmoittanut Apache Flex SDK 4 16 0: n julkaisusta. Apache Flex SDK on erittäin tuottava avoimen lähdekoodin sovelluskehys. Apache Tomcat - tiimi nimeää Apache Tomcat 8 5: n välittömän saatavuuden. 12.Tomcat 8 x: n käyttäjien pitäisi normaalisti käyttää 8 5 x - versiota mieluummin 8 0 x - versiota varten. Apache Tomcat - tiimi ilmoittaa Apache Tomcat 9 0 0 M18.Apache Tomcat 9: n on Java Servletin, JavaServer Pagesin, Java Unified. Latest - toiminnon avoimen lähdekoodin ohjelmistoteutus. Apache Flex - yhteisöllä on ilo ilmoittaa Apache Flex SDK 4 16 0: n julkaisusta. Apache Flex SDK on erittäin tuottava avoimen lähdekoodin sovellus. puitteet rakennuksen ja. Apache Ignite yhteisö toivottaa sinut osallistumaan Big Data Bootcamp 27. maaliskuuta 28. ja 29. 2017 Santa Clara, USA. The konferenssi kokoaa asiantuntijoita ja myyjiä Big Data. And se perjantai jo Here's mitä Apache yhteisön ovat työskennelleet tällä viikolla. ASF: n johtokunta ja valvonta yhtiön liiketoiminnasta ja asioista 10. lokakuuta 2009.MapReduce on varmasti saavuttanut vetovoimaa, varsinkin mutta ei missään nimessä vain Hadoop-muodossa. Hadoopin jälkimainingeissa Maailman Jeffera Hammerbacher of Cloudera käveli minua nopeasti läpi 25 asiakkaalta, jotka hän vetosi Cloudera-tiedostoista. Tosiseikat ja mittaukset vaihtelivat laajasti. Jotkut ovat raskaassa tuotannossa Hadoopilla ja tiiviisti sitoutunut Clouderaan Muut ovat aktiivisia Hadoop-käyttäjiä, mutta ne ovat hyvin salamyhkäisiä. Jotkut ovat allekirjoittaneet ensimmäisen Hadoop-harjoittelun viime viikolla. Jotkut ovat Hadoop-klustereita tuhansissa solmuissa. Monet ovat Hadoop-klustereita 50-100 solmualueella. Muut ovat vain prototyyppia Hadoop-käyttö Ja yksi näyttää olevan OEMing pienen Hadoop klusterin jokaista laitetta myydään. Monet viedä tietoja Hadoop relaatio DBMS monet muut jättävät sen HDFS Hadoop hajautettu tiedostojärjestelmä, esim. Hive kuin kyselykielen tai täsmälleen yksi tapaus Jaql. Jotkut ovat kotitalouksien nimiä, verkkoyrityksissä tai muuten Muut näyttävät olevan melko hämärä. Yritykset ovat rahoituspalveluja, tietoliikenne Aasia vain ja aivan uusi, bioinformatiikka ja muu tutkimus, älykkyys, ja paljon web-ja / tai mainonta media. Application mainituista alueista ja näistä päällekkäisyyksistä joissain tapauksissa kuuluu. Kaikki ja / tai clickstream analyysi erilaisista markkinoista. Markkinointianalyysit. Oppimisen ja / tai hienostuneiden tietojen louhinta. XML-viestejä. Web-indeksointi ja / tai tekstinkäsittely. Yleinen arkistointi, mukaan lukien relaatiotietojen taulukot, esim. vaatimustenmukaisuuden vuoksi. Menimme tämän luettelon päälle niin nopeasti, ettemme menneet paljon yksityiskohtiin yhdelle käyttäjälle. eräs oli mainostoimisto, joka koostui 70-80 MapReduce-työstä koostuvasta yhdistelmäputkesta. Olen myös puhunut eilen uudestaan ​​Vertican Omer Trajmanin kanssa, joka yllätti minua osoittaen, että vertikaalisten asiakkaiden suuri yksinumeroinen määrä oli tuotannossa Hadoopilla eli yli 10 vertikaalisella tuotannollisella asiakkaalla Vertica teki äskettäin 100: nnen myynnin ja tietenkään kaikki ne eivät ole vielä tuotannossa. Vertica Hadoopin käyttö näyttää alkaneen Vertican rahoituspalvelualueella nimenomaan kaupankäynnin kohteeksi verkkoanalyysillä ja kuten tulevat jälkikäteen Nykyisten prototyyppityöpyrkimysten perusteella Omer odottaa bioinformatiikan olevan Vertica Hadoopin kolmannen tuotantomarkkinat, ja televiestintä tulee neljäntoista h. Ei ole yllättävää, että yleinen Vertica Hadoopin käyttömalli näyttää olevan. Anna jotain Hadoopin tietoihin. Lähetä se Verticaan kyselyyn. Mitä löysin yllättävää on, että tietoja ei useinkaan ole pienennetty tällä analyysillä, vaan räjähtäneet koossa E ga asuntokauppatietojen täydellinen tallennus saattaa olla muutaman teratavun kokoinen, mutta Hadoop-pohjainen jälkikäsittely voi lisätä sitä 1 tai 2 suuruusluokkaa Analogiat keitetyn datan tärkeydestä ja suuruudesta tieteellisessä tietojenkäsittelyssä tulevat mieleen . Ja lopuksi puhuin muutama päivä sitten Asterille sen nCluster Hadoop-liittimen käytöstä. Aster luonnehti Aster Hadoopin käyttäjiä Hadoopin käyttöä erään ETL-lajikkeeksi, joka on klassinen käyttötapaus, joka hyväksytään Hadoopille, vaikka uskoisinkinkin MapReducen pitäisi yleensä tehdä suoraan DBMS: ssä. Tilaa täydellinen syöte 9. Vastaukset siihen, miten 30 yritystä käyttävät Hadoopia. Vlad 11 lokakuu 2009 3 34. Olen tehnyt joitain laskelmia datan perusteella julkisesti Internetin käyttöoikeus Kuuluisa Yahoo Terasort - tallennustilaus 1 Tt: n data tosiasiallisesti 10 miljardia 100 tavua tallentaa Hadoop.3400-palvelinklusteriin 60 sekunnissa, mutta jätän pois laskentatiedot, mutta keskimääräinen CPU-levy IO ja verkon IO-käyttö ajon aikana olivat .1, 5-6 ja vastaavasti 30. Nämä eivät ole tarkkoja lukuja, mutta arvioinnit perustuvat käytetylle lajittelualgoritmille, klusterin konfigurointiin, palvelimen CPU: n tehoon, max NIC-läpäisykykyyn 1Gb ja 4 SATA-levyjoukon IO-kykyyn. pullonkaula on varmasti verkko Mielestäni se ei ole pelkästään lajittelu vaan monien muiden ongelmat Mutta näyttää siltä, ​​että joko Yahoo klusteri on suboptimal näkökulmasta maksimaalisen jatkuva läpijuoksu tai Hadoop ei voi kyllästää 1Gb linkki OK, anna kuvitella emme käytä raaka-aineet, mutta optimoidut palvelimet ja verkkokokoonpanot. Noin 2 10Gb: n portti-NIC-palvelinta ja 128-porttista 10 Gt: n kytkintä vain yksi lisäämällä verkon suorituskykyä 30 Mt: n ja 2 Gt: n välillä. 2 10 Gb: n portti-NIC-palvelinta sec voimme vähentää palvelimien määrää klusterissa kertoimella 70.50 palvelimia ja pitää silti saman 60 sekunnin ajaa Onko mahdollista lajitella 2 Gt sekunnissa 20 miljoonaa 100 tavua tietueet yhdelle palvelimelle Toki se on. Yahoo klusterin maksaa noin 7 miljoonaa Voin rakentaa klusterin alle miljoonalle, emmekä ole puhumassa virrankulutuksesta ja muista siihen liittyvistä kustannuksista. MapReduce ja raaka-aineet voittivat säästää rahaa Älä osta halpoja. Kuuri, tiedätte kuinka monta näistä V-asiakkaista on pilvi eli ne ovat uudelleen käynnissä V AMIs EC2 ja kuinka moni niistä on, että 10 tai mainitsit. Vlad 11 lokakuu 2009 10 40 pm. MapReduce voimakkaasti edistetään, jostain syystä Yahoo ja Facebook, mutta ei Google Googlen ja Microsoft ovat kehittäneet jo seuraavan sukupolven Hadoops Pregel ja Dryad, mutta ne eivät ole vielä saatavilla yleisölle eikä avoimille. Ennakkotietoja on rajoitettu. Minulle tilanne muistuttaa Neuvostoliittoa 80-luvun puolivälissä. luoda sen omat supertietokoneet, Neuvostoliitot yrittivät kääntää amerikkalaisia ​​Cray-keksiä jne. Voit toistaa mitä olet jo tehnyt, mutta olet aina takana. UPDDD voidaan ladata MS-sivustolta, mutta vain akateemisille tutkimuksille. RC 12. lokakuuta 2009 3 46 am. Onko Dryad paljon parempi kuin Hadoop Jos näin on, mitkä ovat parannukset. Joulukuun 12. päivänä 2009 klo 13.55. RC From Dryad whitepaper Dynaaminen ero Dryadin ja MapReducen välillä on se, että Dryad-sovellus voi määrittää mielivaltaisen tiedonsiirron DAG sen sijaan, että se vaatisi lajittelujaksoja jakautumisjärjestelyistä. Erityisesti kaaviot pystysuorat voivat käyttää useita tuloja ja luoda useita tulosteita , monissa sovelluksissa Useille sovelluksille tämä yksinkertaistaa kartoitusta algoritmista käyttöönottoon, antaa meille mahdollisuuden rakentaa suuremman perusaliohjelmiston kirjastoon ja yhdessä kykyä hyödyntää TCP-putkia ja jaettua muistia datan reunojen osalta voi tuoda huomattavia suorituskykyä Samalla toteutus on tarpeeksi yleinen tukemaan kaikkia MapReduce-paperissa kuvattuja ominaisuuksia. Andrew S 19. lokakuuta 2009 7 54 pm. Vlad, ero on se, että neuvostot eivät ole avoimen lähdekoodin takana. Yleisempi malli on ollut viime aikoina.1 Omistusoikeusohjelmistoratkaisu tulee ulos 2 Hyvä lähdekoodin ratkaisu, jolla on samanlaiset valmiudet 3 Avoimen lähdekoodin ratkaisu saa suuria tukijoita, huippuyrittäjiä, huipputeknologiayrityksiä, johtavia akateemikkoja 4 Avoimen lähdekoodin ratkaisut poistavat käyttöoikeusongelmia helppokäyttöisyyden ja dokumentaation vuoksi 5 Omistusoikeus ratkaisee, koska se on kannattavaa siirtyä avoimeen lähdekoodiin lähdekoodin ratkaisu. Hadoop on jossain 3 ja osittain 4: ssa. Tämä ei ole ristiriidassa aikaisempien Hadoop-käyttötapausten kanssa. olla Bank of America: n toimitusjohtaja suuriin tietoihin ja analyyseihin Vertica osoitti jo vuosi sitten, että noin 10 prosenttia sen asiakkaista oli tuotannossa Hadoopilla sen rahoituspalvelujen asiakkaiden johtamassa trendissä. Etsimme blogeistamme ja valkoisia papereitamme. Monash Research blogs. DBMS 2 kattaa tietokannan hallintaan, analyysiin ja siihen liittyviin teknologioihin. Text Technologies kattaa tekstinlouhinnan, haku - ja sosiaaliohjelmat. Strategic Messaging analysoi markkinointi - ja viestintästrategiaa. Monashin raportti tutkii teknologiaa ja julkisen sektorin kysymyksiä. ohjelmistotalouden historia. Käyttäjän konsultointi. Rakennuslistan luominen Strategisen suunnitelman jalostaminen Voimme auttaa. Viemme neuvontaa. Ja kerromme myyjille, mitä tapahtuu - ja mitä tärkeämpää, mitä heidän pitäisi tehdä sen suhteen. Monash Research korostaa.

No comments:

Post a Comment