nútíma opinn uppspretta gagnastafla fyrir blockchain

1.Áskorunin fyrir nútíma blockchain gagnastafla

Það eru nokkrar áskoranir sem nútíma blockchain vísitölu gangsetning gæti staðið frammi fyrir, þar á meðal:

  • Mikið magn af gögnum. Eftir því sem magn gagna á blockchain eykst mun gagnavísitalan þurfa að stækka til að takast á við aukið álag og veita skilvirkan aðgang að gögnunum. Þar af leiðandi leiðir það til hærri geymslukostnaðar, hægfara útreiknings mælikvarða og aukins álags á gagnagrunnsþjóninn.
  • Flókin gagnavinnsluleiðsla. Blockchain tækni er flókin og að byggja upp alhliða og áreiðanlega gagnavísitölu krefst djúps skilnings á undirliggjandi gagnagerð og reikniritum. Fjölbreytileiki blockchain útfærslur erfir það. Að teknu tilliti til sérstakra dæma eru NFTs í Ethereum venjulega búnar til í snjöllum samningum eftir ERC721 og ERC1155 sniðunum. Aftur á móti er útfærsla þeirra á Polkadot, til dæmis, venjulega byggð beint innan blockchain keyrslutíma. Þau ættu að teljast NFT og ætti að vista þau sem þau.
  • Samþættingargeta. Til að veita notendum hámarksverðmæti gæti blockchain flokkunarlausn þurft að samþætta gagnavísitölu sína við önnur kerfi, svo sem greiningarkerfi eða API. Þetta er krefjandi og krefst verulegrar vinnu við hönnun arkitektúrsins.

Eftir því sem blockchain tækni hefur orðið útbreiddari hefur magn gagna sem geymt er á blockchain aukist. Þetta er vegna þess að fleiri nota tæknina og hver viðskipti bætir nýjum gögnum við blockchain. Að auki hefur blockchain tækni þróast frá einföldum peningaflutningsforritum, eins og þeim sem fela í sér notkun Bitcoin, yfir í flóknari forrit sem fela í sér innleiðingu viðskiptarökfræði innan snjallra samninga. Þessir snjöllu samningar geta búið til mikið magn af gögnum, sem stuðlað að aukinni flókið og stærð blockchain. Með tímanum hefur þetta leitt til stærri og flóknari blockchain.

Í þessari grein förum við yfir þróun tækniarkitektúrs Footprint Analytics í áföngum sem dæmisögu til að kanna hvernig Iceberg-Trino tæknistaflan tekur á áskorunum gagna í keðju.

Footprint Analytics hefur skráð um 22 opinber blockchain gögn og 17 NFT markaðstorg, 1900 GameFi verkefni og yfir 100,000 NFT söfn í merkingarfræðilegt abstrakt gagnalag. Það er umfangsmesta blockchain gagnageymslulausn í heiminum.

Burtséð frá blockchain gögnum, sem innihalda yfir 20 milljarða raðir af skrám yfir fjármálaviðskipti, sem gagnasérfræðingar spyrja oft um. það er frábrugðið inngönguskrám í hefðbundnum gagnavöruhúsum.

Við höfum upplifað 3 stórar uppfærslur á undanförnum mánuðum til að mæta vaxandi viðskiptakröfum:

2. Arkitektúr 1.0 Bigquery

Í upphafi Footprint Analytics notuðum við Google Bigquery sem geymslu- og fyrirspurnarvél okkar; Bigquery er frábær vara. Það er gífurlega hratt, auðvelt í notkun og veitir kraftmikla reiknikraft og sveigjanlegan UDF setningafræði sem hjálpar okkur að klára verkið fljótt.

Hins vegar hefur Bigquery einnig nokkur vandamál.

  • Gögn eru ekki þjappuð, sem leiðir til mikils kostnaðar, sérstaklega þegar geymt er hrá gögn af yfir 22 blokkkeðjum Footprint Analytics.
  • Ófullnægjandi samtími: Bigquery styður aðeins 100 samtímis fyrirspurnir, sem er óhentugt fyrir aðstæður með mikilli samtíma fyrir Footprint Analytics þegar þjóna mörgum greinendum og notendum.
  • Læstu inni með Google Bigquery, sem er lokuð vara.

Svo við ákváðum að kanna aðra aðra arkitektúr.

3. Arkitektúr 2.0 OLAP

Við höfðum mikinn áhuga á nokkrum af OLAP vörum sem voru orðnar mjög vinsælar. Mest aðlaðandi kosturinn við OLAP er viðbragðstími fyrirspurna, sem tekur venjulega undirsekúndur að skila fyrirspurnarniðurstöðum fyrir gríðarlegt magn af gögnum, og það getur einnig stutt þúsundir samhliða fyrirspurna.

Við völdum einn af bestu OLAP gagnagrunnunum, Doris, til að prófa. Þessi vél gengur vel. Hins vegar lentum við fljótlega í nokkrum öðrum vandamálum á einhverjum tímapunkti:

  • Gagnagerðir eins og Array eða JSON eru ekki enn studdar (nóv, 2022). Fylki eru algeng tegund gagna í sumum blockchains. Til dæmis, the efnissvið í evm logs. Ófær um að reikna á Array hefur bein áhrif á getu okkar til að reikna margar viðskiptamælingar.
  • Takmarkaður stuðningur við DBT og fyrir samrunayfirlýsingar. Þetta eru algengar kröfur fyrir gagnaverkfræðinga fyrir ETL/ELT aðstæður þar sem við þurfum að uppfæra ný verðtryggð gögn.

Sem sagt, við gátum ekki notað Doris fyrir alla gagnaleiðsluna okkar um framleiðslu, svo við reyndum að nota Doris sem OLAP gagnagrunn til að leysa hluta af vandamálinu okkar í gagnaframleiðsluleiðslunni, virkaði sem fyrirspurnarvél og veitti hratt og mjög mikið samhliða fyrirspurnarmöguleika.

Því miður gátum við ekki skipt út Bigquery fyrir Doris, þannig að við þurftum reglulega að samstilla gögn frá Bigquery við Doris með því að nota það sem fyrirspurnarvél. Þetta samstillingarferli hafði nokkur vandamál, eitt þeirra var að uppfærsluskrifin hlóðust upp fljótt þegar OLAP vélin var upptekin við að senda fyrirspurnir til framenda viðskiptavina. Í kjölfarið hafði það áhrif á hraða ritunarferlisins og samstilling tók mun lengri tíma og stundum varð jafnvel ómögulegt að klára.

Við gerðum okkur grein fyrir því að OLAP gæti leyst nokkur vandamál sem við stöndum frammi fyrir og gæti ekki orðið lykillausn Footprint Analytics, sérstaklega fyrir gagnavinnsluleiðsluna. Vandamálið okkar er stærra og flóknara og við gætum sagt að OLAP sem fyrirspurnarvél ein og sér væri ekki nóg fyrir okkur.

4. Arkitektúr 3.0 Iceberg + Trino

Velkomin í Footprint Analytics arkitektúr 3.0, heildarendurskoðun á undirliggjandi arkitektúr. Við höfum endurhannað allan arkitektúrinn frá grunni til að aðgreina geymslu, útreikninga og fyrirspurn gagna í þrjá mismunandi hluta. Að taka lærdóm af tveimur fyrri arkitektúrum Footprint Analytics og læra af reynslu annarra vel heppnaðra stórgagnaverkefna eins og Uber, Netflix og Databricks.

4.1. Kynning á gagnavatninu

Við beinum sjónum okkar fyrst að data lake, nýrri gerð gagnageymslu fyrir bæði skipulögð og óskipulögð gögn. Data lake er fullkomið fyrir gagnageymslu á keðju þar sem snið gagna í keðju eru víða frá óskipulögðum hrágögnum til skipulögðra útdráttargagna Footprint Analytics er vel þekkt fyrir. Við bjuggumst við að nota gagnavatn til að leysa vandamálið við gagnageymslu og helst myndi það einnig styðja almennar tölvuvélar eins og Spark og Flink, svo að það væri ekki sársaukafullt að samþætta mismunandi gerðir vinnsluvéla eftir því sem Footprint Analytics þróast .

Iceberg fellur mjög vel að Spark, Flink, Trino og öðrum reiknivélum og við getum valið viðeigandi útreikning fyrir hverja mælikvarða okkar. Til dæmis:

  • Fyrir þá sem þurfa flókna reiknirökfræði verður Spark fyrir valinu.
  • Flink fyrir rauntíma útreikninga.
  • Fyrir einföld ETL verkefni sem hægt er að framkvæma með SQL notum við Trino.

4.2. Fyrirspurnarvél

Þegar Iceberg leysti geymslu- og reiknivandamálin þurftum við að hugsa um að velja fyrirspurnarvél. Það eru ekki margir möguleikar í boði. Valkostirnir sem við skoðuðum voru

Það mikilvægasta sem við íhuguðum áður en við fórum dýpra var að framtíðarfyrirspurnarvélin yrði að vera samhæf við núverandi arkitektúr okkar.

  • Til að styðja Bigquery sem gagnagjafa
  • Til að styðja DBT, sem við treystum á til að margar mælikvarðar verði framleiddar
  • Til að styðja við BI tólið

Byggt á ofangreindu völdum við Trino, sem hefur mjög góðan stuðning við Iceberg og teymið var svo móttækilegt að við komum upp villu, sem var lagaður daginn eftir og sleppt í nýjustu útgáfuna vikuna á eftir. Þetta var besti kosturinn fyrir Footprint teymið, sem einnig krefst mikillar viðbragðs við framkvæmd.

4.3. Frammistöðuprófun

Þegar við höfðum ákveðið stefnu okkar gerðum við frammistöðupróf á Trino + Iceberg samsetningunni til að sjá hvort hún gæti mætt þörfum okkar og okkur til undrunar voru fyrirspurnirnar ótrúlega hraðar.

Með því að vita að Presto + Hive hefur verið versti samanburðarmaðurinn í mörg ár í öllu OLAP eflanum, kom samsetningin af Trino + Iceberg algjörlega í taugarnar á okkur.

Hér eru niðurstöður úr prófunum okkar.

tilvik 1: sameinast stóru gagnasafni

800 GB borð1 sameinast öðru 50 GB borði2 og gerir flókna viðskiptaútreikninga

case2: notaðu stóra eina töflu til að gera sérstaka fyrirspurn

Próf sql: veldu sérstakt (heimilisfang) úr töfluhópnum eftir degi

Trino+Iceberg samsetningin er um það bil 3 sinnum hraðari en Doris í sömu uppsetningu.

Að auki kemur annað á óvart því Iceberg getur notað gagnasnið eins og Parket, ORC o.s.frv., sem mun þjappa og geyma gögnin. Taflageymsla Iceberg tekur aðeins um 1/5 af plássi annarra gagnavöruhúsa. Geymslustærð sömu töflu í gagnagrunnunum þremur er sem hér segir:

Athugið: Ofangreind próf eru dæmi sem við höfum kynnst í raunverulegri framleiðslu og eru eingöngu til viðmiðunar.

4.4. Uppfærsluáhrif

Frammistöðuprófunarskýrslurnar gáfu okkur nægilega mikinn árangur til að það tók liðið okkar um 2 mánuði að klára flutninginn og þetta er skýringarmynd af arkitektúr okkar eftir uppfærsluna.

  • Margar tölvuvélar passa við ýmsar þarfir okkar.
  • Trino styður DBT, og getur spurt Iceberg beint, svo við þurfum ekki lengur að takast á við samstillingu gagna.
  • Ótrúleg frammistaða Trino + Iceberg gerir okkur kleift að opna öll bronsgögn (hrá gögn) fyrir notendum okkar.

5. Yfirlit

Frá því að það var sett á markað í ágúst 2021 hefur Footprint Analytics teymið lokið þremur byggingaruppfærslum á innan við einu og hálfu ári, þökk sé sterkri löngun sinni og ákveðni til að koma ávinningi af bestu gagnagrunnstækninni til dulritunarnotenda sinna og traustri framkvæmd við innleiðingu og að uppfæra undirliggjandi innviði og byggingarlist.

Footprint Analytics arkitektúr uppfærsla 3.0 hefur keypt nýja upplifun fyrir notendur sína, sem gerir notendum með mismunandi bakgrunn kleift að fá innsýn í fjölbreyttari notkun og forrit:

  • Byggt með Metabase BI tólinu, auðveldar Footprint greiningaraðilum að fá aðgang að afkóðuðum gögnum á keðju, kanna með fullkomnu valfrelsi á verkfærum (engan kóða eða harðsnúru), spyrjast fyrir um alla söguna og krossskoða gagnasöfn til að fá innsýn í enginn tími.
  • Samþætta gögn bæði á keðju og utan keðju til greiningar á vef2 + vef3;
  • Með því að byggja / spyrja mælikvarða ofan á viðskiptaútdrátt Footprint, spara sérfræðingar eða þróunaraðilar tíma í 80% af endurtekinni gagnavinnsluvinnu og einblína á þýðingarmikil mælikvarða, rannsóknir og vörulausnir byggðar á viðskiptum þeirra.
  • Óaðfinnanlegur upplifun frá Footprint Web til REST API símtöl, allt byggt á SQL
  • Rauntíma viðvaranir og aðgerðatilkynningar um lykilmerki til að styðja fjárfestingarákvarðanir

Heimild: https://cryptoslate.com/iceberg-spark-trino-a-modern-open-source-data-stack-for-blockchain/