Apache Spark is ontworpen om verwerkingssnelheden voor data-analyse en manipulatie programma's te verbeteren.
Het werd in Java en Scala geschreven en biedt functies die niet in andere systemen, vooral omdat ze niet mainstream, noch die handig zijn voor non-data verwerking van de aanvragen.
Spark werd voor het eerst gemaakt in het UC Berkeley AMP Lab en later geschonken aan de Apache Software Foundation
Wat is nieuw in deze release:.
- Unified Memory management -. Gedeeld geheugen voor de uitvoering en caching in plaats van de exclusieve verdeling van de regio's
- Parket Performance - Verbeter Parket scan prestaties bij het gebruik van platte schema .
- Verbeterde vraag planner voor query's met verschillende combinaties -. Query plannen van verschillende combinaties zijn robuuster als afzonderlijke kolommen hebben hoge kardinaliteit
- De Adaptive uitvoeren van query -. De aanvankelijke steun voor het automatisch selecteren van het aantal verloopstukken voor joins en samenvoegingen
- Het vermijden van dubbele filters in Data Source API -. Bij de uitvoering van een gegevensbron met filter pushdown, kunnen ontwikkelaars nu vertellen Spark SQL om te voorkomen dat dubbele evaluatie van een gedrukt-down filter
- Fast null-safe toetreedt - sluit zich aan bij het gebruik van null-safe gelijkheid (& # X3c; = & # x3e;) zal nu uit te voeren met behulp van SortMergeJoin in plaats van het berekenen van een cartisian product .
- In-memory Zuilvorm Cache Performance - Aanzienlijke (tot 14x) versnellen wanneer caching gegevens die complexe vormen in DataFrames of SQL bevat .
- SQL kan worden uitgevoerd Off-heap-geheugen - Ondersteuning voor de configuratie uitvoeren van query op te treden met behulp van off-heap geheugen om GC overhead te voorkomen
Wat is nieuw in versie 1.5.2:
- De kern API ondersteunt nu multi-level aggregatie bomen te helpen versnellen duur te verminderen operaties.
- Verbeterde fout rapportage is toegevoegd voor bepaalde Gotcha operaties.
- Spark's Jetty afhankelijkheid is nu in de schaduw om te helpen conflicten met gebruiksvriendelijke programma's te vermijden.
- Spark ondersteunt nu SSL-encryptie voor enige vorm van communicatie eindpunten.
- Realtime GC metrics en opnemen tellingen zijn toegevoegd aan de UI.
Wat is nieuw in versie 1.4.0:
- De kern API ondersteunt nu multi-level aggregatie bomen te helpen versnellen duur te verminderen operaties.
- Verbeterde fout rapportage is toegevoegd voor bepaalde Gotcha operaties.
- Spark's Jetty afhankelijkheid is nu in de schaduw om te helpen conflicten met gebruiksvriendelijke programma's te vermijden.
- Spark ondersteunt nu SSL-encryptie voor enige vorm van communicatie eindpunten.
- Realtime GC metrics en opnemen tellingen zijn toegevoegd aan de UI.
Wat is nieuw in versie 1.2.0:
- PySpark's soort operator biedt nu ondersteuning voor externe morsen voor grote datasets .
- PySpark ondersteunt nu uitzending variabelen die groter zijn dan 2 GB en voert externe morsen tijdens soorten.
- Spark voegt een job-niveau vooruitgang pagina in de Spark UI, een stabiele API voor voortgangsrapportage, en dynamische actualisering van de output metrics als banen voltooid.
- Spark heeft nu ondersteuning voor het lezen van binaire bestanden voor afbeeldingen en andere binaire formaten.
Wat is nieuw in versie 1.0.0:
- Deze versie breidt standaard bibliotheken Spark, de invoering van een nieuwe SQL-pakket (Spark SQL) waarmee gebruikers te integreren SQL-query's in bestaande Spark workflows.
- MLlib, Spark machine learning bibliotheek, wordt uitgebreid met schaars vector ondersteuning en een aantal nieuwe algoritmen.
Wat is nieuw in versie 0.9.1:
- Fixed hash collision bug in externe morsen
- Vaste conflict met log4j Spark voor gebruikers met een beroep op andere logging backends
- Fixed Graphx ontbreekt Spark assemblage pot in Maven bouwt
- Fixed silent mislukkingen te wijten aan de uitgang de status kaart van meer dan Akka framemaat
- onnodige directe afhankelijkheid verwijderd Spark op ASM
- Verwijderd metrics-ganglia van de standaard build te wijten aan LGPL licentie conflict
- Fixed bug in de distributie tarball zonder vonk assemblage jar
Wat is nieuw in versie 0.8.0:
- Ontwikkeling is verhuisd naar de Apache Foundation Sowftware als een incubator project.
Wat is nieuw in versie 0.7.3:
- Python prestaties: mechanisme Spark voor paaien Python VM's heeft verbeterd om dat sneller te doen wanneer de JVM heeft een grote heap omvang, het versnellen van de Python API.
- Mesos verhelpt: JAR toegevoegd aan je taak zal nu op de classpath bij deserialize taakresultaten in Mesos .
- Fout rapportage. Betere foutrapportage voor niet-serializable uitzonderingen en al te grote taakresultaten
- Voorbeelden:. Toegevoegd een voorbeeld van stateful stream processing met updateStateByKey
- Build:. Spark Streaming niet langer afhankelijk van de Twitter4J repo, die moet toelaten om te bouwen in China
- Bug fixes in foldByKey, streaming telling, statistieken methoden, documentatie en web UI.
Wat is nieuw in versie 0.7.2:.
- Scala versie bijgewerkt naar 2.9.3
- Verschillende verbeteringen aan Bagel, met inbegrip van de prestaties fixes en een configureerbare opslag niveau.
- Nieuwe API methoden:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition, en anderen
- Een nieuwe metrics rapportage-interface, SparkListener, voor meer informatie daarover berekening fase te verzamelen. Taak lengtes, bytes geschud, etc
- Verschillende nieuwe voorbeelden van het gebruik van de Java API, met inbegrip van K-middelen en informatica pi.
Wat is nieuw in versie 0.7.0:
- Spark 0.7 voegt een Python API genaamd PySpark <. / li>
- Spark banen nu lancering van een web dashboard voor het bewaken van het geheugengebruik van elk verdeeld dataset (RDD) in het programma.
- Spark kan nu worden gebouwd met behulp van Maven in aanvulling op SBT.
Wat is nieuw in versie 0.6.1:
- Fixed overdreven agressief bericht time-outs dat werknemers kunnen veroorzaken los te koppelen van het cluster.
- Fixed a bug in de stand-alone deploy modus die niet hostnames te scheduler niet bloot te stellen, waardoor HDFS plaats.
- Verbeterde hergebruik verbinding in de shuffle, die sterk kan versnellen kleine shuffles.
- Fixed enkele potentiële impasses in het blok manager.
- Fixed a bug krijgen ID's van mislukte systemen van Mesos.
- Verschillende EC2 script verbeteringen, zoals betere afhandeling van spot gevallen.
- Maakte de lokale IP-adres dat Spark bindt aan aanpasbare.
- Ondersteuning voor Hadoop 2 distributies.
- Ondersteuning voor het lokaliseren van Scala op Debian distributies.
Wat is nieuw in versie 0.6.0:.
- Eenvoudiger deployment
- de documentatie Spark's is uitgebreid met een nieuwe quick start guide, extra inzet instructies, configuratie gids, tuning gids, en verbeterde Scaladoc API-documentatie.
- Een nieuwe communicatie-manager te openen met asynchrone Java NIO laat shuffle operaties sneller, vooral bij het verzenden van grote hoeveelheden data, of wanneer baan hebben veel taken.
- Een nieuwe Storage Manager ondersteunt per-dataset storage-instellingen (bijv. Of de dataset in het geheugen te houden, gedeserialiseerd, op de harde schijf, etc, of zelfs gerepliceerd over nodes).
- Verbeterde debugging.
Reacties niet gevonden