Apache Parket is een "zuilvormige" data-opslag formaat dat speciaal is gemaakt voor de Apache Hadoop familie van de projecten.
Parquet wordt aanbevolen voor gebruik met grote data, vooral omdat het een complex systeem voor het comprimeren, gebaseerd op een reeks geoptimaliseerde opname versnipperen en hermontage algoritmen.
Dit kunnen gegevens worden afgebroken, georganiseerd in een geneste indeling, en weer in elkaar gezet wanneer opgevraagd.
De Parquet formaat kan ook worden gebruikt buiten de Hadoop ecosysteem, worden speciaal ontworpen als agnostische mogelijk te zijn, werken met elk type verwerking raamwerk en gegevensopslag.
< strong> Wat is nieuw in deze release:
- de naam van pakketten en maven coördineert org.apache
- Voeg encoding statistieken aan ColumnMetaData li>
- Streaming thrift API
- Nieuwe logische types
Wat is nieuw in versie 2.3.0:
- De naam van pakketten en Maven coördineert org.apache
- Voeg encoding statistieken aan ColumnMetaData li>
- Streaming thrift API
- Nieuwe logische types
Beperkingen
- Het project is nog in ontwikkeling in de Apache Incubator repository en kan drastisch veranderen van versie naar versie.
Reacties niet gevonden