DataCleaner is een open source en helemaal gratis oplossing voor organisaties en bedrijven die willen verhogen en het meten van de kwaliteit van hun gegevens.
Met DataCleaner, kunnen gebruikers naar het profiel, vergelijken, valideren van gegevens tegen business rules, en toezicht houden op de voortgang van deze metingen in de tijd.
Een van de mogelijkheden, we kunnen data monitoring, data profiling en DQ-analyse, data cleansing en verrijking te noemen, op te sporen en samenvoegen duplicaten, kwaliteit van klantgegevens, evenals super-fast ETLightweight (Extract-Transform-Load).
Voor meer informatie over DataCleaner de functies en mogelijkheden, leren en hoe ermee te werken, verwijzen wij u naar http://eobjects.dk/docs
What is nieuw in deze release:
- de verbeteringen en nieuwe functies:
- We hebben het mogelijk gemaakt om te creëren en drop tabellen via de desktop UI van DataCleaner. Merk op dat de term & quot; tafel & quot; hier eigenlijk omvat meer dan alleen relationele database tabellen. Het bevat ook Sheets in MS Excel datastores, Collecties in MongoDB, types Document in CouchDB en ElasticSearch en ga zo maar door ... In principe alle soorten data warehouse dat write-operaties, met uitzondering van single-table datastores zoals CSV datastores ondersteunen, ondersteunen deze functionaliteit! De functionaliteit wordt blootgesteld via:
- & quot; tafel & quot; ingeschakeld via het snelmenu van schema's in de boom aan de linkerkant van de applicatie.
- & quot; tafel & quot; enabled ook via tafel-selectie inputs in componenten zoals invoegen in, tafel lookup en tafel Update.
- & quot; Drop tafel & quot; ingeschakeld via het snelmenu van de tabellen in de boom aan de linkerkant van de applicatie.
- We hebben de (optionele) mogelijkheden van het opgeven van uw Salesforce.com webservice Endpoint URL toegevoegd. Hierdoor kunt u DataCleaner gebruiken om verbinding te maken met sandbox omgevingen van Salesforce.com en om uw eigen aangepaste eindpunten.
- De ElasticSearch ondersteuning is verbeterd, waardoor custom mappings alsmede hergebruik van de ElasticSearch datastore definities nu ook voor het zoeken en indexeren.
- De bemonstering van gegevens en selectie van potentiële duplicaten in de Duplicate-functie is verbeterd, wat leidt tot een snellere configuratie omdat de beslissingen die tijdens de training zijn meer representatief zijn.
- De Duplicate detectie model bestandsformaat is bijgewerkt, die de noodzaak voor een aparte 'referentie' bestand is verwijderd om het verleden training beslissingen te redden. Compatibiliteit met het oude formaat bewaard is gebleven, maar met behulp van het nieuwe formaat voegt veel voordelen voor de gebruikerservaring.
- Bugfixes:
- Een thread hongersnood probleem werd vastgesteld in DataCleaner monitor. De impact van deze kwestie was geweldig, maar het gebeurde alleen in zeldzame en zeer aangepaste gevallen. Als aangepaste luisteraar op de DataCleaner beeldscherm voorwerpen zou een fout te gooien, zou dit resulteren in een resource nooit wordt vrijgemaakt en het nemen van een draad uit de Quartz-scheduling zwembad op de server. Als dit vele malen zou gebeuren zou de server uiteindelijk opraken van threads in dat zwembad.
- De verticale menu op het scherm resultaat is nu bezig met een goede baan van het weergeven van de labels van de onderdelen die resultaten. Dit maakt het makkelijker om te herkennen welke menu-item verwijst naar welk resultaat punt.
Wat is nieuw in versie 3.5.5:
- De 'Synoniem lookup' transformatie heeft nu een optie opzoeken elke teken van de ingang. Dit is handig als u de vervanging van synoniemen doet binnen de waarden van een lange tekst veld.
- Het blokkeren van de uitvoering van de banen DataCleaner via de monitor webservice hiervoor zou kunnen soms niet met een bug veroorzaakt door de blokkering thread. Dit probleem is opgelost.
- Een verbetering werd gemaakt in de manier waarop de werkgelegenheid en de volgorde van de onderdelen zijn gesloten / opgeruimd na de uitvoering.
- De JNLP / Java WebStart versie van DataCleaner werd blootgelegd door een bug in de Java-runtime waardoor bepaalde JAR-bestanden die niet door de WebStart launcher te worden erkend, onder bepaalde omstandigheden. Dit probleem is opgelost door het maken van kleine aanpassingen aan die JAR-bestanden.
- Een paar dode links in de documentatie werd vastgesteld.
Wat is nieuw in versie 3.5.4:
- Het is nu mogelijk om de productie kolommen van transformaties verbergen . Het verbergen heeft geen invloed op de verwerking stroom helemaal niet, maar gewoon verstoppen ze van de user interface, en dus potentieel het maken van de ervaring meer schone, in de omgang met andere componenten.
- Een nieuwe webservice is toegevoegd aan de controle web applicatie, die een manier om de status van de uitvoering van een bepaalde baan pollen biedt.
- Een bug is vastgesteld, waardoor de HTML-rapport te falen voor bepaalde soorten analyses wanneer er geen gegevens werden verwerkt.
- En 6 andere kleine bug is gericht.
Wat is nieuw in versie 3.5.1:
- Capture gewijzigde records:
- Een nieuwe filter werd toegevoegd aan incrementele verwerking van records die niet eerder zijn behandeld, bijvoorbeeld in staat stellen voor profilering of kopiëren alleen gewijzigde gegevens. De naam van de nieuwe filters is Capture gewijzigde records, verwijzend naar het concept van Change data capture.
- In wachtrij uitvoering van banen:
- De DataCleaner monitor wordt nu in de rij de uitvoering van hetzelfde werk, als het meerdere keren wordt geactiveerd. Dit zorgt ervoor dat u hetzelfde werk niet per ongeluk draaien gelijktijdig wat kan leiden tot allerlei problemen, afhankelijk van wat het werk doet.
- Minor bugfixes:
- Verschillende bugfixes geïmplementeerd.
Wat is nieuw in versie 3.5:
- Een aantal wizards zijn nu beschikbaar voor het registreren datastores; waaronder bestanden uploaden naar de server voor CSV-bestanden, database connectie binnenkomst, geleid registratie van Salesforce.com referenties en nog veel meer.
- De taak gebouw wizards zijn ook uitgebreid met een aantal verbeterde functies; Selectie van de waarde distributie en het patroon te vinden velden in de Quick analyse tovenaar, een geheel nieuwe wizard voor het EasyDQ gebaseerd klant reiniging banen en een nieuwe baan tovenaar voor banen Pentaho Data Integration vuren (lees hieronder meer) maken.
- U kunt nu ad-hoc te vragen elke datastore direct in de web-gebruikersinterface. Dit maakt het gemakkelijk om snel of sporadische inzichten in de data te krijgen zonder het opzetten van werk of andere beheerde aanpak van de verwerking van de gegevens.
- Zodra banen of datastores worden gemaakt, wordt de gebruiker geleid om actie te ondernemen met de nieuw gebouwde object. Bijvoorbeeld, kunt u heel snel uitvoeren van een taak direct na het is gebouwd, of query een datastore nadat het is geregistreerd.
- Beheerders kunnen nu rechtstreeks opdrachten naar de repository, wat vooral handig is uploaden als je wilt met de hand bewerkt u de XML-inhoud van het werk bestanden.
- Een groot deel van de technische cruft is nu verborgen in het voordeel van het tonen van eenvoudige dialogen. Bijvoorbeeld, wanneer een taak wordt geactiveerd een groot laad- indicator wordt weergegeven, en wanneer u klaar bent zal het resultaat worden getoond. De geavanceerde logging scherm dat was eerder kan er nog worden bij het klikken op een link voor meer details weergegeven.
Wat is nieuw in versie 3.1.2:
- We hebben een webservice in de bewaking toegevoegd aanvraag voor het verkrijgen van een (lijst van) metrische waarden. Dit maakt de controle nog meer bruikbaar als een belangrijke component infrastructuur, als een manier om data (kwaliteit) te bewaken en bloot de resultaten aan applicaties van derden.
- De 'Tafel lookup' component is verbeterd door de toevoeging mee semantiek als een configureerbare eigenschap. Met behulp van de join semantiek je kunt aanpassen als je het opzoeken om semantisch werken als een LEFT JOIN wensen of een INNER JOIN.
- De EasyDQ onderdelen zijn opgewaardeerd, het toevoegen van verdere configuratie-opties en een rijkere deduplicatie resultaat interface.
- Prestaties verbeteringen hebben een specifieke focus van deze release zijn. Er zijn verbeteringen aangebracht in de motor van DataCleaner verder gebruik van een streaming processing benadering in bepaalde hoek gevallen die eerder niet werd gedekt.
Wat is nieuw in versie 3.1.1:
- De datum en tijd gerelateerde analyse mogelijkheden zijn uitgebreid , het toevoegen van de distributie analysers voor weeknummers, maanden en jaren. Alle analyzers met betrekking tot de datum en tijd zijn nu gegroepeerd binnen een submenu genaamd & quot; Datum en tijd & quot; onder & quot; Analyseer & quot;.
- Een optionele & quot; beschrijvende statistiek & quot; optie is toegevoegd aan het nummer analyzer en de datum / tijd analyzer. Deze optie wordt aanvullende statistieken de resultaten van deze analyseapparaten zoals Median, Skewness, percentielen en Kurtosis. Deze statistieken zijn optioneel, omdat hun geheugen footprint is iets groter dan de bestaande statistieken.
- De lijnen in de tijdlijn grafieken van de monitoring webapplicatie nu kleine stipjes in hen. Dit is vooral handig voor diagrammen met weinig (of zelfs maar één) waarnemingen in hen -. Om erop te wijzen waar de observatie punten
- De query parser wanneer een beroep op ad-hoc queries zijn ook aanzienlijk verbeterd. Nu vragen kunnen DISTINCT clausules, * -wildcards, subqueries bevatten en fault-tolerant tegenover text-case kwesties.
- Twee nieuwe transformatoren zijn toegevoegd voor het genereren van UUID's en voor het genereren van timestamps.
Wat is nieuw in versie 3.1:
- Metric formules - uitgewerkt Data Quality KPI's:
- Het is nu mogelijk om veel meer te bouwen uitwerken Data Quality KPI's in DataCleaner's toezicht webapplicatie. De user interface stelt u in staat om complexe formules in een spreadsheet-achtige formule stijl te bouwen; het gebruik van variabelen door banen DataCleaner verzameld.
- Metric formules kan elk aantal metrieken constanten en verrichtingen combineren zolang het kan worden uitgedrukt in een wiskundige vergelijking.
- Bijvoorbeeld - het meten van de snelheid van de dubbele records in percentage van het totaal aantal records. Of het meten van de hoeveelheid van het product codes die voldoen aan een reeks van meerdere snaren patronen.
- Ad-hoc query - van elke datastore:
- Met DataCleaner 3.1 u nu ad-hoc queries kan uitvoeren aan een datastore! Queries kunnen dienen in duidelijke SQL en wordt toegepast op databases en bestanden, NoSQL-databases en nog veel meer, het verstrekken van een echt nuttig vraag mechanisme om uit te breiden naar uw ontdekking en data profiling ervaring.
- De query optie is ook beschikbaar via een webservice aan het toezicht op de gebruikers met de ADMIN rol. De query wordt geleverd als een HTTP POST parameter of het lichaam, en het resultaat wordt geleverd als een XHTML tafel.
- Waarde matcher - een nieuwe analyse optie:
- Vaak heb je een concreet idee over welke waarden moeten worden toegestaan en verwacht voor een bepaald gebied. In DataCleaner er altijd de Value Distribution analyse optie die u zou helpen je aannames gelden geweest. In DataCleaner 3.1 hoewel, je hebt een nauwkeuriger aanbod - de waarde matcher. Deze analyse optie kunt u een set van verwachte waarden te specificeren en voer een waarde distributie, zoals analyse, met name om te valideren en te identificeren onverwachte waarden.
- Kopiëren, wissen en het beheer van banen:
- Beheer van de werkgelegenheid en de resultaten in de DataCleaner beeldscherm applicatie is sterk verbeterd. U kunt nu op een baan in de Planning pagina van de monitor, en vind het beheer opties beschikbaar voor maatregelen zoals hernoemen, kopiëren, verwijderen en nog veel meer. Elke handeling respecteert de koppelingen met andere artefacten op de monitor, zoals analyseresultaten, schema's en nog veel meer. Dit betekent dat het management van de monitoring repository een stuk eenvoudiger en volwassen is geworden.
- Beheer van datakwaliteit geschiedenis:
- Soms je geconfronteerd met situaties waar je eigenlijk wilt controle doen met historische data! Het kan zijn dat u de historische stortplaatsen of back-ups van databases, die u wilt laten zien en vertellen het verhaal van. U kunt nu de analyse van deze historische gegevens uploaden naar de DataCleaner monitor, en het gebruik van een nieuwe webdienst, stel een historische data van dat bepaalde analyseresultaat. Dit betekent dat uw tijdlijnen behoren de resultaten zullen plot met behulp van hun beoogde datum, maar met de resultaten die je misschien hebt verzameld op een later tijdstip.
- Clustered scheduler ondersteuning (alleen EE):
- De scheduler van DataCleaner extern beeldscherm is, zodat het kan worden vervangen door middel van eenvoudige configuratie. In de Enterprise Edition (EE) van DataCleaner, bieden we een geclusterde scheduler, de mogelijkheid om het evenwicht over een cluster van machines laden en distribueren van uw uitvoeringen.
- Single-signon (SSO) met behulp van CAS (EE only):
- In de Enterprise Edition (EE) van DataCleaner we bieden nu een single-sign-on optie voor de monitor applicatie. Nu DataCleaner kan een geïntegreerd onderdeel van uw IT-infrastructuur, ook de veiligheid-wijs zijn.
- ... En nog veel meer:
- Het bovenstaande is slechts een samenvatting. Meer dan dertig zijn opgelost in deze versie. We hebben een aantal verzoeken van de forums en gemeenschap opgelost, en we moedigen iedereen aan om dit medium te gebruiken als een voertuig voor verandering. We zijn erg blij om de ontwikkeling van DataCleaner sterk beïnvloed worden door de stromen in de gemeenschap.
Wat is nieuw in versie 3.0.3:
- Voegt een dienst voor het hernoemen van banen in de controle repository .
- U kunt dit openen als een REST webservice of interactief in de gebruikersinterface.
- Een webservice werd toegevoegd voor het veranderen van de historische datum van een analyse resultaat van het toezicht repository.
- De webapplicatie is compatibel met legacy JSF containers gemaakt.
- Caching van configuratie in de webtoepassing is sterk verbeterd, wat leidt tot sneller laden van de pagina en initialisatie job tijden.
Wat is nieuw in versie 3.0.2:
- Bij het activeren van een baan bij de controle webapplicatie, het paneel automatisch ververst elke seconde om de laatste stand van de uitvoering te krijgen.
- Bestandsgebaseerde datastores (zoals CSV of Excel-spreadsheets) met absolute paden worden nu correct opgelost in de controle webapplicatie.
- De & quot; kiezen uit sleutel / waarde map & quot; transformator ondersteunt nu geneste select uitdrukkingen als & quot; Address.Street & quot; of & quot; orderregels [0] .product.name & quot;.
- De tabel lookup mechanisme zijn geoptimaliseerd voor de prestaties, het gebruik van prepared statements bij het lopen tegen JDBC databases.
- Beheerders kunnen nu op bestanden gebaseerde gegevensarchieven rechtstreeks vanuit de & quot te downloaden; pagina.
- Exception handling in de controle webapplicatie is verbeterd een beetje, waardoor de foutmeldingen nauwkeuriger en intuïtief.
Datastores & quot;
Wat is nieuw in versie 3.0.1:
- De primaire bugfix in deze release was over het herstellen van de in kaart brengen van de kolommen en specifieke indelingen worden opgesomd. Bijvoorbeeld in de nieuwe Volledigheid analyzer, vonden we dat na het herladen van een opgeslagen taak, het in kaart brengen was niet altijd correct.
- Verder enkele interne verbeteringen zijn aangebracht, waardoor het makkelijker om de DataCleaner-monitor webapplicatie in omgevingen implementeren met behulp van het Spring Framework.
- Last but not least, de visualisatie instellingen in de desktop-applicatie zijn verbeterd door automatisch een kijkje te nemen op de taak die wordt gevisualiseerd en heen en weer schakelen weergegeven artefacten op basis van de grootte van het scherm en de hoeveelheid gegevens die nodig is om het mooi te laten zien.
Wat is nieuw in versie 3.0:
- Weergave van de tijdlijn en de trends van de datakwaliteit metrics
- centrale opslagplaats voor het beheer en met banen, resultaten, tijdschema's etc.
- Planning en auditing banen DataCleaner
- Het verstrekken van web services voor het inroepen van DataCleaner transformaties
- Beveiliging en multi-tenancy
- Waarschuwingen en meldingen wanneer datakwaliteit statistieken zijn uit hun verwachte comfortzones.
- Er is een nieuwe Volledigheid analyzer die is erg handig voor het eenvoudig identificeren van records die onvolledige velden hebben.
- U kunt nu exporteren DataCleaner resultaten mooi ogende HTML meldt dat je kunt geven aan uw manager, of naar uw XML-parser!
- De nieuwe controle-omgeving is ook nauw geïntegreerd met de desktop-applicatie. Zo is de desktop applicatie heeft nu de mogelijkheid om de werkgelegenheid en de resultaten publiceren op de monitor repository, en worden gebruikt als een interactieve editor voor inhoud die al in de repository.
- Nieuw-date georiënteerde transformaties zijn nu beschikbaar: Date range filter, waarmee u datasets subsets op basis van datumbereiken en datum De, die het mogelijk maakt om een datum te formatteren met behulp van een datum masker .
- De Regex Parser (die voorheen alleen beschikbaar was via de ExtensionSwap) is nu opgenomen in DataCleaner. Dit maakt het erg handig om te ontleden en te standaardiseren rich text velden met behulp van reguliere expressies.
- Er is een nieuwe tekst geval transformator beschikbaar. Met deze transformatie kunt u eenvoudig converteren tussen hoofd- / kleine letters en de juiste activering van zinnen en woorden.
- Twee nieuwe zoekopdracht / vervangen transformaties zijn toegevoegd:. Plain zoeken / vervangen en Regex zoeken / vervangen
- De gebruikerservaring van de desktop-applicatie is verbeterd. We hebben een aantal in-applicatie helpberichten toegevoegd, maakte de kleuren zien er helderder en duidelijker en verbeterde het lettertype afhandeling.
Wat is nieuw in versie 2.5.2:
- Apache CouchDB ondersteuning:
- We hebben ondersteuning toegevoegd voor de NoSQL-database Apache CouchDB. DataCleaner ondersteunt zowel het lezen van, het analyseren en het schrijven van uw CouchDB gevallen.
- table update schrijver:
- Naar aanleiding van onze eerdere pogingen om ETLightweight-stijlkenmerken in DataCleaner te brengen, hebben we een schrijver die records in een tabel updates toegevoegd. U kunt dit gebruiken om bijvoorbeeld documenten in te voegen of bij te werken op basis van specifieke omstandigheden.
- Als het inzetstuk in tabel schrijver, de nieuwe DataCleaner update tafel schrijver is niet beperkt tot SQL-gebaseerde databases, maar elk datastore type dat ondersteunt het schrijven van (momenteel relationele databases, CSV-bestanden, Excel spreadsheets, MongoDB databases en MongoDB databases), maar de semantiek zijn hetzelfde als bij een traditionele UPDATE TABLE in SQL.
- Drill-to-detail informatie opgeslagen in resultaat bestanden:
- Bij het gebruik van de Save resultaat kenmerk van DataCleaner 2,5, sommige gebruikers ervaren dat hun drill-to-detail informatie werd verloren. In DataCleaner 2.5.2 we nu ook aanhouden van deze informatie, het maken van uw DQ archieven veel waardevoller bij het onderzoek naar historische gegevens incidenten.
- Verbeterde EasyDQ foutafhandeling:
- De EasyDQ componenten zijn verbeterd in termen van foutafhandeling. Als een kortstondige netwerk probleem zich voordoet of een ander soortgelijk probleem veroorzaakt een paar platen te mislukken, zal de EasyDQ componenten nu gracieus herstellen en vooral -. Uw batch werk zal zegevieren, zelfs ondanks de fouten
- Tabel mapping voor NoSQL datastores:
- Sinds CouchDB en MongoDB worden niet tabel gebaseerd, maar hebben een meer dynamische structuur bieden wij twee benaderingen om samen met hen: De standaard, die is te laten DataCleaner autodetect een tafel structuur, en de geavanceerde waarmee u handmatig op te geven uw gewenste tabelstructuur. Voorheen werd het geavanceerde optie was alleen verkrijgbaar via XML-configuratie, maar nu is de user interface bevat passende dialogen om dit te doen rechtstreeks in de toepassing.
Wat is nieuw in versie 2.4.1:
- Feature verbeteringen:
- Batch laden functies die we nu sterk verbeterd bij het schrijven van data naar de database tabellen. Verwacht om vele ordes van grootte verbeteringen hier te zien.
- Het schrijven van gegevens is gemakkelijker ter beschikking gesteld door het toevoegen van de opties om het menu venster.
- U kunt nu gemakkelijk de naam van onderdelen van een baan door te dubbelklikken op hun tabbladen.
- De Javascript transformator heeft nu syntax-kleuring, zodat uw javascripts zijn gemakkelijker te controleren en te wijzigen.
- Bugfixes:
- Bij het lezen van en schrijven naar dezelfde gegevens op te slaan (bv. De DataCleaner staging gebied) we hebben ervoor gezorgd dat de tafel cache van die datastore wordt vernieuwd gemaakt. Eerder sommige gevallen mag u een out-of-date beeld van de tabellen te zien.
- Een potentiële impasse bij het opstarten van de applicatie is opgelost. Deze impasse was een gevolg van een probleem in de JVM, maar we werkten rond het door het synchroniseren van alle oproepen naar de specifieke API in Java.
Wat is nieuw in versie 2.4: (. Aka Deduplication of Fuzzy matching records)
- Dubbele detectie , die gratis te gebruiken voor maximaal 500.000 waarden.
- Address data validatie en reiniging. Hierdoor kunt u controleren of adressen bestaan, indien ze correct worden geformatteerd en zelfs om correcties in het geval je fouten te stellen.
- Name data validatie en reiniging. Met de naam van de service heeft EasyDQ niet alleen het formaat van uw namen consistent, maar controleert ook voor spelfouten en interpreteert de naam delen.
- E-mail en telefoon validatie en reiniging. Deze diensten bieden het controleren van e-mail en telefoon gegevens, om ervoor te zorgen dat e-mail domeinen bestaan, dat land codes correct en nog veel meer.
Wat is nieuw in versie 2.3:
- International data support:
- Als u werkt met de internationale gegevens, dan moet u wellicht verschillend karakter sets in uw gegevens, bijvoorbeeld Chinees of Hebreeuws. Wij voegden de tekenset distributie analyzer, dat is een profiling optie waarmee u erachter te komen welke tekensets worden gebruikt in uw gegevens.
- Werken met gegevens die verschillende tekensets kan problematisch zijn. Met behulp van de nieuwe Transliterate transformator kunt u nu translitereren strings uit verschillende schriftelijk systemen om Latijnse karakters.
- Er is ook een nieuwe webcast demonstratie, gericht op de internationale data mogelijkheden van DataCleaner 2.3 in de documentatie sectie.
- Groepering van analyseresultaten door een secundaire column:
- De Pattern analyser is nu in staat om de groep patronen op basis van een tweede kolom. Dit is handig voor analyses, zoals:
- Krijg patronen van telefoonnummers, gegroepeerd per land.
- Get patronen van e-gebruikersnaam op basis van e-mail domein.
- Iets dergelijks is gedaan voor het Value Distribution analyzer; dit zorgt voor analyses, zoals:
- Zijn alle plaatsnamen onderscheiden, wanneer gegroepeerd per postcode?
- Wat is de verdeling van mannen en vrouwen binnen bepaalde soorten klanten?
- Verbeterde charts:
- De Pattern finder resultaten kunnen nu worden weergegeven in een grafiek. Dit maakt de distributie zichtbaar en laat zien hoe veel van een & quot; lange staart & quot; patronen die er is.
- De output van de waarde distributie analyzer is verbeterd in een paar gebieden:
- De leesbaarheid van de grafiek is verbeterd.
- Het toont het totaal aantal rijen en de eenmalig aantal in deze rijen: het aantal verschillende waarden die bestaan in de rijen. Dit helpt bij het uitzoeken hoe vaak dubbele waarden bestaan.
- Als er lege tekenreeksen, gebruiken we het sleutelwoord voor het, zodat het gemakkelijker te herkennen.
- Output:
- Naast de reeds bestaande output formaten (CSV-bestanden en H2 datastores) voegden we het schrijven van output naar Excel spreadsheets.
- Na het schrijven van een datastore, is het nu mogelijk een voorbeeld van de output, zodat u kunt controleren of de uitgang wordt op basis van uw verwachtingen.
- Het is nu mogelijk om de output als nieuwe datastore toevoegen, zodat het kan worden gebruikt als input voor een nieuwe baan.
- Andere verbeteringen:
- Documentatie is over het algemeen verbeterd. In het bijzonder, hebben houtkap en command line interface beschrijvingen zijn toegevoegd.
- De uitbreiding mechanisme is verbeterd door modulariseren verschillende stukken van de aanvraag en de invoering van Google Guice als een algemeen beschikbare dependency injection kader voor uitbreiding ontwikkelaars.
- En natuurlijk hebben we meer dan twintig kleine verbeteringen en bug fixes.
Wat is nieuw in versie 2.2:
- De belangrijkste reden voor deze release is een verhaal over uitbreidingsmogelijkheden . Terwijl het vrijgeven van de applicatie zijn we gelijktijdig vrijgeven van een nieuwe DataCleaner website die een belangrijke nieuwe centrum beschikt over: The ExtensionSwap. Het idee van de ExtensionSwap is om het delen van uitbreidingen DataCleaner en installatie mogelijk door simpelweg te klikken op een knop in de browser!
- De DataCleaner extensie API is een stuk verbeterd in deze release, waardoor het mogelijk is om uw eigen transformatoren, analyzers en filters maken. Als u denkt dat uw extensies kan interessant zijn voor andere gebruikers, dan kunt u delen op de ExtensionSwap en wij bieden een kanaal voor u om het gemakkelijk te distribueren naar duizenden gebruikers. De Extension API en de ExtensionSwap wordt nader toegelicht in onze nieuwe webcast demonstratie voor ontwikkelaars en andere techneuten met een belang.
- We zijn ook het vrijgeven van een reeks van de eerste uitbreidingen op de ExtensionSwap: De HIquality contact DataCleaner toestel dat biedt geavanceerde naam, telefoonnummer en e-mail reiniging, gebaseerd op menselijke Inferenties natural language processing DQ webservices. We zijn ook de scheepvaart een sample-extensie die als voorbeeld voor ontwikkelaars die willen uitproberen verlenging ontwikkeling zelf zal dienen. In de komende maanden zullen we ervoor zorgen dat nog meer uitbreidingen die afkomstig zijn van onze interne portfolio van tools die we gebruiken bij Human Inference's kennis vergaren teams te plaatsen.
- In aanvulling op uitbreidbaarheid we zijn ook gericht op embeddability. We willen in staat zijn om DataCleaner gemakkelijk insluiten in andere toepassingen om overal profiling en data-analyse mogelijk te maken! We hebben een nieuwe bootstrapping API waarmee toepassingen DataCleaner bundelen en bootstrap het met een dynamische configuratie of uit te voeren in een & quot; enkele datastore mode & quot ;, waar de aanvraag wordt afgestemd in de richting van slechts de inspectie van een enkele datastore (meestal gedefinieerd door de toepassing dat integreert DataCleaner). We hebben al een aantal echt interessante gevallen van inbedding DataCleaner in de werken -., Zowel in andere open source-applicaties en commerciële toepassingen
- We hebben ondersteuning toegevoegd voor het analyseren van SAS data sets. Dit is iets waar we heel trots op zijn als we zijn, om onze kennis, de eerste grote open source applicatie om dergelijke functionaliteit te bieden, uiteindelijk bevrijdende veel SAS gebruikers. De SAS interoperabiliteit deel werd opgericht als een apart project, SassyReader, dus we verwachten dat adoptie in een gratis open source communities DataCleaner's binnenkort te zien!
- We hebben ook ondersteuning toegevoegd voor een ander type datastore: Vaste breedte bestanden. Vaste breedte-bestanden zijn tekstbestanden waarin elke kolom heeft een vaste breedte. Er is geen separator of aanhalingsteken, zoals CSV-bestanden, maar elke regel zijn gelijk in lengte en elke lijn zal worden tokenized volgens een set van waarde lengtes.
- Een optie & quot; niet op tegenstrijdigheden & quot; werd naar CSV-bestand en vaste breedte bestand datastores toegevoegd. Deze vlaggen voeg een integriteit format controle bij het gebruik van deze tekstbestand gebaseerde dataopslag.
- Een bug is vastgesteld, die CSV separator instellingen niet in de gebruikersinterface, bij het bewerken van een CSV-gegevens op te slaan. te bewaren veroorzaakt
- Japanse en andere personages worden niet ondersteund in de gebruikersinterface. Deze & quot; bug & quot; een kwestie onderzoeken beschikbare lettertypen op het systeem en een font dat de bijzondere tekens kan weergeven selecteren. Op de meeste moderne systemen zullen er staat lettertypes beschikbaar, maar op sommige Unix / Linux takken er misschien nog beperkingen.
- De documentatie sectie is vernieuwd! Sinds de eerste 2.0 versie van de documentatie zijn ver achter, maar we hebben eindelijk in geslaagd om het te krijgen to-date. Er zijn nog steeds stukken ontbreken in de documentatie, maar het zou zeker nuttig zijn voor basisgebruik evenals een referentie voor de meeste onderwerpen zijn.
- Applicatie opstarttijd werd verbeterd door parallelizing de configuratie laden en door het uitstellen van de initialisatie van die delen van de configuratie die niet nodig zijn voor de eerste etalage.
- De fonetische overeenstemming vinder analyzer zijn verwijderd uit de hoofdverdeler, want dit was heel experimenteel en dient vooral als een proof of concept en een aperitiefje voor de gemeenschap om meer geavanceerde matching analyzers creëren. U kunt nu vinden en installeren van de fonetische overeenstemming finder op de ExtensionSwap.
- geannuleerd of errornous taakafhandeling werd verbeterd en de user interface reageert juist door het uitschakelen van knoppen en voortgangsindicatoren, als een opdracht is gestopt.
- Vast een paar kleine UI-kwesties met betrekking tot tafel dimensionering en het gebruik van schuifbalken.
Wat is nieuw in versie 2.1.1:
- Verbeteringen:
- Voegde een zoekopdracht / filtering tekstveld op de lijst datastores. Zo kunt u snel uw gegevens op te slaan als u meer datastores hebt geregistreerd dan op het scherm beschikbaar.
- referentiegegevens voor landencodes werd toegevoegd aan de standaard distributie, dank gaat naar Graham Rhind voor het verstrekken van deze.
- Voegde een horizontale schuifbalk om de gegevens te previewen ramen van zijn er meer dan 10 kolommen.
- De mogelijkheid om een extensie pakket toe te voegen met nieuwe functionaliteit in het dialoogvenster Opties op runtime. Meer nadruk op uitbreidingen zullen volgen in de komende releases.
- We hebben een vroeg voorbeeld van onze Command Line Interface (CLI) blootgesteld doordat u de applicatie met beroep doen op de & quot; -Gebruik & quot; parameter die de CLI opties zullen zien.
- Toegevoegd getalnotatie opties om de & quot; Converteren naar getal & quot; transformator.
- Bugfixes:
- Fixed een out-of-memory probleem bij het bevragen van tabellen met veel kolommen (150 +).
- een probleem opgelost die ervoor zorgen dat de & quot; Limit analyse & quot; selectievakje niet correct worden gecontroleerd wanneer een taak werd heropend na het opslaan.
- Niet echt een bugfix want het was nooit een officiële functie, maar nu ondersteunen we herstellen van voorkeuren van de gebruiker (de userpreferences.dat bestand) uit eerdere versies van DataCleaner.
Wat is nieuw in versie 2.1:
- Er was een hoop werk aan de user interface ( zie media pagina):
- We hebben besloten om het venster linkerkant te verwijderen met milieu configuratie-opties.
- In plaats van al deze opties zijn nu verplaatst naar het venster job gebouw, zodat de gebruiker alleen te concentreren op een enkel loket voor alle interacties die nodig zijn om een baan te bouwen.
- Het dialoogvenster welkom / login is ook verwijderd ten gunste van een meer discrete paneel dat in kan worden getrokken of verborgen vanuit het hoofdvenster.
- Datastore selectie en het beheer wordt beschouwd als de eerste activiteit in de applicatie, dat is waarom het is ook de eerste stap te hanteren in het hoofdvenster.
Reacties niet gevonden