DataCleaner

Software screenshot:
DataCleaner
Software informatie:
Versie: 4.0.9 Bijgewerkt
Upload datum: 27 Sep 15
Ontwikkelaar: -
Licentie: Gratis
Populariteit: 33

Rating: 4.5/5 (Total Votes: 2)

DataCleaner is een open source en volledig gratis oplossing voor organisaties en bedrijven die willen verhogen en het meten van de kwaliteit van hun gegevens.
Met DataCleaner, zullen de gebruikers kunnen profileren, vergelijken, gegevens te beveiligen tegen business rules te valideren, en het toezicht op de voortgang van deze metingen over de tijd.
Onder zijn kenmerken, kunnen we data monitoring, data profiling en DQ-analyse, data cleansing en verrijking, op te sporen en samenvoegen duplicaten, de kwaliteit van klantgegevens, evenals super-fast ETLightweight (Extract-Transform-Load) noemen.
Voor meer informatie over de functies en mogelijkheden DataCleaner's, te leren en hoe te werken met het, verwijzen wij u naar http://eobjects.dk/docs

What is nieuw in deze release :

  • De verbeteringen en nieuwe functies:
  • We hebben het mogelijk gemaakt om te maken en te laten vallen tafels via de desktop UI van DataCleaner. Merk op dat de term & quot; tafel & quot; hier eigenlijk omvat meer dan alleen relationele database tabellen. Het bevat ook Sheets in MS Excel datastores, Collecties in MongoDB, types Document in CouchDB en ElasticSearch enzovoort ... In principe alle soorten datastore die write-activiteiten, met uitzondering van single-table datastores zoals CSV datastores ondersteunen, ondersteunen deze functie! De functionaliteit wordt blootgesteld via:
  • & quot; tafel & quot; ingeschakeld via het snelmenu van de schema's in de boom aan de linkerkant van de applicatie.
  • & quot; tafel & quot; enabled ook via de tabel-selectie ingangen in componenten zoals invoegen in, tafel lookup en tabel bijwerken.
  • & quot; Drop tafel & quot; ingeschakeld via het snelmenu van de tafels in de boom aan de linkerkant van de applicatie.
  • We hebben de (optionele) mogelijkheden van het opgeven van uw Salesforce.com webservice Endpoint URL toegevoegd. Hierdoor kunt u DataCleaner ook gebruiken om verbinding te maken met sandbox omgevingen van Salesforce.com om uw eigen aangepaste eindpunten.
  • De ElasticSearch ondersteuning is verbeterd, waardoor aangepaste toewijzingen, alsmede het hergebruik van de ElasticSearch datastore definities nu ook voor het zoeken en indexeren.
  • De bemonstering van gegevens en selectie van potentiële duplicaten in de Duplicate-functie is verbeterd, wat leidt tot een snellere configuratie omdat de beslissingen die tijdens de training zijn meer representatief zijn.
  • De Duplicate detectie model bestandsformaat is bijgewerkt die is verwijderd van de noodzaak voor een aparte 'referentie' bestand om het verleden training beslissingen te slaan. Compatibiliteit met het oude formaat is behouden, maar met behulp van de nieuwe indeling voegt veel voordelen voor de gebruiker ervaring.
  • Bugfixes:
  • Een thread hongersnood kwestie werd opgelost in DataCleaner monitor. De impact van deze kwestie was geweldig, maar het gebeurde slechts in zeldzame en zeer aangepaste gevallen. Als aangepaste luisteraar objecten op het DataCleaner beeldscherm zou een fout te gooien, zou dit resulteren in een resource niet wordt vrijgemaakt en het nemen van een draad uit de Quartz-scheduling zwembad op de server. Als dit zou gebeuren vaak de server kan uiteindelijk opraken van threads in dat zwembad.
  • De verticale menu op het resultaat scherm is nu bezig met een goede baan van het weergeven van de labels van de onderdelen die resultaten. Dit maakt het makkelijker om te herkennen welke menu-item verwijst naar welk resultaat punt.

Wat is nieuw in versie 3.5.7:

  • De 'Synoniem lookup' transformatie heeft nu een optie opzoeken elk teken van de ingang. Dit is handig als je aan het doen bent vervanging van synoniemen binnen de waarden van een lange tekst veld.
  • Het blokkeren uitvoering van banen DataCleaner via de monitor web service voor dit kan soms niet met een bug veroorzaakt door de blokkering draad. Dit probleem is opgelost.
  • Een verbetering werd gemaakt in de weg banen en de volgorde van de onderdelen zijn gesloten / opgeruimd na de uitvoering.
  • De JNLP / Java WebStart versie van DataCleaner werd blootgelegd door een bug in de Java runtime waardoor bepaalde JAR-bestanden niet te worden erkend door de WebStart launcher, onder bepaalde omstandigheden. Dit probleem is opgelost door het maken van kleine aanpassingen aan die JAR-bestanden.
  • Een paar dode links in de documentatie werd vastgesteld.

Wat is nieuw in versie 3.5.4:

  • Het is nu mogelijk om de productie kolommen van transformaties verbergen . Schuilplaats heeft geen invloed op de verwerking stroom helemaal niet, maar ze gewoon verbergen voor de user interface, en dus potentieel het maken van de ervaring meer schone, wanneer de interactie met andere componenten.
  • Een nieuwe webdienst is toegevoegd aan de controle webapplicatie, wat een manier om de status van de uitvoering van een bepaalde baan pollen biedt.
  • Een bug is vastgesteld, waardoor het HTML-rapport te falen voor bepaalde soorten analyse wanneer er geen gegevens waren verwerkt.
  • en 6 andere kleine bug is gericht.

Wat is nieuw in versie 3.5.1:

  • Capture veranderd dossiers:
  • Een nieuw filter toegevoegd aan incrementele verwerking van records die niet eerder zijn behandeld, bijvoorbeeld in staat stellen voor profilering of kopiëren alleen gewijzigde gegevens. De nieuwe filters's naam is Capture gewijzigde records, verwijzend naar het concept van de verandering data capture.
  • In wachtrij uitvoering van banen:
  • De DataCleaner monitor nu wachtrij de uitvoering van hetzelfde werk, als het meerdere keren wordt geactiveerd. Dit zorgt ervoor dat je niet per ongeluk hetzelfde werk gelijktijdig te gebruiken, wat kan leiden tot allerlei problemen, afhankelijk van wat het werk doet.
  • Minor bugfixes:
  • Verscheidene bugfixes geïmplementeerd.

Wat is nieuw in versie 3.5:

  • Verscheidene wizards zijn nu beschikbaar voor het registreren datastores; inclusief bestanden uploaden naar de server voor CSV-bestanden, database connectie binnenkomst, geleid registratie van Salesforce.com referenties en meer.
  • De taak gebouw wizards zijn ook uitgebreid met een aantal verbeterde functies; Selectie van waarde distributie en het patroon te vinden velden in de Quick analyse tovenaar, een geheel nieuwe wizard voor het maken van EasyDQ gebaseerd klant reiniging banen en een nieuwe baan wizard voor het afvuren van banen Pentaho Data Integration (meer hieronder lezen).
  • U kunt nu ad-hoc te vragen elke datastore direct in de web-gebruikersinterface. Dit maakt het gemakkelijk om snel of sporadische inzichten in de gegevens op te halen, zonder het opzetten van werk of andere beheerde aanpak van de verwerking van de gegevens.
  • Als banen of datastores worden gemaakt, wordt de gebruiker geleid om actie te ondernemen met de nieuw gebouwde object. Zo kun je heel snel een baan te lopen direct na het is gebouwd, of een query een datastore nadat het is geregistreerd.
  • Beheerders kunnen nu rechtstreeks opdrachten naar de repository, wat vooral handig uploaden als je wilt de XML-inhoud van de functie-bestanden met de hand bewerkt.
  • Een groot deel van de technische cruft is nu verborgen in het voordeel van het tonen van eenvoudige dialogen. Bijvoorbeeld, wanneer een taak wordt geactiveerd een grote lading indicator wordt weergegeven, en wanneer u klaar bent het resultaat zal worden getoond. De geavanceerde logging scherm dat was eerder kan er nog steeds worden weergegeven bij het klikken op een link voor meer informatie.

Wat is nieuw in versie 3.1.2:

  • We hebben een webservice bij de monitoring toegevoegd aanvraag voor het verkrijgen van een (lijst van) metrische waarden. Dit maakt de controle nog meer bruikbaar als een belangrijke component infrastructuur, als een manier om data (kwaliteit) te controleren en de resultaten bloot aan applicaties van derden.
  • De 'Tafel lookup' component is verbeterd door de toevoeging van join semantiek als een configureerbare eigendom. Met behulp van de join semantiek kunt aanpassen als je wilt de lookup om semantisch werken als een LEFT JOIN of een INNER JOIN.
  • De EasyDQ onderdelen zijn opgewaardeerd, verdere configuratie-opties en een rijkere deduplicatie resultaat-interface toe te voegen.
  • Performance verbeteringen hebben een specifieke focus van deze release is. Verbeteringen zijn aangebracht in de motor van DataCleaner een streaming verwerking benadering in bepaalde hoek gevallen die eerder niet werd gedekt verder te gebruiken.

Wat is nieuw in versie 3.1.1:

  • De datum en tijd analyses opties zijn uitgebreid , het toevoegen van de distributie analysers voor weeknummers, maanden en jaren. Alle analyzers met betrekking tot de datum en tijd zijn nu gegroepeerd binnen een submenu genaamd & quot; Datum en tijd & quot; onder & quot; Analyseer & quot;.
  • Een optionele & quot; beschrijvende statistiek & quot; optie is toegevoegd aan het nummer analyzer en de datum / tijd analyzer. Deze optie voegt extra metrieken om de resultaten van deze analyzers, zoals Median, Skewness, percentielen en Kurtosis. Deze statistieken zijn optioneel, omdat hun geheugen footprint is iets groter dan de bestaande statistieken.
  • De lijnen in de tijdlijn grafieken van de monitoring webapplicatie nu kleine stipjes in hen. Dit is vooral handig voor grafieken met weinig (of zelfs slechts één) waarnemingen in hen -. Te wijzen waar de waarneming punten
  • De query parser bij het aanroepen van ad-hoc queries zijn ook aanzienlijk verbeterd. Nu vragen kunnen DISTINCT clausules, * -wildcards, subqueries bevatten en fault-tolerant tegenover text-case zaken.
  • Twee nieuwe transformatoren zijn toegevoegd voor het genereren van UUID's en voor het genereren van timestamps.

Wat is nieuw in versie 3.1:

  • Metric formules - uitgewerkt Data Quality KPI's:
  • Het is nu mogelijk om veel meer te bouwen uitwerken Data Quality KPI in DataCleaner de bewaking webapplicatie. De user interface kunt u complexe formules in een spreadsheet-achtige formule stijl te bouwen; gebruik van variabelen door banen DataCleaner verzameld.
  • Metric formules kan elk aantal metrieken constanten en operaties combineren, zolang het kan worden uitgedrukt in een wiskundige vergelijking.
  • Bijvoorbeeld - het meten van de snelheid van de dubbele records in percentage van het totaal aantal records. Of het meten van de hoeveelheid van het product codes die voldoen aan een reeks van meerdere snaar patronen.
  • Ad-hoc query - van elke datastore:
  • Met DataCleaner 3.1 kunt u nu ad-hoc queries uit te voeren om eventuele datastore! Query's kan worden uitgedrukt in gewone SQL en zal worden toegepast op databases en bestanden, NoSQL-databases en nog veel meer, het verstrekken van een echt nuttig vraag mechanisme om uit te breiden naar uw ontdekking en data profiling ervaring.
  • De optie vraag is ook beschikbaar via een web service te bewaken gebruikers met de ADMIN rol. De query wordt verschaft als een HTTP POST parameter of orgaan, en het resultaat wordt verschaft als een XHTML tabel.
  • Waarde matcher - een nieuwe analyse optie:
  • Vaak heb je een concreet idee over welke waarden moeten worden toegestaan ​​en verwacht voor een bepaald gebied. In DataCleaner er altijd de analyse optie Value Distribution die u zou helpen je aannames gelden geweest. In DataCleaner 3.1 hoewel, heb je een nauwkeuriger aanbod - de waarde matcher. Deze analyse optie kunt u een set van verwachte waarden specificeren en voer een waarde distributie, zoals analyse, met name om te valideren en te identificeren onverwachte waarden.
  • Het kopiëren, verwijderen en het beheer van banen:
  • Beheer van de werkgelegenheid en de resultaten in de DataCleaner beeldscherm toepassing is sterk verbeterd. U kunt nu op een baan in de Planning pagina van de monitor, en vind het beheer opties beschikbaar voor operaties zoals hernoemen, kopiëren, verwijderen en nog veel meer. Elke operatie respecteert de koppelingen naar andere artefacten in de monitor, zoals analyseresultaten, schema's en nog veel meer. Dit betekent dat het management van de monitoring repository een stuk gemakkelijker en volwassen is geworden.
  • Beheer datakwaliteit geschiedenis:
  • Soms je geconfronteerd met situaties waarin je eigenlijk wilt controle doen met historische gegevens! Het kan zijn dat u de historische stortplaatsen of back-ups van de databases die u wilt laten zien en vertellen het verhaal van. U kunt nu de analyse van deze historische gegevens uploaden naar de DataCleaner monitor en het gebruik van een nieuwe webservice, stel een historische gegevens van de betreffende analyse resultaat. Dit betekent dat uw tijdlijnen behoren de resultaten zullen plot met behulp van hun beoogde datum, maar met de resultaten die je misschien hebt verzameld op een later tijdstip.
  • Gegroepeerd scheduler ondersteuning (alleen EE):
  • De scheduler van DataCleaner extern beeldscherm is, zodat deze kan worden vervangen door middel van eenvoudige configuratie. In de Enterprise Edition (EE) van DataCleaner, bieden we een geclusterde scheduler, het verstrekken van de mogelijkheid om het evenwicht te laden en distribueren van uw executies over een cluster van machines.
  • Single-signon (SSO) met CAS (EE only):
  • In de Enterprise Edition (EE) van DataCleaner bieden wij nu een single-sign-on optie voor de toepassing monitor. Nu DataCleaner kan een geïntegreerd onderdeel van uw IT-infrastructuur, ook de veiligheid-wijs zijn.
  • ... En nog veel meer: ​​
  • Het bovenstaande is slechts een samenvatting. Meer dan dertig zijn opgelost in deze versie. We hebben opgelost verscheidene verzoeken afkomstig van de forums en gemeenschap, en we moedigen iedereen aan om dit medium te gebruiken als een voertuig voor verandering. We zijn erg blij om de ontwikkeling van DataCleaner sterk beïnvloed worden door de stromen in de gemeenschap.

Wat is nieuw in versie 3.0.3:

  • Voegt een dienst voor het hernoemen van banen in de controle repository .
  • U kunt deze toegang als een REST webservice of interactief in de UI.
  • Een webservice is toegevoegd voor het veranderen van de historische datum van een analyse resultaat in de controle repository.
  • De webapplicatie is compatibel met legacy JSF containers gemaakt.
  • Caching van configuratie in de Web applicatie is sterk verbeterd, wat leidt tot sneller laden van de pagina en werk initialisatie tijden.

Wat is nieuw in versie 3.0.2:

  • Bij het activeren van een baan in de controle webapplicatie, het paneel automatisch ververst elke seconde om de laatste stand van de uitvoering te krijgen.
  • Bestandsgebaseerde datastores (zoals CSV of Excel-spreadsheets) met absolute paden worden nu correct opgelost bij het toezicht webapplicatie.
  • De & quot; kiezen uit sleutel / waarde map & quot; transformator ondersteunt nu geneste select uitdrukkingen als & quot; Address.Street & quot; of & quot; orderregels [0] .product.name & quot;.
  • De tabel lookup mechanisme zijn geoptimaliseerd voor de prestaties, het gebruik van prepared statements bij het uitvoeren tegen JDBC databases.
  • Beheerders kunnen nu file-based datastores rechtstreeks downloaden van de & quot; Datastores & quot; pagina.
  • Exception handling bij het toezicht webapplicatie is een beetje verbeterd, waardoor de foutmeldingen nauwkeuriger en intuïtief.

Screenshots

datacleaner-70932_1_70932.png
datacleaner-70932_2_70932.png
datacleaner-70932_3_70932.png

Vergelijkbare software

ALVILA DataFlyer
ALVILA DataFlyer

11 May 15

SQL Relay
SQL Relay

27 Sep 15

Structurarium
Structurarium

20 Feb 15

mysql-python
mysql-python

17 Feb 15

Andere software van ontwikkelaar -

Imposter
Imposter

3 Jun 15

djmount
djmount

3 Jun 15

StressLinux
StressLinux

17 Feb 15

django-floppyforms
django-floppyforms

11 May 15

Reacties op DataCleaner

Reacties niet gevonden
Commentaar toe te voegen
Zet op de beelden!