LanguageTool is een open source proeflezen programma ontworpen om fouten die gewone spellingcontrole gereedschappen niet kan detecteren vinden. Het is een rule-based stijl en grammaticacontrole die fouten waarvoor de regel is gedefinieerd in de XML-configuratiebestanden, zoals het mengen up & ldquo vinden; hun & rdquo; met & ldquo;. Er & rdquo;
Detecteert verschillende grammaticale problemen
Het programma kan ook verschillende grammaticale problemen op te sporen en wordt geleverd met ondersteuning voor meer dan 20 talen, waaronder Engels, Duits, Pools, Frans, Spaans, Zweeds, Grieks, Chinees, Deens, Japans, IJslands, Portugees en Braziliaans Portugees.
Bovendien, het heeft een eenvoudig te gebruiken, eenvoudige en duidelijke grafische user interface waarmee iedereen om tekst dat moet worden spelling gecontroleerd plakken. Het kan de tekst te controleren op het klembord, tag tekst, knippen / kopiëren / plakken van tekst, en te verblijven in het systeemvak.
Detecteert uiteenlopende problemen
In het dialoogvenster Opties kunt u in staat welk type problemen de aanvraag kan detecteren, met inbegrip van slechte stijl, grammatica fouten, jargon, interpunctie fouten, mogelijke typefouten, redundante zinnen, vaak verward woorden, collocaties, kapitalisatie, semantiek, alsook als niet-standaard zinnen.
LanguageTool voor LibreOffice en OpenOffice
Naast een standalone applicatie, LanguageTool is ook beschikbaar als een uitbreiding voor twee van de meest populaire en krachtige open-source office suites, LibreOffice en Apache OpenOffice.org, zodat gebruikers hun teksten nagelezen door rechts te klikken op geselecteerde zinnen of alinea's.
LanguageTool voor Mozilla Firefox
Daarnaast is de applicatie is ook beschikbaar voor download als een add-on voor de wereld en rsquo; s meest populaire open-source web browser in de wereld, Mozilla Firefox. Het vereist geen herstart en plaatst een kleine knop op de werkbalk, zodat u gemarkeerde tekst nalezen van websites of formulieren.
Onder de motorkap en beschikbaarheid
De applicatie is volledig geschreven in de programmeertaal Java, wat betekent dat het & rsquo; sa cross-platform software, ontworpen om te werken met een GNU / Linux distributie, evenals de BSD, Solaris, Microsoft Windows en Mac OS X-besturingssysteem systemen, waarbij de Java Runtime Environment is geïnstalleerd.
Wat is nieuw in deze release:
- Catalan:
- bijgewerkt POS tag woordenboek
- nieuwe regels toegevoegd
- vaste vals alarm
- Engels:
- Toegevoegd een paar regels en vast een paar valse alarmen
- Toegevoegd veel regels nieuwe stijl bijgedragen door Heikki Lehvaslaiho. Aangezien deze valse alarmen kunnen veroorzaken, worden ze niet standaard geactiveerd. U kunt ze activeren door te draaien op alle regels in het nieuwe 'Plain Engels' categorie.
- Esperanto:
- een paar nieuwe regels toegevoegd
- Frans
- bijgewerkt POS tag woordenboek en Hunspell woordenboek Dicollecte-5.3
- German:
- een paar nieuwe regels en vaste valse alarmen toegevoegd
- Voegde een nieuwe regel die controleert onderwerp werkwoord overeenkomst. Voor nu, zijn alleen gevallen 'ist', 'sind', 'oorlog' en 'Waren' ondersteund. Voorbeeld voor de fouten die worden gedetecteerd: '. Der Hund sind Scha & para; n', 'Die Autos ist schnell.' Om deze regel te laten werken, zijn zinnen nu verenigd in disambiguation.xml: bijvoorbeeld, 'Mann' in de zinsnede 'ein Mann' zal alleen de nominatief lezen behouden (SUB: NOM: SIN: MAS), terwijl het vroeger ook accusatief en datief lezingen (SUB: AKK: SIN: MAS, SUB: DAT: SIN: MAS). (Https://github.com/languagetool-org/languagetool/issues/233)
- Italian:
- verbeterde een paar regels
- Pools:
- voegde verscheidene nieuwe regels
- Portugees:
- toegevoegd / verbeterd meerdere regels
- 3695 samengestelde woorden (vóór de hervorming) - de grootste gratis database
- Russian:
- toegevoegd en verbeterde regels
- Oekraïens:
- groot woordenboek-update
- Nieuwe grammaticaregels
- Nieuwe eenvoudig te vervangen regel voor zachte suggesties
- verbeteringen disambiguator
- verbinding tagging en spelling verbeteringen
- voorletters tagging
- zin en woord tokenizing verbeteringen
- een verbeterde afhandeling van stres symbool en zacht koppelteken
- Bitext regels:
- voegde een eenvoudige regel om te controleren of vertalingen eindigen met dezelfde leesteken als het origineel (dit omvat alleen.?! Tekens).
- is het nu mogelijk om externe bitext regel bestanden toe te voegen op de opdrachtregel, met behulp van
- -bitextrule optie. Het pad heeft absoluut zijn. . Opmerking: dit maakt het mogelijk met behulp van bitext regels ook voor talen die geen bitext regels standaard opgenomen hebben
- Spelling:
- De nieuwe bestanden /hunspell/spelling.txt kunnen worden gebruikt om geaccepteerde woorden aan de spellingcontrole, die ook worden beschouwd als bij het maken van suggesties voor verkeerd gespelde woorden. Dit is vergelijkbaar met de /hunspell/ignore.txt bestanden, die lijst met toegestane woorden die * niet * gebruikt bij het maken van suggesties voor verkeerd gespelde woorden.
- API:
- JLanguageTool.activateDefaultPatternRules () en JLanguageTool.activateDefaultFalseFriendRules () zijn verwijderd - alle patroon regels en valse vriend regels (als een tweede taal is opgegeven) worden nu automatisch geactiveerd wanneer de bouwer van JLanguageTool wordt genoemd. Mocht u een checker zonder patroon regels XML-gebaseerde nodig, uit te breiden uw taal klasse (bijvoorbeeld 'Engels') met één die de getPatternRules () methode overschrijft en geeft een lege lijst daar.
- ManualTagger.lookup () is vervangen door ManualTagger.tag () nadat ze deprecated sinds de laatste release
- Alle statische methoden en velden uit de klas 'Taal' zijn verplaatst naar de nieuwe klasse 'Talen'. Voor nu, de methoden / velden in de klas taal bestaan nog steeds, maar zijn verouderd.
- LanguageIdentifierTools is verwijderd. Gebruik LanguageIdentifier plaats.
- Removed (Standaard) ResourceDataBroker.setResourceDir () en setRulesDir (), omdat deze kunnen worden ingesteld met de aannemer
- opgeschoond up klasse Inzender, bijv. verwijderen getRemark ()
- Category.setDefaultOff () is verwijderd, kan dit worden ingesteld via constructeur nu
- Hernoemd klassen: o.lt.rules.patterns.Element = & gt; o.lt.rules.patterns.PatternToken o.lt.rules.patterns.ElementMatcher = & gt; o.lt.rules.patterns.PatternTokenMatcher
- Andere kleine API opruimingen die geen afbreuk doet aan de voorkomende gevallen, bijvoorbeeld IncorrectExample.getCorrections () rendement en onveranderlijke lijst nu, het verwijderen van verouderde methoden.
- Embedded server:
- XML ontsnappen is vastgesteld, kan dit leiden tot ongeldige XML-documenten te worden teruggegeven
- Nieuwe config file optie 'maxWorkQueueSize' waarmee u de maximale grootte van het verzoek wachtrij zetten - als het groter is dan dit krijgt, zal verzoeken worden afgewezen (503 Service niet beschikbaar)
- De server reageert nu met meer specifieke HTTP-status codes om deze fout voorwaarden: 413 Request Entity Too Large - als de tekst groter is dan de maximale tekstgrootte 503 Service Unavailable - als check maximum overschrijdt check tijd
- GUI:
- De stand-alone GUI kan nu een platte tekst bestand als een argument te nemen, dit bestand wordt dan bij het opstarten (Github kwestie # 232) geladen.
- Command-line:
- Het is nu mogelijk om een externe regel-bestand bij het bellen LanguageTool vanaf de opdrachtregel toe te voegen. Gebruik --rulefile om een bestand toe te voegen. Als de naam van het bestand heeft een formaat dat een taal de naam bevat, zal het naast andere regels worden gebruikt; anders zal het de regels vervangt. U kunt ook een extern bestand met valse vrienden te laden met de optie --falsefriends. De bestandsnaam moet een absoluut pad zijn en valse vrienden bestanden worden altijd toegevoegd aan degenen die worden geladen voor de taal. (Github kwestie # 192)
- Rule syntax:
- Een regel kan nu één voorbeeldzin zolang het een 'correction' kenmerk - dat kan redundantie besparen als de enige correcte zin is gelijk aan de verkeerde zin door de correctie. Voordat een regel nodig ten minste twee voorbeeldzinnen.
- 'voorbeeld' element: type = "onjuist" is nu optioneel als er een 'correctie' attribuut. De 'correctie' attribuut impliceert dat de straf is onjuist.
- 'voorbeeld' element: type = "correct" is nu optioneel. Nee 'type' attribuut en nee 'correctie' attribuut impliceert dat de zin juist is.
- Intern:
- We zijn overgestapt van Apache Tika aan language-detector (https://github.com/optimaize/language-detector) voor het automatisch identificeren van de tekst taal. Het moet sneller en resultaten moeten betrouwbaarder. Detectie van Asturische en Galicische moest worden uitgeschakeld, omdat de detectie kwaliteit te laag en ook beïnvloed opsporing van Spaanse was.
- Vast een regressie dat het onmogelijk is om externe regel bestanden te laden in de GUI gemaakt.
Verbeteringen
Wat is nieuw in versie 2.8:
- Asturische:
- verwijderd afhankelijkheid Hunspell, gebruikt nu Morfologik voor spellingcontrole
- Breton:
- toegevoegd en verbeterde een paar regels
- Catalan:
- bijgewerkt woordenboek
- toegevoegd en verbeterde regels
- vaste vals alarm
- Nederlands:
- toegevoegd en verbeterd veel regels
- Engels:
- een aantal nieuwe regels (met dank aan Nick Hough)
- bijgewerkt de tagger en synthesizer woordenboeken, vaststelling kwestie # 202
- nieuw filter moet worden gebruikt voor het afstemmen van de partofspeech van delen van woorden, bv. In * Dit zal alleen houden wedstrijden voor woorden die beginnen met 'in' en waarbij het deel na de 'in' is een adjectief (POS tag 'JJ'). Het 'nee: 1' is het teken zijn, bijvoorbeeld de hier de eerste (en enige) matching aangeduid .
- Frans:
- toegevoegd en verbeterde een paar regels
- German:
- toegevoegd en verbeterde een paar regels
- Pools:
- toegevoegd en verbeterde meerdere regels
- toegevoegd en verbeterd valse vrienden met Engels
- Portugees:
- toegevoegd / verbeterd meerdere regels
- Spaans:
- verwijderd afhankelijkheid Hunspell, gebruikt nu Morfologik voor spellingcontrole
- geformatteerd regels bestand
- Toegevoegd meer regels
- Tagalog:
- verwijderd afhankelijkheid Hunspell, gebruikt nu Morfologik voor spellingcontrole
- de dash karakter ("") is een scheidingsteken nu wanneer tokenizing de tekst
- Russian:
- toegevoegd en verbeterde regels
- een paar valse vrienden regels toegevoegd (Russisch / Engels)
- Oekraïens:
- vele nieuwe regels (met inbegrip van overeenkomst met zelfstandige naamwoorden, de tijd uitdrukkingen etc)
- verbetering regel dekking
- woordenboek-update (grote verbeteringen voor de eigennamen en vocative geval)
- Nieuwe tag en regel te waarschuwen over alternatieve spelling
- toegevoegd woord frequentie-informatie om spellingsuggesties te verbeteren
- een aantal nieuwe disambiguator regels
- Rule Syntax:
- ... kan nu worden toegevoegd aan een rulegroup aan alle regels van die groep beïnvloeden
- Als u uw eigen regels die geen deel uitmaken van de LT kunt u nu toevoegen externe = "yes" om uw categorieën om de regel koppeling voorkomen community.languagetool.org verschijnen in onze standalone GUI ontwikkelen (de link niet zou werken regels die geen deel uitmaken van de hoofdverdeler LT). (Github kwestie # 223)
- Als de regel groep specificeert default = "off", de regels die in de regel groep kan ook niet standaard aangeven = "on" / "uit".
- API:
- Verwijderd klassen en methoden die waren afgekeurd sinds 2.7 of langer
- Embedded server:
- De config file opties 'requestLimit' en 'requestLimitPeriodInSeconds' kan nu ook worden gebruikt voor de HTTP server (niet alleen voor de HTTPS-server)
- Nieuwe config file optie trustXForwardForHeader ': zet deze op' true 'als je de server achter een reverse proxy lopen en wil het verzoek limiet om te werken aan de oorspronkelijke IP-adressen die door de' Xforwardedfor 'HTTP header, meestal door te stellen de proxy. Als je achter een proxy maar deze eigenschap niet ingesteld op true, kan één gebruiker alle verzoeken te gebruiken, zodat andere gebruikers ook een foutmelding krijgt als gevolg van het verzoek te beperken.
- Fix reactie van na de deadline mode: ... was soms leeg, verwarrende de tekst inchecken WordPress
- Bitext regels waren niet goed geactiveerd is, ook als deze zijn ingesteld met een geschikte parameter voor de server; nu is het vast
- Vast probleem met onjuiste posities voor sommige bitext regels (kwestie # 218)
- GUI:
- Een nieuwe instelling 'errorColors' is toegevoegd aan de languagetool.cfg configuratiebestand. Het kan worden gebruikt om de achtergrondkleur van fouten instellen. Bijvoorbeeld, errorColors = typografische: # b8b8ff, stijl: # ffb8b8 zal 'typografische' fouten met een blauwe achtergrond en "style" fouten met een rode achtergrond in het bovenste gedeelte van het venster LT tonen. 'Typografische' en 'style' zijn de soorten die zijn ingesteld in grammar.xml als "type = ...". Er is nog geen gebruikersinterface om deze kleuren te configureren. Merk op dat u alleen de languagetool.cfg bestand wanneer LT niet loopt moet bewerken.
- Intern:
- Bugfix: regels in een regel groep had niet geactiveerd als een eerdere regel van dezelfde rulegroup gebruikt default = "off"
- Woorden zijn niet meer genegeerd door de spellingscontrole, alleen maar omdat ze zich voordoen in de suggestie van een regel. Als u wilt dat de spellingcontrole om woorden wereldwijd negeren, voeg ze toe aan hunspell / ignore.txt. Te negeren ze afhankelijk van de context, voeg een 'ignore_spelling' regel disambiguation.xml.
- Een bestand 'hunspell / prohibit.txt' kan nu worden gebruikt om woorden als spelfouten markeren, zelfs als de spellingcontrole ze normaal zouden accepteren. Dit is nuttig om de LanguageTool spellingcontrole verbeteren zonder te wachten op de stroomopwaartse checker worden bijgewerkt. De 'prohibit.txt' bestand is het tegenovergestelde van 'ignore.txt', waarin de spellingcontrole om woorden te negeren veroorzaakt.
- De partofspeech tagger voor de meeste talen kunnen nu worden uitgebreid met vermeldingen toe te voegen aan het bestand org / LanguageTool / resource / XX / added.txt (XX zijnde de taalcode). Het formaat is "fullform baseform postag", drie kolommen gescheiden door tabs. Dit maakt het makkelijker voor de gebruikers (en ontwikkelaars) aan de POS tagger te verlengen, omdat ze niet nodig hebben om te exporteren, te wijzigen en opnieuw de binaire woordenboek voor elke verandering.
Wat is nieuw in versie 2.7:
- Breton:
- toegevoegd en verbeterde regels
- Nieuwe regel die controleert of een weekdag overeenkomt met een datum, bijvoorbeeld detecteert "Gwener 28 a viz Eost 2014", als die datum is niet een vrijdag.
- Catalan:
- toegevoegd en verbeterde regels
- vaste vals alarm
- Nederlands:
- toegevoegd en verbeterd veel regels
- overgeschakeld naar Morfologik-gebaseerde spellingcontrole
- -Engels:
- Wilt u een deel van het team dat 's werelds meest krachtige Open Source proeflezen hulpmiddel ontwikkelt zijn? We zijn op zoek naar een beheerder voor het Engels regels in LanguageTool. Zie http://wiki.languagetool.org/tasks-for-language-maintainers voor meer informatie.
- Alle Engels woordenboeken zijn uitgebreid tot woordfrequentie klassen bevatten om de spellingcontrole suggesties te verbeteren (de frequentie data is afkomstig van https://github.com/mozilla-b2g/gaia/tree/master/apps/keyboard/js / IMES / latin / woordenboeken, als voor andere talen die al gebruik van deze functie).
- Betere suggesties voor leerlingen Engels: onregelmatige werkwoorden, zelfstandige naamwoorden en bijvoeglijke naamwoorden nu hebben meestal een betere suggestie. Bijvoorbeeld 'thinked' suggereert 'dacht', 'de vrouw' suggereert 'vrouwen'.
- Meer spelfouten suggesties nu, bv 'Garentee' (garantie), 'dankbaar' (dankbaar). Dit kan een prestatieverlies van ~ 10% (of meer voor teksten veel onbekende woorden) veroorzaken.
- Nieuwe regel die controleert of een weekdag overeenkomt met een datum, bijvoorbeeld detecteert "maandag 7 oktober, 2014", als die datum is niet een maandag. Deze regel zal alleen werken als het de datumnotatie in gebruik detecteert. Tot dusver zijn deze formaten worden ondersteund: * "maandag 7 oktober, 2014" * "maandag 7 oktober, 2014" * "maandag 7 oktober, 2014" * "maandag 7 oktober, 2014" * (dit werkt ook met verkorte week dagen als Mo of Ma voor maandag)
- Esperanto:
- Nieuwe regel die controleert of een weekdag overeenkomt met een datum, bijvoorbeeld detecteert "Vendredon la 28-an de AAgusto 2014", als die datum is niet een vrijdag.
- Frans:
- bijgewerkt POS tag woordenboek en Hunspell woordenboek Dicollecte-5.2
- voegde een synthesizer - de overeenkomst regel kan nu suggesties voor een aantal fouten
- toegevoegd / verbeterd meerdere regels
- Nieuwe regel die controleert of een weekdag overeenkomt met een datum, bijvoorbeeld detecteert "vendredi 28/08/2014", als die datum is niet een vrijdag.
- German:
- Vast een zeldzame NullPointerException en een ArrayIndexOutOfBoundsException
- Vast aantal valse alarmen
- Toegevoegde en verbeterde regels
- Nieuwe regel die controleert zinnen zonder een werkwoord (standaard uitgeschakeld vanwege het risico van vals alarm)
- Nieuwe regel die controleert of een weekdag overeenkomt met een datum, bijvoorbeeld detecteert "Dienstag, 2014/09/29", als die datum is niet een dinsdag.
- Prestatieverbeteringen voor spellingcontrole suggesties
- Persian:
- toegevoegd aanvankelijke steun voor Perzisch (Farsi)
- Pools:
- toegevoegd en verbeterde een aantal regels
- nieuwe regel die controleert of een weekdag overeenkomt met een datum
- Portugees:
- toegevoegd / verbeterd meerdere regels
- toegevoegd vele tientallen samengestelde woorden
- Russian:
- nieuwe regels toegevoegd
- repareren SourceForge functie verzoek # 38 (check voor verschillende aanhalingstekens)
- een paar valse vrienden regels toegevoegd (Russisch / Engels)
- nieuwe regel die controleert of een weekdag overeenkomt met een datum, bijvoorbeeld detecteert "ÐонеÐ'еÐ"NŒÐ½Ð¸Ðº, 30 N ?? & ETH; & micro; & ETH; & frac12; N & sbquo; N ?? & ETH; & plusmn; N & euro; N ?? 2014 & ETH; & sup3 ;. ", als die datum is niet een maandag .
- uitgebreid Russische verbinding regel met nieuwe woorden uit postag woordenboek
- Spaans:
- Toegevoegd nieuwe POS categorie Z (voor spelt nummers, bijvoorbeeld 'uno', 'dos', ...)
- gespeld nummers kunnen nu worden gedetecteerd en beheerd, zowel in het ondubbelzinnig en regels.
- Vast een aantal onjuiste lemma's in POS woordenboek.
- Toegevoegd Hybrid chunker-disambiguator.
- Tamil:
- Toegevoegd aanvankelijke steun voor de Tamil. Als het lettertype voor Tamil wordt niet goed weergegeven op uw computer en u Windows gebruikt, moet u wellicht toepassing van het werk hier rond beschreven: https://bugs.openjdk.java.net/browse/JDK-8008572
- Oekraïens:
- grote update voor POS woordenboek (fixes en nieuwe woorden)
- een aantal POS-tag hernoemd voor consistentie; nieuwe tags afkortingen en zeldzame woorden
- veel nieuwe regels en oplossingen voor bestaande regels
- nieuwe regel die controleert of een weekdag overeenkomt met een datum, bijvoorbeeld detecteert "& ETH; & ETH; & frac34; & ETH; & frac12; & ETH; & micro; & ETH, 'N & ETH;" & ETH; & frac34; & ETH, & deg ;, 7 & ETH; & para; & ETH; & frac34; & ETH; & sup2; 2014 ", zoals die datum is niet een maandag
- token normalisering prestatieverbetering
- LibreOffice integratie:
- Laat je niet in de war door de voetnoten in LibreOffice 4.3 en later (het biedt ons nu met de voetnoot functies als metadata, zodat we kunnen ze negeren).
- API:
- Major prestatieverbeteringen voor de multi-thread use case, waarbij JLanguageTool wordt gemaakt per thread, maar de taal object (bijvoorbeeld 'Duitse') wordt slechts één keer gemaakt. Overhead voor het creëren van JLanguageTool moet nu veel lager.
- Removed verschillende klassen en methoden die waren afgekeurd sinds versie 2.6
- Removed DutchSpellerRule - gebruik MorfologikDutchSpellerRule plaats
- De handtekening van Language.getRelevantRules () is gewijzigd
- De JLanguageTool en MultiThreadedJLanguageTool constructeurs niet verklaren om een IOException meer gooien
- WhitespaceRule is hernoemd naar MultipleWhitespaceRule (WhitespaceRule bestaat nog steeds, maar is verouderd)
- Afgekeurd aantal methoden waarvan de zichtbaarheid wordt verminderd (bijvoorbeeld van het publiek tot de beschermde)
- MorfologikSpellerRule.getRuleMatch (String, int) is hernoemd naar MorfologikSpellerRule.getRuleMatches (String, int)
- De RuleMatch bouwer gooit nu een uitzondering als toPosition niet groter is dan fromPosition
- een nieuwe abstracte klasse TextLevelRule dat Rule verlengt en dat kan worden gebruikt voor regels die meer dan enkele zinnen te dekken.
- Command line:
- in- en uitschakelen specifieke regels op hetzelfde moment is nu toegestaan. Om te testen slechts enkele regels, die eerder werd gedaan met "--enable LIST_OF_RULES" (al de rest uit te schakelen), nu gebruik maken van '--enabledonly --enable LIST_OF_RULES "(of" -eo -e LIST_OF_RULES ").
- Embedded server:
- Twee nieuwe opties kunnen worden ingesteld in de eigenschappen bestand te maken LanguageTool dezelfde XML-formaat terug als na de deadline (ATD). Op deze manier kan worden gebruikt als een drop-in vervanger voor ATD: * mode - 'LanguageTool' of 'AfterTheDeadline' * afterTheDeadlineLanguage - code van de standaardtaal als de modus is ingesteld op 'AfterTheDeadline' OPMERKING: de mode 'AfterTheDeadline' moet worden beschouwd experimenteel voor nu.
- De nieuwe optie 'maxCheckThreads' maakt het instellen van het maximale aantal draden werken aan verzoeken in parallel. De standaard is 10, zoals het vroeger was.
- Binnenwerk:
- Nieuwe abstracte regel AbstractDateCheckFilter die het mogelijk maakt om als er een week dag en datum match te controleren. Bijvoorbeeld "dinsdag 29 september, 2014" kan worden gedetecteerd, zoals 29 september 2014 is niet echt een dinsdag. Deze maakt gebruik van de nieuwe experimentele RuleFilter interface die kan worden aangeroepen vanuit XML met de nieuwe 'filter' element. 'Filter' neemt deze attributen: 'klasse': de volledig gekwalificeerde naam van een Java-klasse die RuleFilter implementeert, bijvoorbeeld "Org.languagetool.rules.de.DateCheckFilter '' argumenten ': een string als" jaar: 1 maand: 2 dagen: 3 weekdag: 4 ", dat wil zeggen een door spaties gescheiden lijst van sleutel / waarde paren, waarbij x wordt opgelost aan symbolische waarde van het patroon (zoals in de 'boodschap' element)
- De verbinding regel negeert nu tokens die zijn ingeënt in de disambiguation.xml
- De "filter" actie in de disambiguator wordt nu alleen toegepast op POS-tags die overeenkomen met de POS-tag gegeven. Als ze niet overeenkomen, wordt de regel niet toegepast.
- Als u de XML-regels zijn de uitbreiding, zoals beschreven in http://wiki.languagetool.org/tips-and-tricks#toc2, de externe regel en ondubbelzinnig bestanden kunnen nu op een met een wachtwoord beveiligde server gehost door het specificeren een URL zoals deze: http: // gebruiker: password@example.org/path/user-rules.xml
- De em dash ("a & euro;" ") is nu een tokenizing karakter voor alle talen
- Nieuwe functie:
- Taalgebruik modellen
- LanguageTool kunnen nu gebruik maken van Ngram gegevens. Ngram data is informatie over hoe vaak zinnen die voorkomen in een taal. Momenteel is dit gebruikt zinnen van lengte 3.
- De gegevens worden gebruikt door een Engels regel homofoon fouten te vinden, zoals het mengen van grof / cursus of flair / flare. LanguageTool had een aantal regels van dit soort eerder, maar de nieuwe regel ondersteunt nu ongeveer 900 van dergelijke woordparen / sets.
- Het nodig voor deze data is enorm (7 GB voor Engels) en dus niet een deel of LanguageTool.
- De gegevens (alleen in het Engels voor nu) en documentatie is beschikbaar op http://wiki.languagetool.org/finding-errors-using-big-data li>
- Gebruik ngrams maakt LanguageTool iets langzamer wanneer de gegevens worden opgeslagen op een SSD.
- Als niet opgeslagen op een SSD, kan de prestaties drastisch te verlagen.
- Gebruik de nieuwe --languagemodel optie met de command line client op de regel dat de gegevens gebruikt te activeren. Die optie is nog niet beschikbaar voor de stand-alone GUI.
Wat is nieuw in versie 2.4.1:
- Bijgewerkt Morfologik bibliotheken om 1.8.3 te langzaam suggesties te bevestigen in de spellingcontrole, die getroffen ten minste en-US
Wat is nieuw in versie 2.4:
- Breton:
- SRX zin tokenization
- toegevoegd / verbeterd een paar regels
- vast aantal valse alarmen
- onjuiste suggesties dankzij toegevoegd testen vastgesteld op correcties
- Catalan:
- toegevoegd / verbeterd meerdere regels
- vaste vals alarm
- gemaakt aanvullingen en correcties op de tagger woordenboek
- verwijderd sommige woorden uit synthesegas woordenboek (zie filterarchaic.txt)
- de frequentie gegevens naar de tagger woordenboek toegevoegd; frequentie woordenlijst is afkomstig uit het Gaia project, met een Apache-licentie, versie 2.0 (https://github.com/mozillab2g/gaia/tree/master/keyboard/dictionaries).
- Engels:
- toegevoegd / verbeterd een paar regels
- vast aantal valse alarmen
- Frans:
- toegevoegd / verbeterd meerdere regels
- vast aantal valse alarmen
- German:
- toegevoegd / verbeterd meerdere regels
- voegde een synthesizer de overeenkomst regel kan nu suggesties voor een aantal fouten (niet alle suggesties zijn correct, hoewel)
- Pools:
- toegevoegd / verbeterd verschillende regels, met name voor koppelteken en dash gebruik
- toegevoegd frequentie-informatie voor spellingcontrole woordenboek; frequentie woordenlijst is afkomstig uit het Gaia project, met een Apache-licentie, versie 2.0 (https://github.com/mozillab2g/gaia/tree/master/keyboard/dictionaries).
- vast aantal valse alarmen
- Portugees:
- toegevoegd / verbeterd meerdere regels (het bevat nu sekse regels "van een" / "o")
- het nu 3400+ samengestelde woorden
- de JAR-bestand is hernoemd naar languagetool.jar, van vroeger languagetoolstandalone.jar tot verwarring over wat 'standalone' betekent in deze context (GitHub kwestie # 29) te voorkomen
- voor talen met veel regels (zoals Frans of Duits) prestaties op lange teksten is verhoogd met ongeveer 2030%
- fix voor threadsafety (kunnen veroorzaken hangen in MultiWordChunker)
- vast een bug waar de brok aantekeningen niet werden getest in groepen
- fix: 1 en was niet geëvalueerd in ...
- Fixed a bug in de eenwording mechanisme dat een aantal van de bijbehorende interpretaties voortijdig weggegooid
- ondersteuning toegevoegd voor stuk aantekeningen in het disambiguator, en filtering tokens vast een bug met brok annotaties
- bijgewerkt Morfologik bibliotheken 1.8.2 (bug fixes, strengere ingang sanity controleren, frequentie gegevens toevoegen woordenboeken)
- voegde de mogelijkheid van het opnemen van de frequentie gegevens naar taggging of spelling woordenboeken. De verwachte formaat van de frequentie woordenlijsten is het een in het Gaia project, met een Apache-licentie, versie 2.0 (https://github.com/mozillab2g/gaia/tree/master/keyboard/dictionaries)
- nieuwe command line tools om te exporteren en het creëren van binaire woordenboeken:
- org.languagetool.dev.DictionaryExporter
- org.languagetool.dev.POSDictionaryBuilder
- LibreOffice / OpenOffice integratie:
- toegevoegd een oplossing voor onjuiste zin detectie voor het geval dat een voetnoot verscheen na een zin volledige stop (Sourceforge bug # 191)
- standalone GUI:
- Het dialoogvenster van de "Meer ..." punt geopend in het contextmenu van een fout zal nu ook weer juiste en onjuiste voorbeeldzinnen
- API:
- SentenceTokenizer is nu een interface, de uitvoering is verplaatst naar RegexSentenceTokenizer, maar dit wordt afgeraden en SRXSentenceTokenizer moeten in plaats daarvan worden gebruikt
- Een aantal methoden van org.languagetool.tools.StringTools zijn verplaatst naar de klas org.languagetool.gui.Tools in de languagetoolguicommons project
- LanguageToolListener.languageToolEventOccured () is hernoemd naar LanguageToolListener.languageToolEventOccurred ()
- org.languagetool.tools.SymbolLocator is niet openbaar meer (mag niet van invloed op iedereen)
- verwijderd DanishSentenceTokenizer die waren afgekeurd drie jaar
- Rule.getCorrectExamples () en Rule.getIncorrectExamples () niet null meer terug, maar een lege lijst als er geen voorbeelden. Bijgevolg zijn setCorrectExamples () en setIncorrectExamples () niet meer accepteren nul.
- Rule.getId () kan nu een willekeurige tekenreeks terug te keren, niet alleen ASCIIonly strings (eigenlijk is dit het geval is geweest, aangezien de ASCIIonly beperking nooit werd afgedwongen en alleen in de javadoc genoemd)
- languagetoolwikipedia: de command line opties voor het controleren van een Wikipedia dump zijn vereenvoudigd. Het commando kan nu worden genoemd als volgt: java jar languagetoolwikipedia.jar checkdata l en f enwiki20130621pagesarticles.xml Bel gewoon "java-jar languagetoolwikipedia.jar checkdata" naar een gebruik bericht. Meer dan een bestand kan worden opgegeven met de optie f. Bovendien aan Wikipedia XML stortplaatsen, CSV-bestanden van Tatoeba (http://tatoeba.org) worden nu ook ondersteund, moeten ze eerst worden gefilterd om alleen de relevante taal.
Wat is nieuw in versie 2.3:
- Breton:
- toegevoegd / verbeterd een paar regels
- vaste vals alarm
- bijgewerkt POS woordenboek van Apertium (SVN r47282)
- Catalan:
- ondersteuning toegevoegd voor taalcode ca-ES-valencia (Catalaanse Valencia), om te worden gebruikt in LibreOffice 4.2.0
- toegevoegd een eenvoudige vervanging van de regel met honderden vervangende suggesties
- toegevoegd / verbeterd meerdere regels
- vaste vals alarm
- Chinees:
- toegevoegd een oplossing voor een StringIndexOutOfBoundsException (http://sourceforge.net/p/languagetool/bugs/186/)
- Engels:
- vervangende patronen toegevoegd voor de spellingcontrole suggesties beter te maken (biedt nu 'geleerd' voor 'onderwezen')
- toegevoegd / verbeterd een paar regels
- Frans:
- toegevoegd / verbeterd een paar regels
- vaste vals alarm
- bijgewerkt POS tag woordenboek en Hunspell woordenboek Dicollecte-4.12
- German:
- toegevoegd / verbeterd meerdere regels
- Portugees:
- toegevoegd / verbeterd een paar regels
- het nu 3300+ samengestelde woorden
- Oekraïens:
- toegevoegd / verbeterd meerdere regels
- de broncode is verplaatst naar GitHub: https://github.com/languagetool-org/languagetool
- LanguageTool vereist Java 7 nu
- LanguageTool maakt gebruik van meerdere threads nu voor de tekst te controleren op moderne hardware, het verbeteren van de prestaties (dit heeft invloed op de stand-alone versie, de command line versie en de LibreOffice / OpenOffice uitbreiding)
- Rule syntax:
- voorlopige ondersteuning voor min / max kenmerken waarmee een element dat het aantal malen weergegeven passen. Bijvoorbeeld: foo zal niets of "foo", dwz match "foo" is optioneel foo zal "foo" of "foo foo" foo zal niets overeen, "foo", of "foo foo" Use max = match "- 1" onbeperkt voorvallen mogelijk te maken. Voor min, alleen 0 of 1 wordt ondersteund (1 is de standaardinstelling).
- ondersteuning voor OR-statements. Bijvoorbeeld: een intern en in run-time, de regel met OR-statements wordt omgezet in meerdere regels zonder OR-verklaringen .
- Engels heeft nu een chunker op te sporen, onder meer, enkelvoud en meervoud naamwoord brokken. Dit is gedocumenteerd op http://wiki.languagetool.org/using-chunks
- standalone-versie:
- De standalone versie onderstreept nu fouten met een rood (spelfouten) of blauw (andere fouten) lijn (Panagiotis Minos)
- Vergeet niet de taalkeuze voor de volgende start
- Verbeterde raam en dialoog plaatsing in een multi-monitor setup
- geïntegreerde server: gebruikt standaard poort (8081) opnieuw als gestart zonder argumenten
- de update-morfologik voortvloeien library naar versie 1.7.1 om betere suggesties, zoals correcte afhandeling van diakritische tekens en vervanging patronen mogelijk (equivalenten van MAP en REP functies in hunspell woordenboeken)
- OpenOffice / LibreOffice integratie:
- fix: de "About" dialoog werkte niet in Apache OpenOffice 4.0
- fix: specifieke regels land (zoals Brits-Engels) niet werken
- API:
- In de klas taal, heeft getCountryVariants () hernoemd naar getCountries (), en een nieuwe methode getVariant is toegevoegd.
- Een aantal methoden zijn afgekeurd
- Sommige methoden zijn verplaatst van de klasse Gereedschap (LanguageTool-core) met de nieuwe CommandLineTools klasse (LanguageTool-commandline)
Wat is nieuw in versie 2.2:
Wat is nieuw in versie 2.1:
Wat is nieuw in versie 2.0:
Eisen
- Java 2 Standard Edition Runtime Environment
Reacties niet gevonden