mrjob

Software screenshot:
mrjob
Software informatie:
Versie: 0.4
Upload datum: 20 Feb 15
Ontwikkelaar: David Marin
Licentie: Gratis
Populariteit: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob is een Python module die u helpt schrijven en uitvoeren banen Hadoop Streaming.
mrjob staat volledig Elastic MapReduce (EMR) dienst van Amazon, die u toestaat om tijd te kopen op een Hadoop-cluster op uurbasis. Het werkt ook met uw eigen Hadoop cluster.
Installatie:
python setup.py installeren
Het opzetten van EMR op Amazon
& Nbsp; * zorgen voor een Amazon Web Services-account: http://aws.amazon.com/
& Nbsp; * aanmelden voor Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Krijg uw toegang en geheime sleutels (ga naar http://aws.amazon.com/account/ en klik op "Beveiliging Geloofsbrieven") en stel de omgevingsvariabelen $ AWS_ACCESS_KEY_ID en $ AWS_SECRET_ACCESS_KEY dienovereenkomstig

Probeer het uit!

# Lokaal
python mrjob / voorbeelden / mr_word_freq_count.py README.md> tellingen
# Op EMR
python mrjob / voorbeelden / mr_word_freq_count.py README.md -r emr> tellingen
# Op uw Hadoop cluster
python mrjob / voorbeelden / mr_word_freq_count.py README.md -r Hadoop> tellingen
Advanced Configuration
Om te draaien in andere AWS regio's, upload uw source tree, draai make, en het gebruik van andere geavanceerde mrjob functies, moet u instellen mrjob.conf. mrjob ziet er voor zijn conf bestand in:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf overal in uw $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Zie mrjob.conf.example voor meer informatie

Kenmerken .

  • Uitvoeren jobs op EMR, je eigen Hadoop cluster, of lokaal (voor het testen).
  • Schrijf multi-step banen (één kaart-verminderen stap feeds in de volgende)
  • Dupliceer je productieomgeving binnen Hadoop
  • Upload uw source tree en zet het in uw baan $ PYTHONPATH
  • Voer het merk en andere setup scripts
  • Stel omgevingsvariabelen (bijv $ TZ)
  • Eenvoudig te installeren python packages van tarballs (EMR alleen)
  • Setup transparant behandeld door mrjob.conf configuratiebestand
  • error logs automatisch interpreteren van EMR
  • SSH tunnel naar Hadoop baan tracker op EMR
  • Minimaal setup
  • draaien op EMR, set $ AWS_ACCESS_KEY_ID en $ AWS_SECRET_ACCESS_KEY
  • Om te voeren op uw Hadoop cluster, set $ HADOOP_HOME

Eisen

  • Python

Vergelijkbare software

GNU Parallel
GNU Parallel

17 Feb 15

ThinLinc
ThinLinc

20 Feb 15

Pyro4
Pyro4

14 Apr 15

Andere software van ontwikkelaar David Marin

doloop
doloop

11 May 15

Reacties op mrjob

Reacties niet gevonden
Commentaar toe te voegen
Zet op de beelden!