mrjob

Software screenshot:
mrjob
Software informatie:
Versie: 0.4
Upload datum: 20 Feb 15
Ontwikkelaar: David Marin
Licentie: Gratis
Populariteit: 66

Rating: 2.0/5 (Total Votes: 2)

mrjob is een Python module die u helpt schrijven en uitvoeren banen Hadoop Streaming.
mrjob staat volledig Elastic MapReduce (EMR) dienst van Amazon, die u toestaat om tijd te kopen op een Hadoop-cluster op uurbasis. Het werkt ook met uw eigen Hadoop cluster.
Installatie:
python setup.py installeren
Het opzetten van EMR op Amazon
& Nbsp; * zorgen voor een Amazon Web Services-account: http://aws.amazon.com/
& Nbsp; * aanmelden voor Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Krijg uw toegang en geheime sleutels (ga naar http://aws.amazon.com/account/ en klik op "Beveiliging Geloofsbrieven") en stel de omgevingsvariabelen $ AWS_ACCESS_KEY_ID en $ AWS_SECRET_ACCESS_KEY dienovereenkomstig

Probeer het uit!

# Lokaal
python mrjob / voorbeelden / mr_word_freq_count.py README.md> tellingen
# Op EMR
python mrjob / voorbeelden / mr_word_freq_count.py README.md -r emr> tellingen
# Op uw Hadoop cluster
python mrjob / voorbeelden / mr_word_freq_count.py README.md -r Hadoop> tellingen
Advanced Configuration
Om te draaien in andere AWS regio's, upload uw source tree, draai make, en het gebruik van andere geavanceerde mrjob functies, moet u instellen mrjob.conf. mrjob ziet er voor zijn conf bestand in:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf overal in uw $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Zie mrjob.conf.example voor meer informatie

Kenmerken .

  • Uitvoeren jobs op EMR, je eigen Hadoop cluster, of lokaal (voor het testen).
  • Schrijf multi-step banen (één kaart-verminderen stap feeds in de volgende)
  • Dupliceer je productieomgeving binnen Hadoop
  • Upload uw source tree en zet het in uw baan $ PYTHONPATH
  • Voer het merk en andere setup scripts
  • Stel omgevingsvariabelen (bijv $ TZ)
  • Eenvoudig te installeren python packages van tarballs (EMR alleen)
  • Setup transparant behandeld door mrjob.conf configuratiebestand
  • error logs automatisch interpreteren van EMR
  • SSH tunnel naar Hadoop baan tracker op EMR
  • Minimaal setup
  • draaien op EMR, set $ AWS_ACCESS_KEY_ID en $ AWS_SECRET_ACCESS_KEY
  • Om te voeren op uw Hadoop cluster, set $ HADOOP_HOME

Eisen

  • Python

Vergelijkbare software

Collax V-Cube
Collax V-Cube

18 Jul 15

Ganeti
Ganeti

17 Feb 15

bigjob-server
bigjob-server

14 Apr 15

Andere software van ontwikkelaar David Marin

doloop
doloop

11 May 15

Reacties op mrjob

Reacties niet gevonden
Commentaar toe te voegen
Zet op de beelden!