mrjob is een Python module die u helpt schrijven en uitvoeren banen Hadoop Streaming.
mrjob staat volledig Elastic MapReduce (EMR) dienst van Amazon, die u toestaat om tijd te kopen op een Hadoop-cluster op uurbasis. Het werkt ook met uw eigen Hadoop cluster.
Installatie:
python setup.py installeren
Het opzetten van EMR op Amazon
& Nbsp; * zorgen voor een Amazon Web Services-account: http://aws.amazon.com/
& Nbsp; * aanmelden voor Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Krijg uw toegang en geheime sleutels (ga naar http://aws.amazon.com/account/ en klik op "Beveiliging Geloofsbrieven") en stel de omgevingsvariabelen $ AWS_ACCESS_KEY_ID en $ AWS_SECRET_ACCESS_KEY dienovereenkomstig
Probeer het uit!
# Lokaal
python mrjob / voorbeelden / mr_word_freq_count.py README.md> tellingen
# Op EMR
python mrjob / voorbeelden / mr_word_freq_count.py README.md -r emr> tellingen
# Op uw Hadoop cluster
python mrjob / voorbeelden / mr_word_freq_count.py README.md -r Hadoop> tellingen
Advanced Configuration
Om te draaien in andere AWS regio's, upload uw source tree, draai make, en het gebruik van andere geavanceerde mrjob functies, moet u instellen mrjob.conf. mrjob ziet er voor zijn conf bestand in:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf overal in uw $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Zie mrjob.conf.example voor meer informatie
Kenmerken .
- Uitvoeren jobs op EMR, je eigen Hadoop cluster, of lokaal (voor het testen).
- Schrijf multi-step banen (één kaart-verminderen stap feeds in de volgende)
- Dupliceer je productieomgeving binnen Hadoop
- Upload uw source tree en zet het in uw baan $ PYTHONPATH
- Voer het merk en andere setup scripts
- Stel omgevingsvariabelen (bijv $ TZ)
- Eenvoudig te installeren python packages van tarballs (EMR alleen)
- Setup transparant behandeld door mrjob.conf configuratiebestand
- error logs automatisch interpreteren van EMR
- SSH tunnel naar Hadoop baan tracker op EMR
- Minimaal setup
- draaien op EMR, set $ AWS_ACCESS_KEY_ID en $ AWS_SECRET_ACCESS_KEY
- Om te voeren op uw Hadoop cluster, set $ HADOOP_HOME
Eisen
- Python
Reacties niet gevonden