Articles of hadoop

如何从node.js中删除一个hdfs文件

我在hdfs中有以下文件 hdfs://localhost.localdomain:8020/user/cloudera/direccionbikes.out 我在node.js中写了一个进程,我需要删除这个文件。 我使用api webhdfs。 我在这个程序中使用createReadStream和createWriteStream。 但是我不知道如何从node.js中删除这个文件 我在哪里可以阅读有关这个​​问题的信息(webhdfs)

Azure上的Node.js和HBase(HDInsight)

我正尝试从Node.js访问微软Azure上的HBase。 我查看了不同的库,如hbase和REST API(webhcat)。 我想要实现的是创build一个表并从节点上传数据。 后来我想对这个数据集进行查询。 不幸的是,Azure的文档在这个问题上并不是很有帮助,因为它专注于PowerShell和.NET SDK。 我发现一个相当有用的文章是这样的: http : //blogs.msdn.com/b/bigdatasupport/archive/2014/04/22/querying-hdinsight-job-status-with-webhcat-via-native-powershell-or -node-js.aspx查询作业状态对我来说工作正常,但是在适应请求以便上载和查询数据时,我有点卡住了。 这甚至可能与使用webhcat(以前的寺庙)API? 这个azure页面描述了如何使用configuration单元或REST API与HDInsight上的HBase进行交互: http ://azure.microsoft.com/en-us/documentation/articles/hdinsight-hbase-get-started/#hive-query ,我不知道是否有可能做到这一点与node.js而不是PowerShell? 我会非常感谢任何想法和主angular在正确的方向!

通过node.js和hdfs模块将file upload到HDFS

我正在尝试使用node.js将file upload到HDFS。 我正在使用hdfs模块,但最终在我的HDFS上的文件是空的(stupidfile.txt不是) var WebHDFS = require('webhdfs'); var hdfs = WebHDFS.createClient(); var fs = require('fs') var localFilePath = "stupidfile.txt"; var remoteFilePath = "/user/cloudera/doesthiswork.txt"; var localFileStream = fs.createReadStream(localFilePath); var remoteFileStream = hdfs.createWriteStream(remoteFilePath); localFileStream.pipe(remoteFileStream); console.log("opening stream to HDFS"); remoteFileStream.on('error', function onError (err) { // Do something with the error console.log("it failed"); console.log(err); }); remoteFileStream.on('finish', function onFinish () […]

从单节点到多节点的过渡相同

我已经从这个链接跟踪hadoop单节点安装步骤。 现在下面的这个链接来连接它们来创build一个多节点集群。 我刚开始的步骤,我只是有一个问题,我的机器都有相同的用户名userA ,他们有第二个hduser 。 我如何重命名userA使它在一台机器上被命名为master ,另一台机器上是slave ? 另外我用有线电缆连接了它们,所以它们在同一个networking上,但我想知道如何configure the network interfaces to use a common network such as 192.168.0.x/24. 因为我不擅长networking。 所以如果有人可以请指教。

跑猪脚本

我有猪脚本和示例应用程序是用Node.js写的。 我只是想从Node.js运行Pig脚本。

我如何映射使用复杂的子文档相互关联的对象

首先这可能是一个误导的问题,如果是这样的话,我将不胜感激一些指导我应该如何进行。 从我在网上find的,似乎MongoDB / mongoose mapReduce是做到这一点的最好方法,但我一直在试图把我的头围绕它,我努力去理解它的任何不平凡的东西,我想知道是否有人可以帮助解释我的问题。 我不一定在寻找一个完整的解决scheme。 我真的很感谢很好解释的伪代码。 我觉得我特别困惑的是如何处理汇总和组合2个或更多的子文档。 另外我知道这可能是一个糟糕的模型/集合devise,但不幸的是,这是完全没有我的手,所以请不要build议重塑。 我特别的问题是我们有一个现有的模型,如下所示: survey: { _id: 1111, name: "name", questions: [ {_id: 1, text: "a,b, or c?", type: "multipleChoice", options: [a, b, c,]}, {_id: 2, text: "what do you think", type: "freeform"} ], participants: [{_id: 1, name: "user 1"}, {_id: 2, name: "user 2"}], results: [{_id: 123, userId: […]

NoSQL架构白皮书

我想更好地理解像RabbitMQ,MongoDb,Node.Js和Hadoop这样的技术如何整合到一个系统架构中,以提供高可用性/可伸缩性/性能。 任何人都可以指导我获取这类信息的好消息吗? 编辑 诚然,这不是一个很好的问题,我应该澄清。 我没有在上面的堆栈中find任何技术人员的具体情况,我理解他们每个人做什么,并了解如何使用它们。 我正在寻找的是一个利用消息队列/ NoSQL / Map reduce /事件驱动的lang的系统规范,以便我可以更好地理解它们如何协同工作来提供高可用性/可伸缩性/性能。

后处理Hadoop数据并将其存储在MongoDB中

我正在使用Timothy npm在node.js中执行map-reduce作业。 我能够运行简单的字数问题的例子,并产生输出。 任何人都可以请帮我理解如何将Hadoop生成的输出存储在MongoDB中进行后期处理。 require('timothy') .configure({ hadoopHome: "/usr/local/hadoop", config: './hadoop.xml', input: "/user/loremipsum.txt", output: "/user/processed_"+(new Date().getTime()), name: "Timothy Word Count Example", cmdenv: "var=", "mapred.map.tasks": 10 }) 这是我的configuration与hadoop连接。 处理后的文件存储在hadoop HDFS:/ user目录中。

使用node.js通过jdbc连接到impala

我正在使用npm模块jdbc尝试连接到Cloudera Impala。 我已经尝试了hiveserver2的apache hive-jdbc-0.13.1-cdh5.3.3.jar以及Cloudera JDBC ImpalaJDBC41.jar var jdbc = new (require('jdbc')); var config = { libpath: '/home/ubuntu/downloads/impala_jdbc/hive-jdbc-0.13.1-cdh5.3.3.jar', libs:'/home/ubuntu/downloads/impala_jdbc/lib/*.jar', drivername: 'org.apache.hive.jdbc.HiveDriver', url: 'jdbc:hive2://54.172.122.6:21050/;auth=noSasl' + process.argv[2] }; //Initialize jdbc object jdbc.initialize(config, function(err, res){ if (err){ console.log(err); } }); jdbc.open(function(err, conn) { if (conn) { //Run first query jdbc.executeQuery('show databases', function(err, results){ if (err){ console.log(err); } else if […]

如何使用hadoop map / reduce与nodejs服务器?

我有一个与Nodejs服务器和HTML客户端的Web应用程序。 我有很多c ++algorithm集成的服务器。 为了减less服务器负载和高性能,我想从服务器并行分配我的algorithm。 我是Hadoop及其Map / Reduce编程概念的新手。 题: 我应该使用这个架构的集群吗? 这是否发生在地图缩小?