From 8d8ef0d8d19350228ae4d58267b156519ad1fc35 Mon Sep 17 00:00:00 2001
From: Ellen Spertus <ellen.spertus@gmail.com>
Date: Fri, 8 Jun 2018 17:15:02 -0700
Subject: Tests pass.

---
 .../src/main/scala/sandcrawler/HBaseCountJob.scala | 30 ++++++++++++++++++++++
 .../main/scala/sandcrawler/HBaseMimeCountJob.scala | 18 +------------
 .../scala/sandcrawler/HBaseMimeCountTest.scala     |  2 +-
 3 files changed, 32 insertions(+), 18 deletions(-)
 create mode 100644 scalding/src/main/scala/sandcrawler/HBaseCountJob.scala

(limited to 'scalding/src')

diff --git a/scalding/src/main/scala/sandcrawler/HBaseCountJob.scala b/scalding/src/main/scala/sandcrawler/HBaseCountJob.scala
new file mode 100644
index 0000000..250f175
--- /dev/null
+++ b/scalding/src/main/scala/sandcrawler/HBaseCountJob.scala
@@ -0,0 +1,30 @@
+package sandcrawler
+
+import cascading.property.AppProps
+import cascading.tuple.Fields
+import com.twitter.scalding._
+import java.util.Properties
+import parallelai.spyglass.base.JobBase
+import parallelai.spyglass.hbase.{HBaseSource, HBasePipeConversions}
+import parallelai.spyglass.hbase.HBaseConstants.SourceMode
+
+class HBaseCountJob(args: Args, colSpec: String) extends JobBase(args) with HBasePipeConversions {
+  val output = args("output")
+  // TODO: Add error checking.
+  val Col: String = colSpec.split(":")(1)
+
+  HBaseCountJob.getHBaseSource(colSpec)
+    .read
+    .fromBytesWritable(Symbol(Col))
+    .debug
+    .groupBy(Col){group => group.size('count)}
+    .write(Tsv(output))
+}
+
+object HBaseCountJob {
+  def getHBaseSource(colSpec: String) = HBaseBuilder.build(
+    "wbgrp-journal-extract-0-qa",     // HBase Table Name
+    "mtrcs-zk1.us.archive.org:2181",  // HBase Zookeeper server (to get runtime config info; can be array?)
+    List(colSpec),
+    SourceMode.SCAN_ALL)
+}
diff --git a/scalding/src/main/scala/sandcrawler/HBaseMimeCountJob.scala b/scalding/src/main/scala/sandcrawler/HBaseMimeCountJob.scala
index 819a652..911ccb8 100644
--- a/scalding/src/main/scala/sandcrawler/HBaseMimeCountJob.scala
+++ b/scalding/src/main/scala/sandcrawler/HBaseMimeCountJob.scala
@@ -8,21 +8,5 @@ import parallelai.spyglass.base.JobBase
 import parallelai.spyglass.hbase.{HBaseSource, HBasePipeConversions}
 import parallelai.spyglass.hbase.HBaseConstants.SourceMode
 
-class HBaseMimeCountJob(args: Args) extends JobBase(args) with HBasePipeConversions {
-  val output = args("output")
+class HBaseMimeCountJob(args: Args) extends HBaseCountJob(args, "file:mime") {}
 
-  HBaseMimeCountJob.getHBaseSource
-    .read
-    .fromBytesWritable(List('mime))
-    .debug
-    .groupBy('mime){group => group.size('count)}
-    .write(Tsv(output))
-}
-
-object HBaseMimeCountJob {
-  def getHBaseSource = HBaseBuilder.build(
-    "wbgrp-journal-extract-0-qa",     // HBase Table Name
-    "mtrcs-zk1.us.archive.org:2181",  // HBase Zookeeper server (to get runtime config info; can be array?)
-    List("file:mime"),
-    SourceMode.SCAN_ALL)
-}
diff --git a/scalding/src/test/scala/sandcrawler/HBaseMimeCountTest.scala b/scalding/src/test/scala/sandcrawler/HBaseMimeCountTest.scala
index eb6f4ff..cc400c5 100644
--- a/scalding/src/test/scala/sandcrawler/HBaseMimeCountTest.scala
+++ b/scalding/src/test/scala/sandcrawler/HBaseMimeCountTest.scala
@@ -41,7 +41,7 @@ class HBaseMimeCountTest extends FunSpec with TupleConversions {
     .arg("app.conf.path", "app.conf")
     .arg("output", output)
     .arg("debug", "true")
-    .source[Tuple](HBaseMimeCountJob.getHBaseSource,
+    .source[Tuple](HBaseCountJob.getHBaseSource("file:mime"),
       sampleData.map(l => new Tuple(l.map(s => {new ImmutableBytesWritable(Bytes.toBytes(s))}):_*)))
       .sink[Tuple](Tsv(output)) {
         outputBuffer =>
-- 
cgit v1.2.3