demo code

KimchiSoup(junu)
Commit 2aaa25158ab00d5b609913e4dbaa0310acdc0d60 2aaa2515 1 parent 7a180ed3
Showing 25 changed files with 124 additions and 360 deletions
decisionTree/metadata/._SUCCESS.crc
decisionTree/metadata/.part-00000.crc
decisionTree/metadata/_SUCCESS
decisionTree/metadata/part-00000
decisionTree/stages/0_vecIdx_c20b02d06e4a/data/._SUCCESS.crc
decisionTree/stages/0_vecIdx_c20b02d06e4a/data/.part-00000-28ba5e71-907c-4803-9bbb-22be49c06bd2-c000.snappy.parquet.crc
decisionTree/stages/0_vecIdx_c20b02d06e4a/data/_SUCCESS
decisionTree/stages/0_vecIdx_c20b02d06e4a/data/part-00000-28ba5e71-907c-4803-9bbb-22be49c06bd2-c000.snappy.parquet
decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/._SUCCESS.crc
decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/.part-00000.crc
decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/_SUCCESS
decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/part-00000
decisionTree/stages/1_dtr_20be5d6af4d6/data/._SUCCESS.crc
decisionTree/stages/1_dtr_20be5d6af4d6/data/.part-00000-ffd4833c-bf58-4d4c-9da0-d3dd69700393-c000.snappy.parquet.crc
decisionTree/stages/1_dtr_20be5d6af4d6/data/_SUCCESS
decisionTree/stages/1_dtr_20be5d6af4d6/data/part-00000-ffd4833c-bf58-4d4c-9da0-d3dd69700393-c000.snappy.parquet
decisionTree/stages/1_dtr_20be5d6af4d6/metadata/._SUCCESS.crc
decisionTree/stages/1_dtr_20be5d6af4d6/metadata/.part-00000.crc
decisionTree/stages/1_dtr_20be5d6af4d6/metadata/_SUCCESS
decisionTree/stages/1_dtr_20be5d6af4d6/metadata/part-00000
--- a/decisionTree/metadata/._SUCCESS.crc 0 → 100644
View file @2aaa251
+++ b/decisionTree/metadata/._SUCCESS.crc 0 → 100644
View file @2aaa251
--- a/decisionTree/metadata/.part-00000.crc 0 → 100644
View file @2aaa251
+++ b/decisionTree/metadata/.part-00000.crc 0 → 100644
View file @2aaa251
--- a/decisionTree/metadata/_SUCCESS 0 → 100644
View file @2aaa251
+++ b/decisionTree/metadata/_SUCCESS 0 → 100644
View file @2aaa251
--- a/decisionTree/metadata/part-00000 0 → 100644
View file @2aaa251
+++ b/decisionTree/metadata/part-00000 0 → 100644
View file @2aaa251
+{"class":"org.apache.spark.ml.PipelineModel","timestamp":1528805498147,"sparkVersion":"2.3.0","uid":"pipeline_70a068225fba","paramMap":{"stageUids":["vecIdx_c20b02d06e4a","dtr_20be5d6af4d6"]}}
--- a/decisionTree/stages/0_vecIdx_c20b02d06e4a/data/._SUCCESS.crc 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/0_vecIdx_c20b02d06e4a/data/._SUCCESS.crc 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/0_vecIdx_c20b02d06e4a/data/.part-00000-28ba5e71-907c-4803-9bbb-22be49c06bd2-c000.snappy.parquet.crc 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/0_vecIdx_c20b02d06e4a/data/.part-00000-28ba5e71-907c-4803-9bbb-22be49c06bd2-c000.snappy.parquet.crc 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/0_vecIdx_c20b02d06e4a/data/_SUCCESS 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/0_vecIdx_c20b02d06e4a/data/_SUCCESS 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/0_vecIdx_c20b02d06e4a/data/part-00000-28ba5e71-907c-4803-9bbb-22be49c06bd2-c000.snappy.parquet 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/0_vecIdx_c20b02d06e4a/data/part-00000-28ba5e71-907c-4803-9bbb-22be49c06bd2-c000.snappy.parquet 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/._SUCCESS.crc 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/._SUCCESS.crc 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/.part-00000.crc 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/.part-00000.crc 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/_SUCCESS 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/_SUCCESS 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/part-00000 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/0_vecIdx_c20b02d06e4a/metadata/part-00000 0 → 100644
View file @2aaa251
+{"class":"org.apache.spark.ml.feature.VectorIndexerModel","timestamp":1528805498480,"sparkVersion":"2.3.0","uid":"vecIdx_c20b02d06e4a","paramMap":{"handleInvalid":"error","maxCategories":2,"outputCol":"indexedFeatures","inputCol":"features"}}
--- a/decisionTree/stages/1_dtr_20be5d6af4d6/data/._SUCCESS.crc 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/1_dtr_20be5d6af4d6/data/._SUCCESS.crc 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/1_dtr_20be5d6af4d6/data/.part-00000-ffd4833c-bf58-4d4c-9da0-d3dd69700393-c000.snappy.parquet.crc 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/1_dtr_20be5d6af4d6/data/.part-00000-ffd4833c-bf58-4d4c-9da0-d3dd69700393-c000.snappy.parquet.crc 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/1_dtr_20be5d6af4d6/data/_SUCCESS 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/1_dtr_20be5d6af4d6/data/_SUCCESS 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/1_dtr_20be5d6af4d6/data/part-00000-ffd4833c-bf58-4d4c-9da0-d3dd69700393-c000.snappy.parquet 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/1_dtr_20be5d6af4d6/data/part-00000-ffd4833c-bf58-4d4c-9da0-d3dd69700393-c000.snappy.parquet 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/1_dtr_20be5d6af4d6/metadata/._SUCCESS.crc 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/1_dtr_20be5d6af4d6/metadata/._SUCCESS.crc 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/1_dtr_20be5d6af4d6/metadata/.part-00000.crc 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/1_dtr_20be5d6af4d6/metadata/.part-00000.crc 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/1_dtr_20be5d6af4d6/metadata/_SUCCESS 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/1_dtr_20be5d6af4d6/metadata/_SUCCESS 0 → 100644
View file @2aaa251
--- a/decisionTree/stages/1_dtr_20be5d6af4d6/metadata/part-00000 0 → 100644
View file @2aaa251
+++ b/decisionTree/stages/1_dtr_20be5d6af4d6/metadata/part-00000 0 → 100644
View file @2aaa251
+{"class":"org.apache.spark.ml.regression.DecisionTreeRegressionModel","timestamp":1528805500043,"sparkVersion":"2.3.0","uid":"dtr_20be5d6af4d6","paramMap":{"seed":926680331,"featuresCol":"indexedFeatures","checkpointInterval":10,"maxMemoryInMB":256,"minInfoGain":0.0,"cacheNodeIds":false,"maxDepth":10,"impurity":"variance","maxBins":32,"labelCol":"is_attributed","predictionCol":"prediction","minInstancesPerNode":1},"numFeatures":9}
--- a/src/main/java/GUI.java
View file @2aaa251
+++ b/src/main/java/GUI.java
View file @2aaa251
+import org.apache.spark.ml.Pipeline;
+import org.apache.spark.ml.PipelineModel;
+import org.apache.spark.ml.PipelineStage;
+import org.apache.spark.ml.feature.VectorAssembler;
+import org.apache.spark.ml.feature.VectorIndexer;
+import org.apache.spark.ml.feature.VectorIndexerModel;
+import org.apache.spark.ml.regression.DecisionTreeRegressor;
 import org.apache.spark.sql.Dataset;
 import org.apache.spark.sql.Row;
@@ -5,6 +12,7 @@ import javax.swing.*;
 import java.awt.*;
 import java.io.BufferedReader;
 import java.io.File;
+import java.io.IOException;
 import java.io.StringReader;
 import java.util.List;
@@ -61,7 +69,9 @@ class PngPane extends JPanel {
         add(label, BorderLayout.CENTER);
     }
 }
-
+class SharedArea{
+    Dataset<Row> data;
+}
 class CreateTable_tab extends JPanel{
     public JPanel centre_pane = new JPanel();
     public JPanel south_pane = new JPanel();
@@ -82,7 +92,7 @@ class CreateTable_tab extends JPanel{
     private DefaultTableModel tableModel3 = new DefaultTableModel(new Object[]{"unknown"},1);
     public CsvFile_chooser temp = new CsvFile_chooser();
-
+    private String current_state="100";
     public CreateTable_tab(){
         super();
@@ -103,13 +113,16 @@ class CreateTable_tab extends JPanel{
         // sub Panel 3
         pan3.setViewportView(table3);
         centre_pane.add(pan3);
-
+        add(centre_pane, BorderLayout.CENTER);
         //sub Panel 4
         south_pane.setLayout(new FlowLayout());
         south_pane.add(btn1);
+
         btn1.addActionListener(new ActionListener() {
-            @Override
+
             public void actionPerformed(ActionEvent e) {
+
+
                 if(temp.is_selected) {
                     String path = temp.selected_file.getAbsolutePath();
                     // 1st Column Raw Data
@@ -126,20 +139,105 @@ class CreateTable_tab extends JPanel{
                     TableCreator table_maker = new TableCreator();
                     Dataset<Row> dataset = agg.loadCSVDataSet(path, spark);
-                    List<String> stringDataset_Raw = dataset.toJSON().collectAsList();
+                    if(current_state.equals("100")){
-                    String[] header_r = {"ip", "app", "device", "os", "channel", "click_time", "is_attributed"};
+                        List<String> stringDataset_Raw = dataset.toJSON().collectAsList();
-                    table1.setModel(table_maker.getTableModel(stringDataset_Raw, header_r));
+                        String[] header_r = {"ip", "app", "device", "os", "channel", "click_time", "is_attributed"};
-
+                        table1.setModel(table_maker.getTableModel(stringDataset_Raw, header_r));
-                    // 2nd Column Data with features
+                        current_state="200";
-                    // Adding features
+                    }else if(current_state.equals("200")){
-                    dataset = agg.changeTimestempToLong(dataset);
+                        // 2nd Column Data with features
-                    dataset = agg.averageValidClickCount(dataset);
+                        // Adding features
-                    dataset = agg.clickTimeDelta(dataset);
+                        dataset = agg.changeTimestempToLong(dataset);
-                    dataset = agg.countClickInTenMinutes(dataset);
+                        dataset = agg.averageValidClickCount(dataset);
-                    List<String> stringDataset_feat = dataset.toJSON().collectAsList();
+                        dataset = agg.clickTimeDelta(dataset);
-                    String[] header_f = {"ip", "app", "device", "os", "channel", "is_attributed", "click_time",
+                        dataset = agg.countClickInTenMinutes(dataset);
-                            "avg_valid_click_count", "click_time_delta", "count_click_in_ten_mins"};
+                        List<String> stringDataset_feat = dataset.toJSON().collectAsList();
-                    table2.setModel(table_maker.getTableModel(stringDataset_feat, header_f));
+                        String[] header_f = {"ip", "app", "device", "os", "channel", "is_attributed", "click_time",
+                                "avg_valid_click_count", "click_time_delta", "count_click_in_ten_mins"};
+                        table2.setModel(table_maker.getTableModel(stringDataset_feat, header_f));
+                        current_state="300";
+                    }else if(current_state.equals("300")){
+                        dataset = agg.changeTimestempToLong(dataset);
+                        dataset = agg.averageValidClickCount(dataset);
+                        dataset = agg.clickTimeDelta(dataset);
+                        dataset = agg.countClickInTenMinutes(dataset);
+
+                        VectorAssembler assembler = new VectorAssembler()
+                                .setInputCols(new String[]{
+                                        "ip",
+                                        "app",
+                                        "device",
+                                        "os",
+                                        "channel",
+                                        "utc_click_time",
+                                        "avg_valid_click_count",
+                                        "click_time_delta",
+                                        "count_click_in_ten_mins"
+                                })
+                                .setOutputCol("features");
+
+                        Dataset<Row> output = assembler.transform(dataset);
+
+                        VectorIndexerModel featureIndexer = new VectorIndexer()
+                                .setInputCol("features")
+                                .setOutputCol("indexedFeatures")
+                                .setMaxCategories(2)
+                                .fit(output);
+
+                        // Split the result into training and test sets (30% held out for testing).
+//                        Dataset<Row>[] splits = output.randomSplit(new double[]{0.7, 0.3});
+//                        Dataset<Row> trainingData = splits[0];
+//                        Dataset<Row> testData = splits[1];
+
+
+
+                        // Train a detact.DecisionTreeionTree model.
+                        DecisionTreeRegressor dt = new DecisionTreeRegressor()
+                                .setFeaturesCol("indexedFeatures")
+                                .setLabelCol("is_attributed")
+                                .setMaxDepth(10);
+
+                        // Chain indexer and tree in a Pipeline.
+                        Pipeline pipeline = new Pipeline()
+                                .setStages(new PipelineStage[]{featureIndexer, dt});
+
+                        // Train model. This also runs the indexer.
+                        PipelineModel model = pipeline.fit(output);
+
+                        // save model
+                        try {
+                            model.save("./decisionTree");
+                        } catch (IOException e1) {
+                            e1.printStackTrace();
+                        }
+
+                        PipelineModel p_model = PipelineModel.load("./decisionTree");
+
+                        // Make predictions.
+                        Dataset<Row> predictions = p_model.transform(assembler.transform(dataset));
+                        predictions = predictions.drop("app")
+                                .drop("device")
+                                .drop("os")
+                                .drop("channel")
+                                .drop("utc_click_time")
+                                .drop("utc_attributed_time")
+                                .drop("avg_valid_click_count")
+                                .drop("click_time_delta")
+                                .drop("count_click_in_ten_mins")
+                                .drop("features")
+                                .drop("indexedFeatures");
+                        predictions.printSchema();
+                        List<String> stringDataset_feat = predictions.toJSON().collectAsList();
+                        String[] header_f = {"ip","is_attributed","prediction"};
+                        table3.setModel(table_maker.getTableModel(stringDataset_feat, header_f));
+//
+//
+//
+                        current_state="400";
+                    }
+
+
+
                     // 3nd Column Final results
@@ -148,7 +246,7 @@ class CreateTable_tab extends JPanel{
                 }
             }
         });
-        add(centre_pane, BorderLayout.CENTER);
+
         add(south_pane, BorderLayout.SOUTH);
@@ -181,7 +279,7 @@ class CsvFile_chooser extends JPanel{
         add(path_field);
         add(browser);
         browser.addActionListener(new ActionListener(){
-            @Override
+
             public void actionPerformed(ActionEvent e) {
                 Object obj = e.getSource();
                 if((JButton)obj == browser){
@@ -297,4 +395,6 @@ class Aggregation {
                 (count("utc_click_time").over(w)).minus(1));    //TODO 본인것 포함할 것인지 정해야함.
         return newDF;
     }
-}
\ No newline at end of file
+}
+
+
--- a/src/main/java/detact/Aggregation.java deleted 100644 → 0
View file @7a180ed
+++ b/src/main/java/detact/Aggregation.java deleted 100644 → 0
View file @7a180ed
-package detact;
-
-import org.apache.spark.sql.Dataset;
-import org.apache.spark.sql.Row;
-import org.apache.spark.sql.SparkSession;
-import org.apache.spark.sql.expressions.Window;
-import org.apache.spark.sql.expressions.WindowSpec;
-
-import static org.apache.spark.sql.functions.*;
-
-public class Aggregation {
-
-    public static void main(String[] args) {
-        
-        if (args.length != 2) {
-            System.out.println("Usage: java -jar aggregation.jar <data_path> <result_path>");
-            System.exit(0);
-        }
-        
-        String data_path = args[0];
-        String result_path = args[1];
-        
-        //Create Session
-        SparkSession spark = SparkSession
-                .builder()
-                .appName("Detecting Fraud Clicks")
-                .master("local")
-                .getOrCreate();
-        
-        // detact.Aggregation
-        Aggregation agg = new Aggregation();
-        
-        Dataset<Row> dataset = Utill.loadCSVDataSet(data_path, spark);
-        dataset = agg.changeTimestempToLong(dataset);
-        dataset = agg.averageValidClickCount(dataset);
-        dataset = agg.clickTimeDelta(dataset);
-        dataset = agg.countClickInTenMinutes(dataset);
-        
-        // test
-//        dataset.where("ip == '5348' and app == '19'").show(10);
-        
-        // Save to scv
-        Utill.saveCSVDataSet(dataset, result_path);
-    }
-    
-    public Dataset<Row> changeTimestempToLong(Dataset<Row> dataset){
-        // cast timestamp to long
-        Dataset<Row> newDF = dataset.withColumn("utc_click_time", dataset.col("click_time").cast("long"));
-        newDF = newDF.withColumn("utc_attributed_time", dataset.col("attributed_time").cast("long"));
-        newDF = newDF.drop("click_time").drop("attributed_time");
-        return newDF;
-    }
-         
-    public Dataset<Row> averageValidClickCount(Dataset<Row> dataset){
-        // set Window partition by 'ip' and 'app' order by 'utc_click_time' select rows between 1st row to current row
-        WindowSpec w = Window.partitionBy("ip", "app")
-                .orderBy("utc_click_time")
-                .rowsBetween(Window.unboundedPreceding(), Window.currentRow());
-
-        // aggregation
-        Dataset<Row> newDF = dataset.withColumn("cum_count_click", count("utc_click_time").over(w));
-        newDF = newDF.withColumn("cum_sum_attributed", sum("is_attributed").over(w));
-        newDF = newDF.withColumn("avg_valid_click_count", col("cum_sum_attributed").divide(col("cum_count_click")));
-        newDF = newDF.drop("cum_count_click", "cum_sum_attributed");
-        return newDF;
-    }
-
-    public Dataset<Row> clickTimeDelta(Dataset<Row> dataset){
-        WindowSpec w = Window.partitionBy ("ip")
-                .orderBy("utc_click_time");
-
-        Dataset<Row> newDF = dataset.withColumn("lag(utc_click_time)", lag("utc_click_time",1).over(w));
-        newDF = newDF.withColumn("click_time_delta", when(col("lag(utc_click_time)").isNull(),
-                lit(0)).otherwise(col("utc_click_time")).minus(when(col("lag(utc_click_time)").isNull(),
-                lit(0)).otherwise(col("lag(utc_click_time)"))));
-        newDF = newDF.drop("lag(utc_click_time)");
-        return newDF;
-    }
-    
-    public Dataset<Row> countClickInTenMinutes(Dataset<Row> dataset){
-        WindowSpec w = Window.partitionBy("ip")
-                .orderBy("utc_click_time")
-                .rangeBetween(Window.currentRow(),Window.currentRow()+600);
-
-        Dataset<Row> newDF = dataset.withColumn("count_click_in_ten_mins",
-                (count("utc_click_time").over(w)).minus(1));  
-        return newDF;
-    }
-    
-}
--- a/src/main/java/detact/ML/DecisionTree.java deleted 100644 → 0
View file @7a180ed
+++ b/src/main/java/detact/ML/DecisionTree.java deleted 100644 → 0
View file @7a180ed
-package detact.ML;
-
-import detact.Aggregation;
-import detact.Utill;
-import org.apache.spark.ml.Pipeline;
-import org.apache.spark.ml.PipelineModel;
-import org.apache.spark.ml.PipelineStage;
-import org.apache.spark.ml.evaluation.RegressionEvaluator;
-import org.apache.spark.ml.feature.VectorAssembler;
-import org.apache.spark.ml.feature.VectorIndexer;
-import org.apache.spark.ml.feature.VectorIndexerModel;
-import org.apache.spark.ml.regression.DecisionTreeRegressionModel;
-import org.apache.spark.ml.regression.DecisionTreeRegressor;
-import org.apache.spark.sql.Dataset;
-import org.apache.spark.sql.Row;
-import org.apache.spark.sql.SparkSession;
-
-
-// DecisionTree Model
-
-public class DecisionTree {
-    
-    public static void main(String[] args) throws Exception {
-        
-        if (args.length != 1) {
-            System.out.println("Usage: java -jar decisionTree.jar <agg_path>");
-            System.exit(0);
-        }
-        
-        String agg_path = args[0];
-        
-        //Create Session
-        SparkSession spark = SparkSession
-                .builder()
-                .appName("Detecting Fraud Clicks")
-                .master("local")
-                .getOrCreate();
-        
-        // load aggregated dataset
-        Dataset<Row> resultds = Utill.loadCSVDataSet(agg_path, spark);
-
-        // show Dataset schema
-//        System.out.println("schema start");
-//        resultds.printSchema();
-//        String[] cols = resultds.columns();
-//        for (String col : cols) {
-//            System.out.println(col);
-//        }
-//        System.out.println("schema end");
-
-        VectorAssembler assembler = new VectorAssembler()
-                .setInputCols(new String[]{
-                        "ip", 
-                        "app", 
-                        "device", 
-                        "os", 
-                        "channel", 
-                        "utc_click_time", 
-                        "avg_valid_click_count", 
-                        "click_time_delta",
-                        "count_click_in_ten_mins"
-                })
-                .setOutputCol("features");
-
-        Dataset<Row> output = assembler.transform(resultds);
-        
-        VectorIndexerModel featureIndexer = new VectorIndexer()
-                .setInputCol("features")
-                .setOutputCol("indexedFeatures")
-                .setMaxCategories(2)
-                .fit(output);
-
-        // Split the result into training and test sets (30% held out for testing).
-        Dataset<Row>[] splits = output.randomSplit(new double[]{0.7, 0.3});
-        Dataset<Row> trainingData = splits[0];
-        Dataset<Row> testData = splits[1];
-
-        // Train a detact.DecisionTreeionTree model.
-        DecisionTreeRegressor dt = new DecisionTreeRegressor()
-                .setFeaturesCol("indexedFeatures")
-                .setLabelCol("is_attributed")
-                .setMaxDepth(10);
-
-        // Chain indexer and tree in a Pipeline.
-        Pipeline pipeline = new Pipeline()
-                .setStages(new PipelineStage[]{featureIndexer, dt});
-
-        // Train model. This also runs the indexer.
-        PipelineModel model = pipeline.fit(trainingData);
-
-        // Make predictions.
-        Dataset<Row> predictions = model.transform(testData);
-
-        // Select example rows to display.
-        predictions.select("is_attributed", "features").show(5);
-
-        // Select (prediction, true label) and compute test error.
-        RegressionEvaluator evaluator = new RegressionEvaluator()
-                .setLabelCol("is_attributed")
-                .setPredictionCol("prediction")
-                .setMetricName("rmse");
-        double rmse = evaluator.evaluate(predictions);
-        System.out.println("Root Mean Squared Error (RMSE) on test result = " + rmse);
-        
-        DecisionTreeRegressionModel treeModel =
-                (DecisionTreeRegressionModel) (model.stages()[1]);
-        System.out.println("Learned regression tree model:\n" + treeModel.toDebugString());
-        
-        // save model
-        model.save("./decisionTree");
-        
-        // load model 
-        PipelineModel load_mode = PipelineModel.load("./decisionTree");
-
-        // Make predictions.
-        Dataset<Row> load_pred = model.transform(testData);
-        
-    }
-    
-}
--- a/src/main/java/detact/Main.java deleted 100644 → 0
View file @7a180ed
+++ b/src/main/java/detact/Main.java deleted 100644 → 0
View file @7a180ed
-package detact;
-
-import org.apache.spark.ml.Pipeline;
-import org.apache.spark.ml.PipelineModel;
-import org.apache.spark.ml.PipelineStage;
-import org.apache.spark.ml.evaluation.RegressionEvaluator;
-import org.apache.spark.ml.feature.VectorAssembler;
-import org.apache.spark.ml.feature.VectorIndexer;
-import org.apache.spark.ml.feature.VectorIndexerModel;
-import org.apache.spark.ml.regression.DecisionTreeRegressionModel;
-import org.apache.spark.ml.regression.DecisionTreeRegressor;
-import org.apache.spark.sql.Dataset;
-import org.apache.spark.sql.Row;
-import org.apache.spark.sql.SparkSession;
-
-public class Main {
-    public static void main(String[] args) throws Exception{
-        if (args.length != 1) {
-            System.out.println("Usage: java -jar aggregation.jar <data_path>");
-            System.exit(0);
-        }
-
-        String data_path = args[0];
-
-        //Create Session
-        SparkSession spark = SparkSession
-                .builder()
-                .appName("Detecting Fraud Clicks")
-                .master("local")
-                .getOrCreate();
-
-        // detact.Aggregation
-        Aggregation agg = new Aggregation();
-
-        Dataset<Row> dataset = Utill.loadCSVDataSet(data_path, spark);
-        dataset = agg.changeTimestempToLong(dataset);
-        dataset = agg.averageValidClickCount(dataset);
-        dataset = agg.clickTimeDelta(dataset);
-        dataset = agg.countClickInTenMinutes(dataset);
-
-        VectorAssembler assembler = new VectorAssembler()
-                .setInputCols(new String[]{
-                        "ip",
-                        "app",
-                        "device",
-                        "os",
-                        "channel",
-                        "utc_click_time",
-                        "avg_valid_click_count",
-                        "click_time_delta",
-                        "count_click_in_ten_mins"
-                })
-                .setOutputCol("features");
-
-        Dataset<Row> output = assembler.transform(dataset);
-
-        VectorIndexerModel featureIndexer = new VectorIndexer()
-                .setInputCol("features")
-                .setOutputCol("indexedFeatures")
-                .setMaxCategories(2)
-                .fit(output);
-
-        // Split the result into training and test sets (30% held out for testing).
-        Dataset<Row>[] splits = output.randomSplit(new double[]{0.7, 0.3});
-        Dataset<Row> trainingData = splits[0];
-        Dataset<Row> testData = splits[1];
-
-        // Train a detact.DecisionTreeionTree model.
-        DecisionTreeRegressor dt = new DecisionTreeRegressor()
-                .setFeaturesCol("indexedFeatures")
-                .setLabelCol("is_attributed")
-                .setMaxDepth(10);
-
-        // Chain indexer and tree in a Pipeline.
-        Pipeline pipeline = new Pipeline()
-                .setStages(new PipelineStage[]{featureIndexer, dt});
-
-        // Train model. This also runs the indexer.
-        PipelineModel model = pipeline.fit(trainingData);
-
-        // save model
-        model.save("./decisionTree");
-
-        PipelineModel p_model = PipelineModel.load("./decisionTree");
-        
-        // Make predictions.
-        Dataset<Row> predictions = p_model.transform(testData);
-
-        // Select example rows to display.
-        predictions.select("is_attributed", "features").show(5);
-
-        // Select (prediction, true label) and compute test error.
-        RegressionEvaluator evaluator = new RegressionEvaluator()
-                .setLabelCol("is_attributed")
-                .setPredictionCol("prediction")
-                .setMetricName("rmse");
-        double rmse = evaluator.evaluate(predictions);
-        System.out.println("Root Mean Squared Error (RMSE) on test result = " + rmse);
-
-        DecisionTreeRegressionModel treeModel =
-                (DecisionTreeRegressionModel) (p_model.stages()[1]);
-        System.out.println("Learned regression tree model:\n" + treeModel.toDebugString());
-        
-    }
-}
--- a/src/main/java/detact/Utill.java deleted 100644 → 0
View file @7a180ed
+++ b/src/main/java/detact/Utill.java deleted 100644 → 0
View file @7a180ed
-package detact;
-
-import org.apache.spark.sql.Dataset;
-import org.apache.spark.sql.Row;
-import org.apache.spark.sql.SparkSession;
-
-public class Utill {
-    
-    public static Dataset<Row> loadCSVDataSet(String path, SparkSession spark){
-        // Read SCV to DataSet
-        return spark.read().format("com.databricks.spark.csv")
-                .option("inferSchema", "true")
-                .option("header", "true")
-                .load(path);
-    }
-
-    public static void saveCSVDataSet(Dataset<Row> dataset, String path){
-        // Read SCV to DataSet
-        dataset.write().format("com.databricks.spark.csv")
-                .option("inferSchema", "true")
-                .option("header", "true")
-                .save(path);
-    }
-}