Coverage for pyspark/mllib/tree.py: 93%

323 ↛ 324line 323 didn't jump to line 324, because the condition on line 323 was never true if featureSubsetStrategy not in cls.supportedFeatureSubsetStrategies:

raise ValueError("unsupported featureSubsetStrategy: %s" % featureSubsetStrategy)

325 ↛ 326line 325 didn't jump to line 326, because the condition on line 325 was never true if seed is None:

seed = random.randint(0, 1 << 30)

model = callMLlibFunc("trainRandomForestModel", data, algo, numClasses,

categoricalFeaturesInfo, numTrees, featureSubsetStrategy, impurity,

maxDepth, maxBins, seed)

return RandomForestModel(model)

@classmethod

def trainClassifier(cls, data, numClasses, categoricalFeaturesInfo, numTrees,

featureSubsetStrategy="auto", impurity="gini", maxDepth=4, maxBins=32,

seed=None):

"""

Train a random forest model for binary or multiclass

classification.

.. versionadded:: 1.2.0

Parameters

----------

data : :py:class:`pyspark.RDD`

Training dataset: RDD of LabeledPoint. Labels should take values

{0, 1, ..., numClasses-1}.

numClasses : int

Number of classes for classification.

categoricalFeaturesInfo : dict

Map storing arity of categorical features. An entry (n -> k)

indicates that feature n is categorical with k categories

indexed from 0: {0, 1, ..., k-1}.

numTrees : int

Number of trees in the random forest.

featureSubsetStrategy : str, optional

Number of features to consider for splits at each node.

Supported values: "auto", "all", "sqrt", "log2", "onethird".

If "auto" is set, this parameter is set based on numTrees:

if numTrees == 1, set to "all";

if numTrees > 1 (forest) set to "sqrt".

(default: "auto")

impurity : str, optional

Criterion used for information gain calculation.

Supported values: "gini" or "entropy".

(default: "gini")

maxDepth : int, optional

Maximum depth of tree (e.g. depth 0 means 1 leaf node, depth 1

means 1 internal node + 2 leaf nodes).

(default: 4)

maxBins : int, optional

Maximum number of bins used for splitting features.

(default: 32)

seed : int, Optional

Random seed for bootstrapping and choosing feature subsets.

Set as None to generate seed based on system time.

(default: None)

Returns

-------

:py:class:`RandomForestModel`

that can be used for prediction.

Examples

--------

>>> from pyspark.mllib.regression import LabeledPoint

>>> from pyspark.mllib.tree import RandomForest

>>>

>>> data = [

... LabeledPoint(0.0, [0.0]),

... LabeledPoint(0.0, [1.0]),

... LabeledPoint(1.0, [2.0]),

... LabeledPoint(1.0, [3.0])

... ]

>>> model = RandomForest.trainClassifier(sc.parallelize(data), 2, {}, 3, seed=42)

>>> model.numTrees()

>>> model.totalNumNodes()

>>> print(model)

TreeEnsembleModel classifier with 3 trees

>>> print(model.toDebugString())

TreeEnsembleModel classifier with 3 trees

Tree 0:

Predict: 1.0

Tree 1:

If (feature 0 <= 1.5)

Predict: 0.0

Else (feature 0 > 1.5)

Predict: 1.0

Tree 2:

If (feature 0 <= 1.5)

Predict: 0.0

Else (feature 0 > 1.5)

Predict: 1.0

>>> model.predict([2.0])

1.0

>>> model.predict([0.0])

0.0

>>> rdd = sc.parallelize([[3.0], [1.0]])

>>> model.predict(rdd).collect()

[1.0, 0.0]

"""

return cls._train(data, "classification", numClasses,

categoricalFeaturesInfo, numTrees, featureSubsetStrategy, impurity,

maxDepth, maxBins, seed)

@classmethod

def trainRegressor(cls, data, categoricalFeaturesInfo, numTrees, featureSubsetStrategy="auto",

impurity="variance", maxDepth=4, maxBins=32, seed=None):

"""

Train a random forest model for regression.

.. versionadded:: 1.2.0

Parameters

----------

data : :py:class:`pyspark.RDD`

Training dataset: RDD of LabeledPoint. Labels are real numbers.

categoricalFeaturesInfo : dict

Map storing arity of categorical features. An entry (n -> k)

indicates that feature n is categorical with k categories

indexed from 0: {0, 1, ..., k-1}.

numTrees : int

Number of trees in the random forest.

featureSubsetStrategy : str, optional

Number of features to consider for splits at each node.

Supported values: "auto", "all", "sqrt", "log2", "onethird".

If "auto" is set, this parameter is set based on numTrees:

- if numTrees == 1, set to "all";

- if numTrees > 1 (forest) set to "onethird" for regression.

(default: "auto")

impurity : str, optional

Criterion used for information gain calculation.

The only supported value for regression is "variance".

(default: "variance")

maxDepth : int, optional

Maximum depth of tree (e.g. depth 0 means 1 leaf node, depth 1

means 1 internal node + 2 leaf nodes).

(default: 4)

maxBins : int, optional

Maximum number of bins used for splitting features.

(default: 32)

seed : int, optional

Random seed for bootstrapping and choosing feature subsets.

Set as None to generate seed based on system time.

(default: None)

Returns

-------

:py:class:`RandomForestModel`

that can be used for prediction.

Examples

--------

>>> from pyspark.mllib.regression import LabeledPoint

>>> from pyspark.mllib.tree import RandomForest

>>> from pyspark.mllib.linalg import SparseVector

>>>

>>> sparse_data = [

... LabeledPoint(0.0, SparseVector(2, {0: 1.0})),

... LabeledPoint(1.0, SparseVector(2, {1: 1.0})),

... LabeledPoint(0.0, SparseVector(2, {0: 1.0})),

... LabeledPoint(1.0, SparseVector(2, {1: 2.0}))

... ]

>>>

>>> model = RandomForest.trainRegressor(sc.parallelize(sparse_data), {}, 2, seed=42)

>>> model.numTrees()

>>> model.totalNumNodes()

>>> model.predict(SparseVector(2, {1: 1.0}))

1.0

>>> model.predict(SparseVector(2, {0: 1.0}))

0.5

>>> rdd = sc.parallelize([[0.0, 1.0], [1.0, 0.0]])

>>> model.predict(rdd).collect()

[1.0, 0.5]

"""

return cls._train(data, "regression", 0, categoricalFeaturesInfo, numTrees,

featureSubsetStrategy, impurity, maxDepth, maxBins, seed)

@inherit_doc

class GradientBoostedTreesModel(TreeEnsembleModel, JavaLoader):

"""

Represents a gradient-boosted tree model.

.. versionadded:: 1.3.0

"""

@classmethod

def _java_loader_class(cls):

return "org.apache.spark.mllib.tree.model.GradientBoostedTreesModel"

class GradientBoostedTrees(object):

"""

Learning algorithm for a gradient boosted trees model for

classification or regression.

.. versionadded:: 1.3.0

"""

@classmethod

def _train(cls, data, algo, categoricalFeaturesInfo,

loss, numIterations, learningRate, maxDepth, maxBins):

first = data.first()

assert isinstance(first, LabeledPoint), "the data should be RDD of LabeledPoint"

model = callMLlibFunc("trainGradientBoostedTreesModel", data, algo, categoricalFeaturesInfo,

loss, numIterations, learningRate, maxDepth, maxBins)

return GradientBoostedTreesModel(model)

@classmethod

def trainClassifier(cls, data, categoricalFeaturesInfo,

loss="logLoss", numIterations=100, learningRate=0.1, maxDepth=3,

maxBins=32):

"""

Train a gradient-boosted trees model for classification.

.. versionadded:: 1.3.0

Parameters

----------

data : :py:class:`pyspark.RDD`

Training dataset: RDD of LabeledPoint. Labels should take values

{0, 1}.

categoricalFeaturesInfo : dict

Map storing arity of categorical features. An entry (n -> k)

indicates that feature n is categorical with k categories

indexed from 0: {0, 1, ..., k-1}.

loss : str, optional

Loss function used for minimization during gradient boosting.

Supported values: "logLoss", "leastSquaresError",

"leastAbsoluteError".

(default: "logLoss")

numIterations : int, optional

Number of iterations of boosting.

(default: 100)

learningRate : float, optional

Learning rate for shrinking the contribution of each estimator.

The learning rate should be between in the interval (0, 1].

(default: 0.1)

maxDepth : int, optional

Maximum depth of tree (e.g. depth 0 means 1 leaf node, depth 1

means 1 internal node + 2 leaf nodes).

(default: 3)

maxBins : int, optional

Maximum number of bins used for splitting features. DecisionTree

requires maxBins >= max categories.

(default: 32)

Returns

-------

:py:class:`GradientBoostedTreesModel`

that can be used for prediction.

Examples

--------

>>> from pyspark.mllib.regression import LabeledPoint

>>> from pyspark.mllib.tree import GradientBoostedTrees

>>>

>>> data = [

... LabeledPoint(0.0, [0.0]),

... LabeledPoint(0.0, [1.0]),

... LabeledPoint(1.0, [2.0]),

... LabeledPoint(1.0, [3.0])

... ]

>>>

>>> model = GradientBoostedTrees.trainClassifier(sc.parallelize(data), {}, numIterations=10)

>>> model.numTrees()

>>> model.totalNumNodes()

>>> print(model) # it already has newline

TreeEnsembleModel classifier with 10 trees

>>> model.predict([2.0])

1.0

>>> model.predict([0.0])

0.0

>>> rdd = sc.parallelize([[2.0], [0.0]])

>>> model.predict(rdd).collect()

[1.0, 0.0]

"""

return cls._train(data, "classification", categoricalFeaturesInfo,

loss, numIterations, learningRate, maxDepth, maxBins)

@classmethod

def trainRegressor(cls, data, categoricalFeaturesInfo,

loss="leastSquaresError", numIterations=100, learningRate=0.1, maxDepth=3,

maxBins=32):

"""

Train a gradient-boosted trees model for regression.

.. versionadded:: 1.3.0

Parameters

----------

data :

Training dataset: RDD of LabeledPoint. Labels are real numbers.

categoricalFeaturesInfo : dict

Map storing arity of categorical features. An entry (n -> k)

indicates that feature n is categorical with k categories

indexed from 0: {0, 1, ..., k-1}.

loss : str, optional

Loss function used for minimization during gradient boosting.

Supported values: "logLoss", "leastSquaresError",

"leastAbsoluteError".

(default: "leastSquaresError")

numIterations : int, optional

Number of iterations of boosting.

(default: 100)

learningRate : float, optional

Learning rate for shrinking the contribution of each estimator.

The learning rate should be between in the interval (0, 1].

(default: 0.1)

maxDepth : int, optional

Maximum depth of tree (e.g. depth 0 means 1 leaf node, depth 1

means 1 internal node + 2 leaf nodes).

(default: 3)

maxBins : int, optional

Maximum number of bins used for splitting features. DecisionTree

requires maxBins >= max categories.

(default: 32)

Returns

-------

:py:class:`GradientBoostedTreesModel`

that can be used for prediction.

Examples

--------

>>> from pyspark.mllib.regression import LabeledPoint

>>> from pyspark.mllib.tree import GradientBoostedTrees

>>> from pyspark.mllib.linalg import SparseVector

>>>

>>> sparse_data = [

... LabeledPoint(0.0, SparseVector(2, {0: 1.0})),

... LabeledPoint(1.0, SparseVector(2, {1: 1.0})),

... LabeledPoint(0.0, SparseVector(2, {0: 1.0})),

... LabeledPoint(1.0, SparseVector(2, {1: 2.0}))

... ]

>>>

>>> data = sc.parallelize(sparse_data)

>>> model = GradientBoostedTrees.trainRegressor(data, {}, numIterations=10)

>>> model.numTrees()

>>> model.totalNumNodes()

>>> model.predict(SparseVector(2, {1: 1.0}))

1.0

>>> model.predict(SparseVector(2, {0: 1.0}))

0.0

>>> rdd = sc.parallelize([[0.0, 1.0], [1.0, 0.0]])

>>> model.predict(rdd).collect()

[1.0, 0.0]

"""

return cls._train(data, "regression", categoricalFeaturesInfo,

loss, numIterations, learningRate, maxDepth, maxBins)

def _test():

import doctest

globs = globals().copy()

from pyspark.sql import SparkSession

spark = SparkSession.builder\

.master("local[4]")\

.appName("mllib.tree tests")\

.getOrCreate()

globs['sc'] = spark.sparkContext

(failure_count, test_count) = doctest.testmod(globs=globs, optionflags=doctest.ELLIPSIS)

spark.stop()

698 ↛ 699line 698 didn't jump to line 699, because the condition on line 698 was never true if failure_count:

sys.exit(-1)

if __name__ == "__main__":

_test()

Coverage for pyspark/mllib/tree.py : 93%

99 statements 94 run 5 missing 0 excluded 3 partial