fix some bugs (shenweichen#185)

浅梦 · web-flow · commit ce140ffcc105 · 2020-02-08T20:10:04.000+08:00
- fix bug in `get_varlen_pooling_list`
- fix bug in `SequencePoolingLayer` when `mode='max'`
- Add alias `ONN` for model `NFFM`
diff --git a/README.md b/README.md
@@ -40,7 +40,7 @@ Let's [**Get Started!**](https://deepctr-doc.readthedocs.io/en/latest/Quick-Star
 |                AutoInt                 | [arxiv 2018][AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks](https://arxiv.org/abs/1810.11921)                              |
 |         Deep Interest Network          | [KDD 2018][Deep Interest Network for Click-Through Rate Prediction](https://arxiv.org/pdf/1706.06978.pdf)                                                       |
 |    Deep Interest Evolution Network     | [AAAI 2019][Deep Interest Evolution Network for Click-Through Rate Prediction](https://arxiv.org/pdf/1809.03672.pdf)                                            |
-|                  NFFM                  | [arxiv 2019][Operation-aware Neural Networks for User Response Prediction](https://arxiv.org/pdf/1904.12579.pdf)                                                |
+|                  ONN                  | [arxiv 2019][Operation-aware Neural Networks for User Response Prediction](https://arxiv.org/pdf/1904.12579.pdf)                                                |
 |                 FGCNN                  | [WWW 2019][Feature Generation by Convolutional Neural Network for Click-Through Rate Prediction ](https://arxiv.org/pdf/1904.04447)                             |
 |     Deep Session Interest Network      | [IJCAI 2019][Deep Session Interest Network for Click-Through Rate Prediction ](https://arxiv.org/abs/1905.06482)                                                |
 |                FiBiNET                 | [RecSys 2019][FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction](https://arxiv.org/pdf/1905.09433.pdf)   |
diff --git a/deepctr/__init__.py b/deepctr/__init__.py
@@ -1,4 +1,4 @@
 from .utils import check_version
 
-__version__ = '0.7.1'
+__version__ = '0.7.2'
 check_version(__version__)
diff --git a/deepctr/inputs.py b/deepctr/inputs.py
@@ -264,8 +264,8 @@ def get_varlen_pooling_list(embedding_dict, features, varlen_sparse_feature_colu
             vec = SequencePoolingLayer(combiner, supports_masking=True)(
                 seq_input)
         pooling_vec_list[fc.group_name].append(vec)
-        if to_list:
-            return chain.from_iterable(pooling_vec_list.values())
+    if to_list:
+        return chain.from_iterable(pooling_vec_list.values())
     return pooling_vec_list
 
 
diff --git a/deepctr/layers/core.py b/deepctr/layers/core.py
@@ -66,7 +66,7 @@ def build(self, input_shape):
         if input_shape[0][-1] != input_shape[1][-1] or input_shape[0][1] != 1:
             raise ValueError('A `LocalActivationUnit` layer requires '
                              'inputs of a two inputs with shape (None,1,embedding_size) and (None,T,embedding_size)'
-                             'Got different shapes: %s,%s' % (input_shape[0],input_shape[1]))
+                             'Got different shapes: %s,%s' % (input_shape[0], input_shape[1]))
         size = 4 * \
                int(input_shape[0][-1]
                    ) if len(self.hidden_units) == 0 else self.hidden_units[-1]
@@ -77,9 +77,9 @@ def build(self, input_shape):
         self.bias = self.add_weight(
             shape=(1,), initializer=Zeros(), name="bias")
         self.dnn = DNN(self.hidden_units, self.activation, self.l2_reg,
-                      self.dropout_rate, self.use_bn, seed=self.seed)
+                       self.dropout_rate, self.use_bn, seed=self.seed)
 
-        self.dense = tf.keras.layers.Lambda(lambda x:tf.nn.bias_add(tf.tensordot(
+        self.dense = tf.keras.layers.Lambda(lambda x: tf.nn.bias_add(tf.tensordot(
             x[0], x[1], axes=(-1, 0)), x[2]))
 
         super(LocalActivationUnit, self).build(
@@ -97,7 +97,7 @@ def call(self, inputs, training=None, **kwargs):
 
         att_out = self.dnn(att_input, training=training)
 
-        attention_score = self.dense([att_out,self.kernel,self.bias])
+        attention_score = self.dense([att_out, self.kernel, self.bias])
 
         return attention_score
 
@@ -165,7 +165,8 @@ def build(self, input_shape):
         if self.use_bn:
             self.bn_layers = [tf.keras.layers.BatchNormalization() for _ in range(len(self.hidden_units))]
 
-        self.dropout_layers = [tf.keras.layers.Dropout(self.dropout_rate,seed=self.seed+i) for i in range(len(self.hidden_units))]
+        self.dropout_layers = [tf.keras.layers.Dropout(self.dropout_rate, seed=self.seed + i) for i in
+                               range(len(self.hidden_units))]
 
         self.activation_layers = [activation_layer(self.activation) for _ in range(len(self.hidden_units))]
 
@@ -186,7 +187,7 @@ def call(self, inputs, training=None, **kwargs):
 
             fc = self.activation_layers[i](fc)
 
-            fc = self.dropout_layers[i](fc,training = training)
+            fc = self.dropout_layers[i](fc, training=training)
             deep_input = fc
 
         return deep_input
diff --git a/deepctr/layers/sequence.py b/deepctr/layers/sequence.py
@@ -14,12 +14,13 @@
 
 from .core import LocalActivationUnit
 from .normalization import LayerNormalization
+
 if tf.__version__ >= '2.0.0':
     from ..contrib.rnn_v2 import dynamic_rnn
 else:
     from ..contrib.rnn import dynamic_rnn
 from ..contrib.utils import QAAttGRUCell, VecAttGRUCell
-from .utils import reduce_sum,reduce_max,div,softmax,reduce_mean
+from .utils import reduce_sum, reduce_max, div, softmax, reduce_mean
 
 
 class SequencePoolingLayer(Layer):
@@ -46,7 +47,7 @@ def __init__(self, mode='mean', supports_masking=False, **kwargs):
         if mode not in ['sum', 'mean', 'max']:
             raise ValueError("mode must be sum or mean")
         self.mode = mode
-        self.eps = tf.constant(1e-8,tf.float32)
+        self.eps = tf.constant(1e-8, tf.float32)
         super(SequencePoolingLayer, self).__init__(**kwargs)
 
         self.supports_masking = supports_masking
@@ -63,7 +64,7 @@ def call(self, seq_value_len_list, mask=None, **kwargs):
                 raise ValueError(
                     "When supports_masking=True,input must support masking")
             uiseq_embed_list = seq_value_len_list
-            mask = tf.cast(mask,tf.float32)#                tf.to_float(mask)
+            mask = tf.cast(mask, tf.float32)  # tf.to_float(mask)
             user_behavior_length = reduce_sum(mask, axis=-1, keep_dims=True)
             mask = tf.expand_dims(mask, axis=2)
         else:
@@ -77,15 +78,14 @@ def call(self, seq_value_len_list, mask=None, **kwargs):
 
         mask = tf.tile(mask, [1, 1, embedding_size])
 
-        uiseq_embed_list *= mask
-        hist = uiseq_embed_list
         if self.mode == "max":
+            hist = uiseq_embed_list - (1-mask) * 1e9
             return reduce_max(hist, 1, keep_dims=True)
 
-        hist = reduce_sum(hist, 1, keep_dims=False)
+        hist = reduce_sum(uiseq_embed_list * mask, 1, keep_dims=False)
 
         if self.mode == "mean":
-            hist = div(hist, tf.cast(user_behavior_length,tf.float32) + self.eps)
+            hist = div(hist, tf.cast(user_behavior_length, tf.float32) + self.eps)
 
         hist = tf.expand_dims(hist, axis=1)
         return hist
@@ -126,7 +126,7 @@ class WeightedSequenceLayer(Layer):
         - **supports_masking**:If True,the input need to support masking.
     """
 
-    def __init__(self,weight_normalization=True, supports_masking=False, **kwargs):
+    def __init__(self, weight_normalization=True, supports_masking=False, **kwargs):
         super(WeightedSequenceLayer, self).__init__(**kwargs)
         self.weight_normalization = weight_normalization
         self.supports_masking = supports_masking
@@ -159,14 +159,13 @@ def call(self, input_list, mask=None, **kwargs):
         value_input = tf.where(mask, value_input, paddings)
 
         if self.weight_normalization:
-           value_input = softmax(value_input,dim=1)
-
+            value_input = softmax(value_input, dim=1)
 
         if len(value_input.shape) == 2:
             value_input = tf.expand_dims(value_input, axis=2)
             value_input = tf.tile(value_input, [1, 1, embedding_size])
 
-        return tf.multiply(key_input,value_input)
+        return tf.multiply(key_input, value_input)
 
     def compute_output_shape(self, input_shape):
         return input_shape[0]
@@ -178,10 +177,11 @@ def compute_mask(self, inputs, mask):
             return None
 
     def get_config(self, ):
-        config = {'weight_normalization':self.weight_normalization,'supports_masking': self.supports_masking}
+        config = {'weight_normalization': self.weight_normalization, 'supports_masking': self.supports_masking}
         base_config = super(WeightedSequenceLayer, self).get_config()
         return dict(list(base_config.items()) + list(config.items()))
 
+
 class AttentionSequencePoolingLayer(Layer):
     """The Attentional sequence pooling operation used in DIN.
 
@@ -463,7 +463,8 @@ def build(self, input_shape):
         embedding_size = int(input_shape[0][-1])
         if self.num_units != embedding_size:
             raise ValueError(
-                "att_embedding_size * head_num must equal the last dimension size of inputs,got %d * %d != %d" % (self.att_embedding_size,self.head_num,embedding_size))
+                "att_embedding_size * head_num must equal the last dimension size of inputs,got %d * %d != %d" % (
+                self.att_embedding_size, self.head_num, embedding_size))
         self.seq_len_max = int(input_shape[0][-2])
         self.W_Query = self.add_weight(name='query', shape=[embedding_size, self.att_embedding_size * self.head_num],
                                        dtype=tf.float32,
@@ -543,10 +544,10 @@ def call(self, inputs, mask=None, training=None, **kwargs):
         if self.blinding:
             try:
                 outputs = tf.matrix_set_diag(outputs, tf.ones_like(outputs)[
-                                                  :, :, 0] * (-2 ** 32 + 1))
+                                                      :, :, 0] * (-2 ** 32 + 1))
             except:
                 outputs = tf.compat.v1.matrix_set_diag(outputs, tf.ones_like(outputs)[
-                                                      :, :, 0] * (-2 ** 32 + 1))
+                                                                :, :, 0] * (-2 ** 32 + 1))
 
         outputs -= reduce_max(outputs, axis=-1, keep_dims=True)
         outputs = softmax(outputs)
@@ -596,6 +597,7 @@ def get_config(self, ):
         base_config = super(Transformer, self).get_config()
         return dict(list(base_config.items()) + list(config.items()))
 
+
 def positional_encoding(inputs,
                         pos_embedding_trainable=True,
                         zero_pad=False,
@@ -815,5 +817,3 @@ def get_config(self, ):
         config = {'k': self.k, 'axis': self.axis}
         base_config = super(KMaxPooling, self).get_config()
         return dict(list(base_config.items()) + list(config.items()))
-
-
diff --git a/deepctr/models/__init__.py b/deepctr/models/__init__.py
@@ -7,7 +7,8 @@
 from .din import DIN
 from .fnn import FNN
 from .mlr import MLR
-from .nffm import NFFM
+from .onn import ONN
+from .onn import ONN as NFFM
 from .nfm import NFM
 from .pnn import PNN
 from .wdl import WDL
@@ -17,4 +18,4 @@
 from .fibinet import FiBiNET
 
 __all__ = ["AFM", "CCPM","DCN", "MLR",  "DeepFM",
-           "MLR", "NFM", "DIN", "DIEN", "FNN", "PNN", "WDL", "xDeepFM", "AutoInt", "NFFM", "FGCNN", "DSIN","FiBiNET"]
+           "MLR", "NFM", "DIN", "DIEN", "FNN", "PNN", "WDL", "xDeepFM", "AutoInt", "ONN", "FGCNN", "DSIN", "FiBiNET"]
diff --git a/deepctr/models/onn.py b/deepctr/models/onn.py
@@ -26,10 +26,10 @@
 from ..layers.utils import concat_func, Hash, NoMask, add_func
 
 
-def NFFM(linear_feature_columns, dnn_feature_columns, embedding_size=4, dnn_hidden_units=(128, 128),
-         l2_reg_embedding=1e-5, l2_reg_linear=1e-5, l2_reg_dnn=0, dnn_dropout=0,
-         init_std=0.0001, seed=1024, use_bn=True, reduce_sum=False, task='binary',
-         ):
+def ONN(linear_feature_columns, dnn_feature_columns, embedding_size=4, dnn_hidden_units=(128, 128),
+        l2_reg_embedding=1e-5, l2_reg_linear=1e-5, l2_reg_dnn=0, dnn_dropout=0,
+        init_std=0.0001, seed=1024, use_bn=True, reduce_sum=False, task='binary',
+        ):
     """Instantiates the Operation-aware Neural Networks  architecture.
 
     :param linear_feature_columns: An iterable containing all the features used by linear part of the model.
diff --git a/deepctr/utils.py b/deepctr/utils.py
@@ -32,16 +32,15 @@ def check(version):
                 releases = j.get('releases', [])
                 for release in releases:
                     ver = parse(release)
-                    if ver.is_prerelease or  ver.is_postrelease:
+                    if ver.is_prerelease or ver.is_postrelease:
                         continue
                     latest_version = max(latest_version, ver)
                 if latest_version > version:
                     logging.warning(
                         '\nDeepCTR version {0} detected. Your version is {1}.\nUse `pip install -U deepctr` to upgrade.Changelog: https://github.com/shenweichen/DeepCTR/releases/tag/v{0}'.format(
                             latest_version, version))
-        except Exception as e:
+        except:
             print("Please check the latest version manually on https://pypi.org/project/deepctr/#history")
             return
 
     Thread(target=check, args=(version,)).start()
-
diff --git a/docs/pics/ONN.png b/docs/pics/ONN.png
diff --git a/docs/requirements.readthedocs.txt b/docs/requirements.readthedocs.txt
@@ -1 +1 @@
-tensorflow==1.4.0
+tensorflow==1.12.0
diff --git a/docs/source/FAQ.md b/docs/source/FAQ.md
@@ -31,7 +31,7 @@ from tensorflow.python.keras.optimizers import Adam,Adagrad
 from tensorflow.python.keras.callbacks import EarlyStopping
 
 model = deepctr.models.DeepFM(linear_feature_columns,dnn_feature_columns)
-model.compile(Adagrad('0.0808'),'binary_crossentropy',metrics=['binary_crossentropy'])
+model.compile(Adagrad(0.1024),'binary_crossentropy',metrics=['binary_crossentropy'])
 
 es = EarlyStopping(monitor='val_binary_crossentropy')
 history = model.fit(model_input, data[target].values,batch_size=256, epochs=10, verbose=2, validation_split=0.2,callbacks=[es] )
diff --git a/docs/source/Features.md b/docs/source/Features.md
@@ -222,13 +222,13 @@ By stacking multiple interacting layers,AutoInt is able to model different order
 
 [Song W, Shi C, Xiao Z, et al. AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks[J]. arXiv preprint arXiv:1810.11921, 2018.](https://arxiv.org/abs/1810.11921)
 
-### NFFM(Operation-aware Neural Networks for User Response Prediction)
+### ONN(Operation-aware Neural Networks for User Response Prediction)
 
-NFFM models second order feature interactions like like FFM and preserves second-order interaction information  as much as possible.Further more,deep neural network is used to learn higher-ordered feature interactions. 
+ONN models second order feature interactions like like FFM and preserves second-order interaction information  as much as possible.Further more,deep neural network is used to learn higher-ordered feature interactions. 
 
-[**NFFM Model API**](./deepctr.models.nffm.html)
+[**ONN Model API**](./deepctr.models.onn.html)
 
-![NFFM](../pics/NFFM.png)
+![ONN](../pics/ONN.png)
 
 [Yang Y, Xu B, Shen F, et al. Operation-aware Neural Networks for User Response Prediction[J]. arXiv preprint arXiv:1904.12579, 2019.](https://arxiv.org/pdf/1904.12579.pdf)
 
diff --git a/docs/source/History.md b/docs/source/History.md
@@ -1,4 +1,5 @@
 # History
+- 02/08/2020 : [v0.7.2](https://github.com/shenweichen/DeepCTR/releases/tag/v0.7.2) released.Fix some bugs.
 - 01/28/2020 : [v0.7.1](https://github.com/shenweichen/DeepCTR/releases/tag/v0.7.1) released.Simplify [VarLenSparseFeat](./Features.html#varlensparsefeat),support setting weight_normalization.Fix problem of embedding size of `SparseFeat` in `linear_feature_columns`.
 - 11/24/2019 : [v0.7.0](https://github.com/shenweichen/DeepCTR/releases/tag/v0.7.0) released.Refactor [feature columns](./Features.html#feature-columns).Different features can use different `embedding_dim` and group-wise interaction is available by setting `group_name`.
 - 11/06/2019 : [v0.6.3](https://github.com/shenweichen/DeepCTR/releases/tag/v0.6.3) released.Add `WeightedSequenceLayer` and support [weighted sequence feature input](./Examples.html#multi-value-input-movielens).
diff --git a/docs/source/Models.rst b/docs/source/Models.rst
@@ -17,7 +17,7 @@ DeepCTR Models API
    DSIN<deepctr.models.dsin>
    xDeepFM<deepctr.models.xdeepfm>
    AutoInt<deepctr.models.autoint>
-   NFFM<deepctr.models.nffm>
+   ONN<deepctr.models.onn>
    FGCNN<deepctr.models.fgcnn>
    FiBiNET<deepctr.models.fibinet>
    
diff --git a/docs/source/Quick-Start.md b/docs/source/Quick-Start.md
@@ -79,17 +79,16 @@ And for varlen(multi-valued) sparse features,you can use [VarlenSparseFeat](./Fe
 
 - Label Encoding
 ```python
-sparse_feature_columns = [SparseFeat(feat, vocabulary_size=data[feat].nunique(),embedding_dim=4)
-                           for i,feat in enumerate(sparse_features)]
-dense_feature_columns = [DenseFeat(feat, 1)
+fixlen_feature_columns = [SparseFeat(feat, vocabulary_size=data[feat].nunique(),embedding_dim=4)
+                       for i,feat in enumerate(sparse_features)] + [DenseFeat(feat, 1,)
                       for feat in dense_features]
+
 ```
 - Feature Hashing on the fly
 ```python
-sparse_feature_columns = [SparseFeat(feat, vocabulary_size=1e6,embedding_dim=4,use_hash=True)
-                           for i,feat in enumerate(sparse_features)]#The dimension can be set according to data
-dense_feature_columns = [DenseFeat(feat, 1)
-                      for feat in dense_features]
+fixlen_feature_columns = [SparseFeat(feat, vocabulary_size=1e6,embedding_dim=4, use_hash=True, dtype='string')  # since the input is string
+                              for feat in sparse_features] + [DenseFeat(feat, 1, )
+                          for feat in dense_features]
 ```
 - generate feature columns
 ```python
diff --git a/docs/source/conf.py b/docs/source/conf.py
@@ -26,7 +26,7 @@
 # The short X.Y version
 version = ''
 # The full version, including alpha/beta/rc tags
-release = '0.7.1'
+release = '0.7.2'
 
 
 # -- General configuration ---------------------------------------------------
diff --git a/docs/source/deepctr.models.onn.rst b/docs/source/deepctr.models.onn.rst
@@ -1,7 +1,7 @@
-deepctr.models.nffm module
+deepctr.models.onn module
 ==========================
 
-.. automodule:: deepctr.models.nffm
+.. automodule:: deepctr.models.onn
     :members:
     :no-undoc-members:
     :no-show-inheritance:
diff --git a/docs/source/deepctr.models.rst b/docs/source/deepctr.models.rst
@@ -18,7 +18,7 @@ Submodules
    deepctr.models.fibinet
    deepctr.models.fnn
    deepctr.models.mlr
-   deepctr.models.nffm
+   deepctr.models.onn
    deepctr.models.nfm
    deepctr.models.pnn
    deepctr.models.wdl
diff --git a/docs/source/index.rst b/docs/source/index.rst
@@ -34,12 +34,12 @@ You can read the latest code at https://github.com/shenweichen/DeepCTR
 
 News
 -----
+02/08/2020 : Fix some bugs. `Changelog <https://github.com/shenweichen/DeepCTR/releases/tag/v0.7.2>`_
+
 01/28/2020 : Simplify `VarLenSparseFeat <./Features.html#varlensparsefeat>`_ ,support setting weight_normalization.Fix problem of embedding size of ``SparseFeat`` in ``linear_feature_columns``. `Changelog <https://github.com/shenweichen/DeepCTR/releases/tag/v0.7.1>`_
 
 11/24/2019 : Refactor `feature columns <./Features.html#feature-columns>`_ . Different features can use different ``embedding_dim`` and  group-wise interaction is available by setting ``group_name``. `Changelog <https://github.com/shenweichen/DeepCTR/releases/tag/v0.7.0>`_
 
-11/06/2019 : Add ``WeightedSequenceLayer`` and support `weighted sequence feature input <./Examples.html#multi-value-input-movielens>`_. `Changelog <https://github.com/shenweichen/DeepCTR/releases/tag/v0.6.3>`_
-
 DisscussionGroup
 -----------------------
 
diff --git a/examples/run_dien.py b/examples/run_dien.py
diff --git a/examples/run_dsin.py b/examples/run_dsin.py
diff --git a/examples/run_multivalue_movielens.py b/examples/run_multivalue_movielens.py
diff --git a/setup.py b/setup.py
diff --git a/tests/models/DSIN_test.py b/tests/models/DSIN_test.py
diff --git a/tests/models/ONN_test.py b/tests/models/ONN_test.py
diff --git a/tests/utils.py b/tests/utils.py

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-tensorflow==1.4.0`
	`1`	`+tensorflow==1.12.0`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,5 @@`
`1`	`1`	`# History`
	`2`	`+- 02/08/2020 : [v0.7.2](https://github.com/shenweichen/DeepCTR/releases/tag/v0.7.2) released.Fix some bugs.`
`2`	`3`	- 01/28/2020 : [v0.7.1](https://github.com/shenweichen/DeepCTR/releases/tag/v0.7.1) released.Simplify [VarLenSparseFeat](./Features.html#varlensparsefeat),support setting weight_normalization.Fix problem of embedding size of `SparseFeat` in `linear_feature_columns`.
`3`	`4`	- 11/24/2019 : [v0.7.0](https://github.com/shenweichen/DeepCTR/releases/tag/v0.7.0) released.Refactor [feature columns](./Features.html#feature-columns).Different features can use different `embedding_dim` and group-wise interaction is available by setting `group_name`.
`4`	`5`	- 11/06/2019 : [v0.6.3](https://github.com/shenweichen/DeepCTR/releases/tag/v0.6.3) released.Add `WeightedSequenceLayer` and support [weighted sequence feature input](./Examples.html#multi-value-input-movielens).