seq2seq model for chatbot

- Direct adaptation of the seq2seq tensorflow tutorial



In [ ]:

    
# Copyright 2015 The TensorFlow Authors. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# ==============================================================================

"""Binary for training translation models and decoding from them.

Running this program without --decode will download the WMT corpus into
the directory specified as --data_dir and tokenize it in a very basic way,
and then start training a model saving checkpoints to --train_dir.

Running with --decode starts an interactive loop so you can see how
the current checkpoint translates English sentences into French.

See the following papers for more information on neural translation models.
 * http://arxiv.org/abs/1409.3215
 * http://arxiv.org/abs/1409.0473
 * http://arxiv.org/abs/1412.2007
"""
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import math
import os
import random
import sys
import time
import logging

import numpy as np
from six.moves import xrange  # pylint: disable=redefined-builtin
import tensorflow as tf

from tensorflow.models.rnn.translate import data_utils
from tensorflow.models.rnn.translate import seq2seq_model


FLAGS_learning_rate = 0.5            # Learning rate.
FLAGS_learning_rate_decay_factor = 0.99
FLAGS_max_gradient_norm = 5.0
FLAGS_batch_size = 16
FLAGS_size = 512                 #Size of each model layer.
FLAGS_num_layers = 3              # Number of layers in the model.
FLAGS_en_vocab_size = 40000       # En vocabulary size.
FLAGS_fr_vocab_size = 40000       # French vocabulary size.
FLAGS_data_dir = "/tmp/chatbot/data"           # Data directory")
FLAGS_train_dir = "/tmp/chatbot/models"          # Training directory.")
FLAGS_max_train_data_size = 0     # Limit on the size of training data (0: no limit).
FLAGS_steps_per_checkpoint = 200  # How many training steps to do per checkpoint.
FLAGS_decode = False      # Set to True for interactive decoding.
FLAGS_self_test = False   # Run a self-test if this is set to True.
FLAGS_use_fp16 = False    # Train using fp16 instead of fp32.



# We use a number of buckets and pad to the closest one for efficiency.
# See seq2seq_model.Seq2SeqModel for details of how they work.
_buckets = [(5, 10), (10, 15), (20, 25), (40, 50)]

data_utils



In [ ]:

    
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import gzip
import os
import re
import tarfile

from six.moves import urllib

from tensorflow.python.platform import gfile
import tensorflow as tf

# Special vocabulary symbols - we always put them at the start.
_PAD = b"_PAD"
_GO = b"_GO"
_EOS = b"_EOS"
_UNK = b"_UNK"
_START_VOCAB = [_PAD, _GO, _EOS, _UNK]

PAD_ID = 0
GO_ID = 1
EOS_ID = 2
UNK_ID = 3

# Regular expressions used to tokenize.
_WORD_SPLIT = re.compile(b"([.,!?\"':;)(])")
_DIGIT_RE = re.compile(br"\d")

# URLs for WMT data.
_WMT_ENFR_TRAIN_URL = "http://www.statmt.org/wmt10/training-giga-fren.tar"
_WMT_ENFR_DEV_URL = "http://www.statmt.org/wmt15/dev-v2.tgz"


def maybe_download(directory, filename, url):
    """Download filename from url unless it's already in directory."""
    if not os.path.exists(directory):
        print("Creating directory %s" % directory)
        os.mkdir(directory)
    filepath = os.path.join(directory, filename)
    if not os.path.exists(filepath):
        print("Downloading %s to %s" % (url, filepath))
        filepath, _ = urllib.request.urlretrieve(url, filepath)
        statinfo = os.stat(filepath)
        print("Successfully downloaded", filename, statinfo.st_size, "bytes")
    return filepath


def gunzip_file(gz_path, new_path):
    """Unzips from gz_path into new_path."""
    print("Unpacking %s to %s" % (gz_path, new_path))
    with gzip.open(gz_path, "rb") as gz_file:
        with open(new_path, "wb") as new_file:
            for line in gz_file:
                new_file.write(line)


def get_wmt_enfr_train_set(directory):
    """Download the WMT en-fr training corpus to directory unless it's there."""
    train_path = os.path.join(directory, "giga-fren.release2.fixed")
    if not (gfile.Exists(train_path +".fr") and gfile.Exists(train_path +".en")):
        corpus_file = maybe_download(directory, "training-giga-fren.tar",
                                     _WMT_ENFR_TRAIN_URL)
        print("Extracting tar file %s" % corpus_file)
        with tarfile.open(corpus_file, "r") as corpus_tar:
            corpus_tar.extractall(directory)
        gunzip_file(train_path + ".fr.gz", train_path + ".fr")
        gunzip_file(train_path + ".en.gz", train_path + ".en")
    return train_path


def get_wmt_enfr_dev_set(directory):
    """Download the WMT en-fr training corpus to directory unless it's there."""
    dev_name = "newstest2013"
    dev_path = os.path.join(directory, dev_name)
    if not (gfile.Exists(dev_path + ".fr") and gfile.Exists(dev_path + ".en")):
        dev_file = maybe_download(directory, "dev-v2.tgz", _WMT_ENFR_DEV_URL)
        print("Extracting tgz file %s" % dev_file)
        with tarfile.open(dev_file, "r:gz") as dev_tar:
            fr_dev_file = dev_tar.getmember("dev/" + dev_name + ".fr")
            en_dev_file = dev_tar.getmember("dev/" + dev_name + ".en")
            fr_dev_file.name = dev_name + ".fr"  # Extract without "dev/" prefix.
            en_dev_file.name = dev_name + ".en"
            dev_tar.extract(fr_dev_file, directory)
            dev_tar.extract(en_dev_file, directory)
    return dev_path


def basic_tokenizer(sentence):
    """Very basic tokenizer: split the sentence into a list of tokens."""
    words = []
    for space_separated_fragment in sentence.strip().split():
        words.extend(_WORD_SPLIT.split(space_separated_fragment))
    return [w for w in words if w]


def create_vocabulary(vocabulary_path, data_path, max_vocabulary_size,
                      tokenizer=None, normalize_digits=True):
    """Create vocabulary file (if it does not exist yet) from data file.

    Data file is assumed to contain one sentence per line. Each sentence is
    tokenized and digits are normalized (if normalize_digits is set).
    Vocabulary contains the most-frequent tokens up to max_vocabulary_size.
    We write it to vocabulary_path in a one-token-per-line format, so that later
    token in the first line gets id=0, second line gets id=1, and so on.

    Args:
        vocabulary_path: path where the vocabulary will be created.
        data_path: data file that will be used to create vocabulary.
        max_vocabulary_size: limit on the size of the created vocabulary.
        tokenizer: a function to use to tokenize each data sentence;
            if None, basic_tokenizer will be used.
        normalize_digits: Boolean; if true, all digits are replaced by 0s.
    """
    if not gfile.Exists(vocabulary_path):
        print("Creating vocabulary %s from data %s" % (vocabulary_path, data_path))
        vocab = {}
        with gfile.GFile(data_path, mode="rb") as f:
            counter = 0
            for line in f:
                counter += 1
                if counter % 100000 == 0:
                    print("  processing line %d" % counter)
                line = tf.compat.as_bytes(line)
                tokens = tokenizer(line) if tokenizer else basic_tokenizer(line)
                for w in tokens:
                    word = _DIGIT_RE.sub(b"0", w) if normalize_digits else w
                    if word in vocab:
                        vocab[word] += 1
                    else:
                        vocab[word] = 1
            vocab_list = _START_VOCAB + sorted(vocab, key=vocab.get, reverse=True)
            if len(vocab_list) > max_vocabulary_size:
                vocab_list = vocab_list[:max_vocabulary_size]
            with gfile.GFile(vocabulary_path, mode="wb") as vocab_file:
                for w in vocab_list:
                    vocab_file.write(w + b"\n")


def initialize_vocabulary(vocabulary_path):
    """Initialize vocabulary from file.

    We assume the vocabulary is stored one-item-per-line, so a file:
      dog
      cat
    will result in a vocabulary {"dog": 0, "cat": 1}, and this function will
    also return the reversed-vocabulary ["dog", "cat"].

    Args:
      vocabulary_path: path to the file containing the vocabulary.

    Returns:
      a pair: the vocabulary (a dictionary mapping string to integers), and
      the reversed vocabulary (a list, which reverses the vocabulary mapping).

    Raises:
      ValueError: if the provided vocabulary_path does not exist.
    """
    if gfile.Exists(vocabulary_path):
        rev_vocab = []
        with gfile.GFile(vocabulary_path, mode="rb") as f:
            rev_vocab.extend(f.readlines())
        rev_vocab = [line.strip() for line in rev_vocab]
        vocab = dict([(x, y) for (y, x) in enumerate(rev_vocab)])
        return vocab, rev_vocab
    else:
        raise ValueError("Vocabulary file %s not found.", vocabulary_path)


def sentence_to_token_ids(sentence, vocabulary,
                          tokenizer=None, normalize_digits=True):
    """Convert a string to list of integers representing token-ids.

    For example, a sentence "I have a dog" may become tokenized into
    ["I", "have", "a", "dog"] and with vocabulary {"I": 1, "have": 2,
    "a": 4, "dog": 7"} this function will return [1, 2, 4, 7].

    Args:
      sentence: the sentence in bytes format to convert to token-ids.
      vocabulary: a dictionary mapping tokens to integers.
      tokenizer: a function to use to tokenize each sentence;
        if None, basic_tokenizer will be used.
      normalize_digits: Boolean; if true, all digits are replaced by 0s.

    Returns:
      a list of integers, the token-ids for the sentence.
    """

    if tokenizer:
        words = tokenizer(sentence)
    else:
        words = basic_tokenizer(sentence)
    if not normalize_digits:
        return [vocabulary.get(w, UNK_ID) for w in words]
    # Normalize digits by 0 before looking words up in the vocabulary.
    return [vocabulary.get(_DIGIT_RE.sub(b"0", w), UNK_ID) for w in words]


def data_to_token_ids(data_path, target_path, vocabulary_path,
                      tokenizer=None, normalize_digits=True):
    """Tokenize data file and turn into token-ids using given vocabulary file.

    This function loads data line-by-line from data_path, calls the above
    sentence_to_token_ids, and saves the result to target_path. See comment
    for sentence_to_token_ids on the details of token-ids format.

    Args:
      data_path: path to the data file in one-sentence-per-line format.
      target_path: path where the file with token-ids will be created.
      vocabulary_path: path to the vocabulary file.
      tokenizer: a function to use to tokenize each sentence;
        if None, basic_tokenizer will be used.
      normalize_digits: Boolean; if true, all digits are replaced by 0s.
    """
    if not gfile.Exists(target_path):
        print("Tokenizing data in %s" % data_path)
        vocab, _ = initialize_vocabulary(vocabulary_path)
        with gfile.GFile(data_path, mode="rb") as data_file:
            with gfile.GFile(target_path, mode="w") as tokens_file:
                counter = 0
                for line in data_file:
                    counter += 1
                    if counter % 100000 == 0:
                        print("  tokenizing line %d" % counter)
                    token_ids = sentence_to_token_ids(tf.compat.as_bytes(line), vocab,
                                                      tokenizer, normalize_digits)
                    tokens_file.write(" ".join([str(tok) for tok in token_ids]) + "\n")


def prepare_wmt_data(data_dir, en_vocabulary_size, fr_vocabulary_size, tokenizer=None):
    """Get WMT data into data_dir, create vocabularies and tokenize data.

    Args:
        data_dir: directory in which the data sets will be stored.
        en_vocabulary_size: size of the English vocabulary to create and use.
        fr_vocabulary_size: size of the French vocabulary to create and use.
        tokenizer: a function to use to tokenize each data sentence;
            if None, basic_tokenizer will be used.

    Returns:
      A tuple of 6 elements:
        (1) path to the token-ids for English training data-set,
        (2) path to the token-ids for French training data-set,
        (3) path to the token-ids for English development data-set,
        (4) path to the token-ids for French development data-set,
        (5) path to the English vocabulary file,
        (6) path to the French vocabulary file.
    """
    # Get wmt data to the specified directory.
    train_path = get_wmt_enfr_train_set(data_dir)
    dev_path = get_wmt_enfr_dev_set(data_dir)

    # Create vocabularies of the appropriate sizes.
    fr_vocab_path = os.path.join(data_dir, "vocab%d.fr" % fr_vocabulary_size)
    en_vocab_path = os.path.join(data_dir, "vocab%d.en" % en_vocabulary_size)
    create_vocabulary(fr_vocab_path, train_path + ".fr", fr_vocabulary_size, tokenizer)
    create_vocabulary(en_vocab_path, train_path + ".en", en_vocabulary_size, tokenizer)

    # Create token ids for the training data.
    fr_train_ids_path = train_path + (".ids%d.fr" % fr_vocabulary_size)
    en_train_ids_path = train_path + (".ids%d.en" % en_vocabulary_size)
    data_to_token_ids(train_path + ".fr", fr_train_ids_path, fr_vocab_path, tokenizer)
    data_to_token_ids(train_path + ".en", en_train_ids_path, en_vocab_path, tokenizer)

    # Create token ids for the development data.
    fr_dev_ids_path = dev_path + (".ids%d.fr" % fr_vocabulary_size)
    en_dev_ids_path = dev_path + (".ids%d.en" % en_vocabulary_size)
    data_to_token_ids(dev_path + ".fr", fr_dev_ids_path, fr_vocab_path, tokenizer)
    data_to_token_ids(dev_path + ".en", en_dev_ids_path, en_vocab_path, tokenizer)

    return (en_train_ids_path, fr_train_ids_path,
            en_dev_ids_path, fr_dev_ids_path,
            en_vocab_path, fr_vocab_path)



In [ ]:

    
# Specifit data management
# - Objective: 4 files with the enc_trn, dec_trn, enc_tst, & dec_tst sentences
#
# Read subtitles and create trian 6 test lines
#
data_source_path = '/home/jorge/data/training/text/' 

# Generator of list of files in a folder and subfolders
import os
import shutil
import fnmatch

def gen_find(filepattern, toppath):
    '''
    Generator with a recursive list of files in the toppath that match filepattern 
    Inputs:
        filepattern(str): Command stype pattern 
        toppath(str): Root path
    '''
    for path, dirlist, filelist in os.walk(toppath):
        for name in fnmatch.filter(filelist, filepattern):
            yield os.path.join(path, name)


train_files = gen_find("*[1-9]raw.txt", data_source_path+'OpenSubtitlesRaw/')
test_files = gen_find("*0raw.txt", data_source_path+'OpenSubtitlesRaw/')

def read_sentences(generator):
    sentences = []
    for ff in generator:
        with open(ff, 'r') as f:
            sentences += f.read().splitlines()
    return sentences        

train_sentences = read_sentences(train_files)
test_sentences = read_sentences(test_files)



In [ ]:

    
# save sentences 
with open('/tmp/chatbot/data/trn_sentences.en', "wb") as enc_file:
    with open('/tmp/chatbot/data/trn_sentences.de', "wb") as dec_file:
        for i in range(len(train_sentences)-1):
            enc_file.write(train_sentences[i]+'\n')
            dec_file.write(train_sentences[i+1]+'\n')



In [ ]:

    
# save sentences 
with open('/tmp/chatbot/data/tst_sentences.en', "wb") as enc_file:
    with open('/tmp/chatbot/data/tst_sentences.de', "wb") as dec_file:
        for i in range(len(test_sentences)-1):
            enc_file.write(test_sentences[i]+'\n')
            dec_file.write(test_sentences[i+1]+'\n')



In [ ]:

    
def prepare_wmt_data(data_dir, en_vocabulary_size, fr_vocabulary_size, tokenizer=None):


    train_path = os.path.join(data_dir, "trn_sentences")
    dev_path = os.path.join(data_dir, "tst_sentences")
    
    
    # Create vocabularies of the appropriate sizes.
    fr_vocab_path = os.path.join(data_dir, "vocab%d.de" % fr_vocabulary_size)
    en_vocab_path = os.path.join(data_dir, "vocab%d.en" % en_vocabulary_size)
    create_vocabulary(fr_vocab_path, train_path + ".de", fr_vocabulary_size, tokenizer)
    create_vocabulary(en_vocab_path, train_path + ".en", en_vocabulary_size, tokenizer)

    # Create token ids for the training data.
    fr_train_ids_path = train_path + (".ids%d.de" % fr_vocabulary_size)
    en_train_ids_path = train_path + (".ids%d.en" % en_vocabulary_size)
    data_to_token_ids(train_path + ".de", fr_train_ids_path, fr_vocab_path, tokenizer)
    data_to_token_ids(train_path + ".en", en_train_ids_path, en_vocab_path, tokenizer)

    # Create token ids for the development data.
    fr_dev_ids_path = dev_path + (".ids%d.de" % fr_vocabulary_size)
    en_dev_ids_path = dev_path + (".ids%d.en" % en_vocabulary_size)
    data_to_token_ids(dev_path + ".de", fr_dev_ids_path, fr_vocab_path, tokenizer)
    data_to_token_ids(dev_path + ".en", en_dev_ids_path, en_vocab_path, tokenizer)

    return (en_train_ids_path, fr_train_ids_path,
            en_dev_ids_path, fr_dev_ids_path,
            en_vocab_path, fr_vocab_path)

seq2seq CLASS



In [ ]:

    
# Copyright 2015 The TensorFlow Authors. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# ==============================================================================

"""Sequence-to-sequence model with an attention mechanism."""

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import random

import numpy as np
from six.moves import xrange  # pylint: disable=redefined-builtin
import tensorflow as tf

from tensorflow.models.rnn.translate import data_utils


class Seq2SeqModel(object):
    """Sequence-to-sequence model with attention and for multiple buckets.

    This class implements a multi-layer recurrent neural network as encoder,
    and an attention-based decoder. This is the same as the model described in
    this paper: http://arxiv.org/abs/1412.7449 - please look there for details,
    or into the seq2seq library for complete model implementation.
    This class also allows to use GRU cells in addition to LSTM cells, and
    sampled softmax to handle large output vocabulary size. A single-layer
    version of this model, but with bi-directional encoder, was presented in
        http://arxiv.org/abs/1409.0473
    and sampled softmax is described in Section 3 of the following paper.
        http://arxiv.org/abs/1412.2007
    """

    def __init__(self,
                 source_vocab_size,
                 target_vocab_size,
                 buckets,
                 size,
                 num_layers,
                 max_gradient_norm,
                 batch_size,
                 learning_rate,
                 learning_rate_decay_factor,
                 use_lstm=False,
                 num_samples=512,
                 forward_only=False,
                 dtype=tf.float32):
        """Create the model.
  
        Args:
          source_vocab_size: size of the source vocabulary.
          target_vocab_size: size of the target vocabulary.
          buckets: a list of pairs (I, O), where I specifies maximum input length
              that will be processed in that bucket, and O specifies maximum output
              length. Training instances that have inputs longer than I or outputs
              longer than O will be pushed to the next bucket and padded accordingly.
              We assume that the list is sorted, e.g., [(2, 4), (8, 16)].
          size: number of units in each layer of the model.
          num_layers: number of layers in the model.
          max_gradient_norm: gradients will be clipped to maximally this norm.
          batch_size: the size of the batches used during training;
              the model construction is independent of batch_size, so it can be
              changed after initialization if this is convenient, e.g., for decoding.
          learning_rate: learning rate to start with.
          learning_rate_decay_factor: decay learning rate by this much when needed.
          use_lstm: if true, we use LSTM cells instead of GRU cells.
          num_samples: number of samples for sampled softmax.
          forward_only: if set, we do not construct the backward pass in the model.
          dtype: the data type to use to store internal variables.
        """
        self.source_vocab_size = source_vocab_size
        self.target_vocab_size = target_vocab_size
        self.buckets = buckets
        self.batch_size = batch_size
        self.learning_rate = tf.Variable(
            float(learning_rate), trainable=False, dtype=dtype)
        self.learning_rate_decay_op = self.learning_rate.assign(
            self.learning_rate * learning_rate_decay_factor)
        self.global_step = tf.Variable(0, trainable=False)

        # If we use sampled softmax, we need an output projection.
        output_projection = None
        softmax_loss_function = None
        # Sampled softmax only makes sense if we sample less than vocabulary size.
        if num_samples > 0 and num_samples < self.target_vocab_size:
            w_t = tf.get_variable("proj_w", [self.target_vocab_size, size], dtype=dtype)
            w = tf.transpose(w_t)
            b = tf.get_variable("proj_b", [self.target_vocab_size], dtype=dtype)
            output_projection = (w, b)

            def sampled_loss(labels, inputs):
                labels = tf.reshape(labels, [-1, 1])
                # We need to compute the sampled_softmax_loss using 32bit floats to
                # avoid numerical instabilities.
                local_w_t = tf.cast(w_t, tf.float32)
                local_b = tf.cast(b, tf.float32)
                local_inputs = tf.cast(inputs, tf.float32)
                return tf.cast(
                    tf.nn.sampled_softmax_loss(local_w_t, local_b, local_inputs, labels,
                                             num_samples, self.target_vocab_size), dtype)
            softmax_loss_function = sampled_loss

        # Create the internal multi-layer cell for our RNN.
        single_cell = tf.contrib.rnn.GRUCell(size)
        if use_lstm:
            single_cell = tf.contrib.rnn.BasicLSTMCell(size)
        cell = single_cell
        if num_layers > 1:
            cell = tf.contrib.rnn.MultiRNNCell([single_cell] * num_layers)

        # The seq2seq function: we use embedding for the input and attention.
        def seq2seq_f(encoder_inputs, decoder_inputs, do_decode):
            return tf.nn.seq2seq.embedding_attention_seq2seq(
                encoder_inputs,
                decoder_inputs,
                cell,
                num_encoder_symbols=source_vocab_size,
                num_decoder_symbols=target_vocab_size,
                embedding_size=size,
                output_projection=output_projection,
                feed_previous=do_decode,
                dtype=dtype)

        # Feeds for inputs.
        self.encoder_inputs = []
        self.decoder_inputs = []
        self.target_weights = []
        for i in xrange(buckets[-1][0]):  # Last bucket is the biggest one.
            self.encoder_inputs.append(tf.placeholder(tf.int32, shape=[None],
                                                    name="encoder{0}".format(i)))
        for i in xrange(buckets[-1][1] + 1):
            self.decoder_inputs.append(tf.placeholder(tf.int32, shape=[None],
                                                    name="decoder{0}".format(i)))
            self.target_weights.append(tf.placeholder(dtype, shape=[None],
                                                    name="weight{0}".format(i)))
 
        # Our targets are decoder inputs shifted by one.
        targets = [self.decoder_inputs[i + 1]
                   for i in xrange(len(self.decoder_inputs) - 1)]

        # Training outputs and losses.
        if forward_only:
            self.outputs, self.losses = tf.nn.seq2seq.model_with_buckets(
                self.encoder_inputs, self.decoder_inputs, targets,
                self.target_weights, buckets, lambda x, y: seq2seq_f(x, y, True),
                softmax_loss_function=softmax_loss_function)
            # If we use output projection, we need to project outputs for decoding.
            if output_projection is not None:
                for b in xrange(len(buckets)):
                    self.outputs[b] = [
                        tf.matmul(output, output_projection[0]) + output_projection[1]
                        for output in self.outputs[b]
                    ]
        else:
            self.outputs, self.losses = tf.nn.seq2seq.model_with_buckets(
                self.encoder_inputs, self.decoder_inputs, targets,
                self.target_weights, buckets,
                lambda x, y: seq2seq_f(x, y, False),
                softmax_loss_function=softmax_loss_function)

        # Gradients and SGD update operation for training the model.
        params = tf.trainable_variables()
        if not forward_only:
            self.gradient_norms = []
            self.updates = []
            opt = tf.train.GradientDescentOptimizer(self.learning_rate)
            for b in xrange(len(buckets)):
                gradients = tf.gradients(self.losses[b], params)
                clipped_gradients, norm = tf.clip_by_global_norm(gradients,
                                                               max_gradient_norm)
                self.gradient_norms.append(norm)
                self.updates.append(opt.apply_gradients(
                    zip(clipped_gradients, params), global_step=self.global_step))

        self.saver = tf.train.Saver(tf.global_variables())

    
    
    
    def step(self, session, encoder_inputs, decoder_inputs, target_weights,
             bucket_id, forward_only):
        """Run a step of the model feeding the given inputs.

        Args:
          session: tensorflow session to use.
          encoder_inputs: list of numpy int vectors to feed as encoder inputs.
          decoder_inputs: list of numpy int vectors to feed as decoder inputs.
          target_weights: list of numpy float vectors to feed as target weights.
          bucket_id: which bucket of the model to use.
          forward_only: whether to do the backward step or only forward.

        Returns:
          A triple consisting of gradient norm (or None if we did not do backward),
          average perplexity, and the outputs.

        Raises:
          ValueError: if length of encoder_inputs, decoder_inputs, or
            target_weights disagrees with bucket size for the specified bucket_id.
        """
        # Check if the sizes match.
        encoder_size, decoder_size = self.buckets[bucket_id]
        if len(encoder_inputs) != encoder_size:
            raise ValueError("Encoder length must be equal to the one in bucket,"
                             " %d != %d." % (len(encoder_inputs), encoder_size))
        if len(decoder_inputs) != decoder_size:
            raise ValueError("Decoder length must be equal to the one in bucket,"
                             " %d != %d." % (len(decoder_inputs), decoder_size))
        if len(target_weights) != decoder_size:
            raise ValueError("Weights length must be equal to the one in bucket,"
                             " %d != %d." % (len(target_weights), decoder_size))

        # Input feed: encoder inputs, decoder inputs, target_weights, as provided.
        input_feed = {}
        for l in xrange(encoder_size):
            input_feed[self.encoder_inputs[l].name] = encoder_inputs[l]
        for l in xrange(decoder_size):
            input_feed[self.decoder_inputs[l].name] = decoder_inputs[l]
            input_feed[self.target_weights[l].name] = target_weights[l]

        # Since our targets are decoder inputs shifted by one, we need one more.
        last_target = self.decoder_inputs[decoder_size].name
        input_feed[last_target] = np.zeros([self.batch_size], dtype=np.int32)

        # Output feed: depends on whether we do a backward step or not.
        if not forward_only:
            output_feed = [self.updates[bucket_id],  # Update Op that does SGD.
                           self.gradient_norms[bucket_id],  # Gradient norm.
                           self.losses[bucket_id]]  # Loss for this batch.
        else:
            output_feed = [self.losses[bucket_id]]  # Loss for this batch.
            for l in xrange(decoder_size):  # Output logits.
                output_feed.append(self.outputs[bucket_id][l])

        outputs = session.run(output_feed, input_feed)
        if not forward_only:
            return outputs[1], outputs[2], None  # Gradient norm, loss, no outputs.
        else:
            return None, outputs[0], outputs[1:]  # No gradient norm, loss, outputs.

    
    
    def get_batch(self, data, bucket_id):
        """Get a random batch of data from the specified bucket, prepare for step.

        To feed data in step(..) it must be a list of batch-major vectors, while
        data here contains single length-major cases. So the main logic of this
        function is to re-index data cases to be in the proper format for feeding.

        Args:
          data: a tuple of size len(self.buckets) in which each element contains
            lists of pairs of input and output data that we use to create a batch.
          bucket_id: integer, which bucket to get the batch for.

        Returns:
          The triple (encoder_inputs, decoder_inputs, target_weights) for
          the constructed batch that has the proper format to call step(...) later.
        """
        encoder_size, decoder_size = self.buckets[bucket_id]
        encoder_inputs, decoder_inputs = [], []

        # Get a random batch of encoder and decoder inputs from data,
        # pad them if needed, reverse encoder inputs and add GO to decoder.
        for _ in xrange(self.batch_size):
            encoder_input, decoder_input = random.choice(data[bucket_id])

            # Encoder inputs are padded and then reversed.
            encoder_pad = [PAD_ID] * (encoder_size - len(encoder_input))
            encoder_inputs.append(list(reversed(encoder_input + encoder_pad)))

            # Decoder inputs get an extra "GO" symbol, and are padded then.
            decoder_pad_size = decoder_size - len(decoder_input) - 1
            decoder_inputs.append([GO_ID] + decoder_input +
                                  [PAD_ID] * decoder_pad_size)

        # Now we create batch-major vectors from the data selected above.
        batch_encoder_inputs, batch_decoder_inputs, batch_weights = [], [], []

        # Batch encoder inputs are just re-indexed encoder_inputs.
        for length_idx in xrange(encoder_size):
            batch_encoder_inputs.append(
                np.array([encoder_inputs[batch_idx][length_idx]
                          for batch_idx in xrange(self.batch_size)], dtype=np.int32))

        # Batch decoder inputs are re-indexed decoder_inputs, we create weights.
        for length_idx in xrange(decoder_size):
            batch_decoder_inputs.append(
                np.array([decoder_inputs[batch_idx][length_idx]
                          for batch_idx in xrange(self.batch_size)], dtype=np.int32))

            # Create target_weights to be 0 for targets that are padding.
            batch_weight = np.ones(self.batch_size, dtype=np.float32)
            for batch_idx in xrange(self.batch_size):
                # We set weight to 0 if the corresponding target is a PAD symbol.
                # The corresponding target is decoder_input shifted by 1 forward.
                if length_idx < decoder_size - 1:
                    target = decoder_inputs[batch_idx][length_idx + 1]
                if length_idx == decoder_size - 1 or target == PAD_ID:
                    batch_weight[batch_idx] = 0.0
            batch_weights.append(batch_weight)
        
        return batch_encoder_inputs, batch_decoder_inputs, batch_weights

Translate



In [ ]:

    
def read_data(source_path, target_path, max_size=None):
    """Read data from source and target files and put into buckets.

    Args:
      source_path: path to the files with token-ids for the source language.
      target_path: path to the file with token-ids for the target language;
          it must be aligned with the source file: n-th line contains the desired
          output for n-th line from the source_path.
      max_size: maximum number of lines to read, all other will be ignored;
          if 0 or None, data files will be read completely (no limit).

    Returns:
        data_set: a list of length len(_buckets); data_set[n] contains a list of
            (source, target) pairs read from the provided data files that fit
            into the n-th bucket, i.e., such that len(source) < _buckets[n][0] and
            len(target) < _buckets[n][1]; source and target are lists of token-ids.
    """
    data_set = [[] for _ in _buckets]
    with tf.gfile.GFile(source_path, mode="r") as source_file:
        with tf.gfile.GFile(target_path, mode="r") as target_file:
            source, target = source_file.readline(), target_file.readline()
            counter = 0
            while source and target and (not max_size or counter < max_size):
                counter += 1
                if counter % 100000 == 0:
                    print("  reading data line %d" % counter)
                    sys.stdout.flush()
                source_ids = [int(x) for x in source.split()]
                target_ids = [int(x) for x in target.split()]
                target_ids.append(EOS_ID)
                for bucket_id, (source_size, target_size) in enumerate(_buckets):
                    if len(source_ids) < source_size and len(target_ids) < target_size:
                        data_set[bucket_id].append([source_ids, target_ids])
                        break
                source, target = source_file.readline(), target_file.readline()
    return data_set



In [ ]:

    
def create_model(session, forward_only):
    """Create translation model and initialize or load parameters in session."""
    dtype = tf.float16 if FLAGS_use_fp16 else tf.float32
    
    model = seq2seq_model.Seq2SeqModel(
      FLAGS_en_vocab_size,
      FLAGS_fr_vocab_size,
      _buckets,
      FLAGS_size,
      FLAGS_num_layers,
      FLAGS_max_gradient_norm,
      FLAGS_batch_size,
      FLAGS_learning_rate,
      FLAGS_learning_rate_decay_factor,
      forward_only=forward_only,
      dtype=dtype)
    
    ckpt = tf.train.get_checkpoint_state(FLAGS_train_dir)
    if ckpt and tf.train.checkpoint_exists(ckpt.model_checkpoint_path):
        print("Reading model parameters from %s" % ckpt.model_checkpoint_path)
        model.saver.restore(session, ckpt.model_checkpoint_path)
    else:
        print("Created model with fresh parameters.")
        session.run(tf.global_variables_initializer())
    return model



In [ ]:

    
def train():
    """Train a chatbot using subtitles data."""
    
    # Prepare WMT data.
    print("Preparing WMT data in %s" % FLAGS_data_dir)
    en_train, fr_train, en_dev, fr_dev, _, _ = prepare_wmt_data(
                    FLAGS_data_dir, FLAGS_en_vocab_size, FLAGS_fr_vocab_size)
    #en_train, fr_train, en_dev, fr_dev --> Paths to the four files with enc_trn, dec_trn, enc_tst, dec_tst sentences
    

    with tf.Session() as sess:
        # Create model.
        print("Creating %d layers of %d units." % (FLAGS_num_layers, FLAGS_size))
        model = create_model(sess, False)

        # Read data into buckets and compute their sizes.
        print ("Reading development and training data (limit: %d)." % FLAGS_max_train_data_size)
        dev_set = read_data(en_dev, fr_dev)
        train_set = read_data(en_train, fr_train, FLAGS_max_train_data_size)
        train_bucket_sizes = [len(train_set[b]) for b in xrange(len(_buckets))]
        train_total_size = float(sum(train_bucket_sizes))

        # A bucket scale is a list of increasing numbers from 0 to 1 that we'll use
        # to select a bucket. Length of [scale[i], scale[i+1]] is proportional to
        # the size if i-th training bucket, as used later.
        train_buckets_scale = [sum(train_bucket_sizes[:i + 1]) / train_total_size for i in xrange(len(train_bucket_sizes))]

        # This is the training loop.
        step_time, loss = 0.0, 0.0
        current_step = 0
        previous_losses = []
        while True:
        
            # Choose a bucket according to data distribution. We pick a random number
            # in [0, 1] and use the corresponding interval in train_buckets_scale.
            random_number_01 = np.random.random_sample()
            bucket_id = min([i for i in xrange(len(train_buckets_scale)) if train_buckets_scale[i] > random_number_01])

            # Get a batch and make a step.
            start_time = time.time()
            encoder_inputs, decoder_inputs, target_weights = model.get_batch(train_set, bucket_id)
            _, step_loss, _ = model.step(sess, encoder_inputs, decoder_inputs, target_weights, bucket_id, False)
            step_time += (time.time() - start_time) / FLAGS_steps_per_checkpoint
            loss += step_loss / FLAGS_steps_per_checkpoint
            current_step += 1

            # Once in a while, we save checkpoint, print statistics, and run evals.
            if current_step % FLAGS_steps_per_checkpoint == 0:
            
                # Print statistics for the previous epoch.
                perplexity = math.exp(float(loss)) if loss < 300 else float("inf")
                print ("global step %d learning rate %.4f step-time %.2f perplexity "
                       "%.2f" % (model.global_step.eval(), model.learning_rate.eval(), step_time, perplexity))
            
                # Decrease learning rate if no improvement was seen over last 3 times.
                if len(previous_losses) > 2 and loss > max(previous_losses[-3:]):
                    sess.run(model.learning_rate_decay_op)
                previous_losses.append(loss)
            
                # Save checkpoint and zero timer and loss.
                checkpoint_path = os.path.join(FLAGS_train_dir, "translate.ckpt")
                model.saver.save(sess, checkpoint_path, global_step=model.global_step)
                step_time, loss = 0.0, 0.0
            
                # Run evals on development set and print their perplexity.
                for bucket_id in xrange(len(_buckets)):
                    if len(dev_set[bucket_id]) == 0:
                        print("  eval: empty bucket %d" % (bucket_id))
                        continue
                    encoder_inputs, decoder_inputs, target_weights = model.get_batch(dev_set, bucket_id)
                    _, eval_loss, _ = model.step(sess, encoder_inputs, decoder_inputs, target_weights, bucket_id, True)
                    eval_ppx = math.exp(float(eval_loss)) if eval_loss < 300 else float("inf")
                    print("  eval: bucket %d perplexity %.2f" % (bucket_id, eval_ppx))
                
                sys.stdout.flush()



In [ ]:

    
train()

Preparing WMT data in /tmp/chatbot/data Creating 3 layers of 512 units. WARNING:tensorflow:From /usr/local/lib/python2.7/dist-packages/tensorflow/models/rnn/translate/seq2seq_model.py:188 in __init__.: all_variables (from tensorflow.python.ops.variables) is deprecated and will be removed after 2016-03-02. Instructions for updating: Please use tf.global_variables instead. Created model with fresh parameters. Reading development and training data (limit: 0). reading data line 100000 reading data line 200000 reading data line 100000 reading data line 200000 reading data line 300000 reading data line 400000 reading data line 500000 reading data line 600000 reading data line 700000 reading data line 800000 reading data line 900000 reading data line 1000000 reading data line 1100000 reading data line 1200000 reading data line 1300000 reading data line 1400000 reading data line 1500000 reading data line 1600000 reading data line 1700000 reading data line 1800000 global step 200 learning rate 0.5000 step-time 0.17 perplexity 2319.64 eval: bucket 0 perplexity 200.87 eval: bucket 1 perplexity 244.97 eval: bucket 2 perplexity 474.95 eval: bucket 3 perplexity 551.53 global step 400 learning rate 0.5000 step-time 0.13 perplexity 281.06 eval: bucket 0 perplexity 177.82 eval: bucket 1 perplexity 282.12 eval: bucket 2 perplexity 237.55 eval: bucket 3 perplexity 307.04 global step 600 learning rate 0.5000 step-time 0.13 perplexity 217.19 eval: bucket 0 perplexity 140.09 eval: bucket 1 perplexity 203.31 eval: bucket 2 perplexity 288.27 eval: bucket 3 perplexity 342.21 global step 800 learning rate 0.5000 step-time 0.13 perplexity 201.39 eval: bucket 0 perplexity 154.29 eval: bucket 1 perplexity 203.72 eval: bucket 2 perplexity 227.21 eval: bucket 3 perplexity 272.51 global step 1000 learning rate 0.5000 step-time 0.13 perplexity 182.95 eval: bucket 0 perplexity 186.37 eval: bucket 1 perplexity 219.79 eval: bucket 2 perplexity 292.70 eval: bucket 3 perplexity 265.24 global step 1200 learning rate 0.5000 step-time 0.13 perplexity 173.58 eval: bucket 0 perplexity 103.16 eval: bucket 1 perplexity 154.89 eval: bucket 2 perplexity 202.31 eval: bucket 3 perplexity 287.89 global step 1400 learning rate 0.5000 step-time 0.13 perplexity 161.41 eval: bucket 0 perplexity 117.74 eval: bucket 1 perplexity 109.00 eval: bucket 2 perplexity 85.02 eval: bucket 3 perplexity 283.04 global step 1600 learning rate 0.5000 step-time 0.13 perplexity 159.03 eval: bucket 0 perplexity 101.87 eval: bucket 1 perplexity 201.20 eval: bucket 2 perplexity 183.11 eval: bucket 3 perplexity 216.65 global step 1800 learning rate 0.5000 step-time 0.13 perplexity 153.01 eval: bucket 0 perplexity 140.27 eval: bucket 1 perplexity 160.06 eval: bucket 2 perplexity 193.38 eval: bucket 3 perplexity 214.15 global step 2000 learning rate 0.5000 step-time 0.14 perplexity 154.93 eval: bucket 0 perplexity 116.99 eval: bucket 1 perplexity 186.76 eval: bucket 2 perplexity 148.97 eval: bucket 3 perplexity 362.11 global step 2200 learning rate 0.5000 step-time 0.14 perplexity 153.16 eval: bucket 0 perplexity 96.01 eval: bucket 1 perplexity 151.46 eval: bucket 2 perplexity 249.17 eval: bucket 3 perplexity 233.90 global step 2400 learning rate 0.5000 step-time 0.14 perplexity 143.79 eval: bucket 0 perplexity 139.40 eval: bucket 1 perplexity 162.54 eval: bucket 2 perplexity 175.52 eval: bucket 3 perplexity 224.97 global step 2600 learning rate 0.5000 step-time 0.13 perplexity 138.40 eval: bucket 0 perplexity 126.79 eval: bucket 1 perplexity 184.70 eval: bucket 2 perplexity 154.06 eval: bucket 3 perplexity 233.96 global step 2800 learning rate 0.5000 step-time 0.13 perplexity 137.67 eval: bucket 0 perplexity 72.81 eval: bucket 1 perplexity 196.32 eval: bucket 2 perplexity 174.38 eval: bucket 3 perplexity 232.04 global step 3000 learning rate 0.5000 step-time 0.13 perplexity 138.53 eval: bucket 0 perplexity 124.62 eval: bucket 1 perplexity 152.14 eval: bucket 2 perplexity 140.52 eval: bucket 3 perplexity 167.48 global step 3200 learning rate 0.5000 step-time 0.13 perplexity 134.72 eval: bucket 0 perplexity 98.14 eval: bucket 1 perplexity 160.63 eval: bucket 2 perplexity 168.01 eval: bucket 3 perplexity 194.42 global step 3400 learning rate 0.5000 step-time 0.14 perplexity 134.27 eval: bucket 0 perplexity 132.61 eval: bucket 1 perplexity 129.54 eval: bucket 2 perplexity 176.09 eval: bucket 3 perplexity 198.50 global step 3600 learning rate 0.5000 step-time 0.14 perplexity 123.68 eval: bucket 0 perplexity 77.85 eval: bucket 1 perplexity 129.71 eval: bucket 2 perplexity 167.06 eval: bucket 3 perplexity 176.55 global step 3800 learning rate 0.5000 step-time 0.14 perplexity 120.92 eval: bucket 0 perplexity 76.14 eval: bucket 1 perplexity 50.06 eval: bucket 2 perplexity 118.72 eval: bucket 3 perplexity 167.91 global step 4000 learning rate 0.5000 step-time 0.13 perplexity 104.12 eval: bucket 0 perplexity 65.19 eval: bucket 1 perplexity 102.57 eval: bucket 2 perplexity 126.30 eval: bucket 3 perplexity 169.51 global step 4200 learning rate 0.5000 step-time 0.13 perplexity 100.94 eval: bucket 0 perplexity 96.11 eval: bucket 1 perplexity 66.46 eval: bucket 2 perplexity 110.25 eval: bucket 3 perplexity 151.04 global step 4400 learning rate 0.5000 step-time 0.13 perplexity 93.40 eval: bucket 0 perplexity 45.20 eval: bucket 1 perplexity 71.73 eval: bucket 2 perplexity 82.06 eval: bucket 3 perplexity 157.68 global step 4600 learning rate 0.5000 step-time 0.14 perplexity 89.30 eval: bucket 0 perplexity 51.20 eval: bucket 1 perplexity 60.27 eval: bucket 2 perplexity 88.34 eval: bucket 3 perplexity 154.39 global step 4800 learning rate 0.5000 step-time 0.14 perplexity 89.33 eval: bucket 0 perplexity 69.56 eval: bucket 1 perplexity 97.91 eval: bucket 2 perplexity 114.34 eval: bucket 3 perplexity 119.74 global step 5000 learning rate 0.5000 step-time 0.13 perplexity 84.75 eval: bucket 0 perplexity 101.00 eval: bucket 1 perplexity 106.74 eval: bucket 2 perplexity 157.89 eval: bucket 3 perplexity 132.71 global step 5200 learning rate 0.5000 step-time 0.13 perplexity 80.79 eval: bucket 0 perplexity 63.52 eval: bucket 1 perplexity 112.41 eval: bucket 2 perplexity 77.07 eval: bucket 3 perplexity 132.85 global step 5400 learning rate 0.5000 step-time 0.13 perplexity 76.85 eval: bucket 0 perplexity 59.80 eval: bucket 1 perplexity 59.19 eval: bucket 2 perplexity 101.94 eval: bucket 3 perplexity 103.12 global step 5600 learning rate 0.5000 step-time 0.14 perplexity 76.99 eval: bucket 0 perplexity 37.07 eval: bucket 1 perplexity 60.99 eval: bucket 2 perplexity 96.34 eval: bucket 3 perplexity 115.14 global step 5800 learning rate 0.5000 step-time 0.13 perplexity 76.23 eval: bucket 0 perplexity 63.56 eval: bucket 1 perplexity 52.85 eval: bucket 2 perplexity 82.46 eval: bucket 3 perplexity 68.06 global step 6000 learning rate 0.5000 step-time 0.13 perplexity 74.45 eval: bucket 0 perplexity 67.12 eval: bucket 1 perplexity 103.54 eval: bucket 2 perplexity 86.06 eval: bucket 3 perplexity 88.03 global step 6200 learning rate 0.5000 step-time 0.12 perplexity 71.53 eval: bucket 0 perplexity 74.11 eval: bucket 1 perplexity 70.94 eval: bucket 2 perplexity 64.30 eval: bucket 3 perplexity 135.44 global step 6400 learning rate 0.5000 step-time 0.14 perplexity 70.20 eval: bucket 0 perplexity 61.11 eval: bucket 1 perplexity 54.29 eval: bucket 2 perplexity 63.65 eval: bucket 3 perplexity 89.52 global step 6600 learning rate 0.5000 step-time 0.12 perplexity 68.56 eval: bucket 0 perplexity 63.10 eval: bucket 1 perplexity 64.71 eval: bucket 2 perplexity 81.41 eval: bucket 3 perplexity 89.95 global step 6800 learning rate 0.5000 step-time 0.13 perplexity 67.95 eval: bucket 0 perplexity 59.63 eval: bucket 1 perplexity 96.43 eval: bucket 2 perplexity 100.45 eval: bucket 3 perplexity 99.67 global step 7000 learning rate 0.5000 step-time 0.13 perplexity 64.65 eval: bucket 0 perplexity 63.40 eval: bucket 1 perplexity 63.84 eval: bucket 2 perplexity 108.11 eval: bucket 3 perplexity 103.32 global step 7200 learning rate 0.5000 step-time 0.13 perplexity 64.74 eval: bucket 0 perplexity 50.29 eval: bucket 1 perplexity 68.24 eval: bucket 2 perplexity 84.37 eval: bucket 3 perplexity 84.08 global step 7400 learning rate 0.5000 step-time 0.13 perplexity 64.26 eval: bucket 0 perplexity 65.33 eval: bucket 1 perplexity 121.05 eval: bucket 2 perplexity 60.32 eval: bucket 3 perplexity 99.02 global step 7600 learning rate 0.5000 step-time 0.12 perplexity 61.04 eval: bucket 0 perplexity 72.94 eval: bucket 1 perplexity 61.43 eval: bucket 2 perplexity 82.21 eval: bucket 3 perplexity 107.40 global step 7800 learning rate 0.5000 step-time 0.13 perplexity 61.20 eval: bucket 0 perplexity 42.38 eval: bucket 1 perplexity 50.29 eval: bucket 2 perplexity 80.48 eval: bucket 3 perplexity 105.32 global step 8000 learning rate 0.5000 step-time 0.13 perplexity 60.55 eval: bucket 0 perplexity 70.01 eval: bucket 1 perplexity 67.69 eval: bucket 2 perplexity 76.33 eval: bucket 3 perplexity 62.16 global step 8200 learning rate 0.5000 step-time 0.14 perplexity 60.57 eval: bucket 0 perplexity 50.82 eval: bucket 1 perplexity 71.84 eval: bucket 2 perplexity 55.93 eval: bucket 3 perplexity 87.44 global step 8400 learning rate 0.5000 step-time 0.13 perplexity 59.25 eval: bucket 0 perplexity 29.05 eval: bucket 1 perplexity 48.83 eval: bucket 2 perplexity 50.71 eval: bucket 3 perplexity 141.70 global step 8600 learning rate 0.5000 step-time 0.12 perplexity 57.00 eval: bucket 0 perplexity 64.16 eval: bucket 1 perplexity 67.91 eval: bucket 2 perplexity 61.20 eval: bucket 3 perplexity 109.33 global step 8800 learning rate 0.5000 step-time 0.13 perplexity 57.28 eval: bucket 0 perplexity 63.17 eval: bucket 1 perplexity 64.54 eval: bucket 2 perplexity 108.63 eval: bucket 3 perplexity 98.57 global step 9000 learning rate 0.5000 step-time 0.13 perplexity 59.33 eval: bucket 0 perplexity 42.08 eval: bucket 1 perplexity 47.24 eval: bucket 2 perplexity 46.15 eval: bucket 3 perplexity 99.47 global step 9200 learning rate 0.4950 step-time 0.13 perplexity 54.02 eval: bucket 0 perplexity 33.53 eval: bucket 1 perplexity 63.06 eval: bucket 2 perplexity 76.02 eval: bucket 3 perplexity 82.18 global step 9400 learning rate 0.4950 step-time 0.13 perplexity 57.78 eval: bucket 0 perplexity 26.30 eval: bucket 1 perplexity 51.26 eval: bucket 2 perplexity 53.98 eval: bucket 3 perplexity 72.50 global step 9600 learning rate 0.4950 step-time 0.13 perplexity 54.62 eval: bucket 0 perplexity 36.93 eval: bucket 1 perplexity 47.12 eval: bucket 2 perplexity 71.33 eval: bucket 3 perplexity 87.98 global step 9800 learning rate 0.4950 step-time 0.13 perplexity 55.11 eval: bucket 0 perplexity 44.35 eval: bucket 1 perplexity 86.52 eval: bucket 2 perplexity 85.05 eval: bucket 3 perplexity 70.89 global step 10000 learning rate 0.4950 step-time 0.13 perplexity 55.69 eval: bucket 0 perplexity 38.13 eval: bucket 1 perplexity 69.64 eval: bucket 2 perplexity 84.29 eval: bucket 3 perplexity 100.37 global step 10200 learning rate 0.4950 step-time 0.13 perplexity 52.43 eval: bucket 0 perplexity 47.54 eval: bucket 1 perplexity 64.93 eval: bucket 2 perplexity 57.48 eval: bucket 3 perplexity 72.85 global step 10400 learning rate 0.4950 step-time 0.13 perplexity 51.87 eval: bucket 0 perplexity 59.76 eval: bucket 1 perplexity 48.74 eval: bucket 2 perplexity 68.14 eval: bucket 3 perplexity 76.73 global step 10600 learning rate 0.4950 step-time 0.13 perplexity 52.61 eval: bucket 0 perplexity 43.42 eval: bucket 1 perplexity 36.10 eval: bucket 2 perplexity 85.64 eval: bucket 3 perplexity 104.11 global step 10800 learning rate 0.4950 step-time 0.13 perplexity 53.85 eval: bucket 0 perplexity 38.37 eval: bucket 1 perplexity 41.20 eval: bucket 2 perplexity 50.61 eval: bucket 3 perplexity 60.69 global step 11000 learning rate 0.4901 step-time 0.13 perplexity 49.51 eval: bucket 0 perplexity 36.77 eval: bucket 1 perplexity 42.41 eval: bucket 2 perplexity 43.63 eval: bucket 3 perplexity 92.24 global step 11200 learning rate 0.4901 step-time 0.13 perplexity 51.43 eval: bucket 0 perplexity 29.08 eval: bucket 1 perplexity 61.81 eval: bucket 2 perplexity 60.92 eval: bucket 3 perplexity 76.33 global step 11400 learning rate 0.4901 step-time 0.12 perplexity 48.91 eval: bucket 0 perplexity 43.48 eval: bucket 1 perplexity 44.49 eval: bucket 2 perplexity 67.07 eval: bucket 3 perplexity 66.84 global step 11600 learning rate 0.4901 step-time 0.13 perplexity 50.22 eval: bucket 0 perplexity 31.03 eval: bucket 1 perplexity 78.79 eval: bucket 2 perplexity 56.58 eval: bucket 3 perplexity 98.94 global step 11800 learning rate 0.4901 step-time 0.13 perplexity 50.82 eval: bucket 0 perplexity 53.91 eval: bucket 1 perplexity 45.21 eval: bucket 2 perplexity 54.66 eval: bucket 3 perplexity 66.67 global step 12000 learning rate 0.4901 step-time 0.12 perplexity 49.22 eval: bucket 0 perplexity 38.26 eval: bucket 1 perplexity 58.65 eval: bucket 2 perplexity 63.58 eval: bucket 3 perplexity 64.46 global step 12200 learning rate 0.4901 step-time 0.13 perplexity 47.64 eval: bucket 0 perplexity 34.03 eval: bucket 1 perplexity 67.02 eval: bucket 2 perplexity 88.27 eval: bucket 3 perplexity 98.01 global step 12400 learning rate 0.4901 step-time 0.14 perplexity 50.42 eval: bucket 0 perplexity 67.80 eval: bucket 1 perplexity 53.43 eval: bucket 2 perplexity 72.78 eval: bucket 3 perplexity 87.27 global step 12600 learning rate 0.4901 step-time 0.14 perplexity 49.11 eval: bucket 0 perplexity 46.93 eval: bucket 1 perplexity 38.19 eval: bucket 2 perplexity 94.09 eval: bucket 3 perplexity 74.28 global step 12800 learning rate 0.4901 step-time 0.13 perplexity 45.35 eval: bucket 0 perplexity 51.61 eval: bucket 1 perplexity 59.16 eval: bucket 2 perplexity 52.12 eval: bucket 3 perplexity 43.23 global step 13000 learning rate 0.4901 step-time 0.13 perplexity 46.82 eval: bucket 0 perplexity 40.84 eval: bucket 1 perplexity 31.66 eval: bucket 2 perplexity 77.42 eval: bucket 3 perplexity 74.58 global step 13200 learning rate 0.4901 step-time 0.12 perplexity 46.54 eval: bucket 0 perplexity 54.08 eval: bucket 1 perplexity 45.42 eval: bucket 2 perplexity 61.78 eval: bucket 3 perplexity 59.95 global step 13400 learning rate 0.4901 step-time 0.12 perplexity 46.68 eval: bucket 0 perplexity 31.67 eval: bucket 1 perplexity 52.17 eval: bucket 2 perplexity 42.00 eval: bucket 3 perplexity 48.07 global step 13600 learning rate 0.4901 step-time 0.14 perplexity 47.41 eval: bucket 0 perplexity 53.85 eval: bucket 1 perplexity 46.53 eval: bucket 2 perplexity 55.70 eval: bucket 3 perplexity 85.27 global step 13800 learning rate 0.4851 step-time 0.14 perplexity 46.35 eval: bucket 0 perplexity 32.25 eval: bucket 1 perplexity 42.38 eval: bucket 2 perplexity 49.16 eval: bucket 3 perplexity 69.13 global step 14000 learning rate 0.4851 step-time 0.14 perplexity 46.69 eval: bucket 0 perplexity 58.07 eval: bucket 1 perplexity 44.87 eval: bucket 2 perplexity 56.93 eval: bucket 3 perplexity 50.96 global step 14200 learning rate 0.4851 step-time 0.13 perplexity 45.62 eval: bucket 0 perplexity 36.04 eval: bucket 1 perplexity 40.86 eval: bucket 2 perplexity 32.41 eval: bucket 3 perplexity 54.96 global step 14400 learning rate 0.4851 step-time 0.13 perplexity 44.62 eval: bucket 0 perplexity 36.35 eval: bucket 1 perplexity 44.33 eval: bucket 2 perplexity 88.57 eval: bucket 3 perplexity 59.27 global step 14600 learning rate 0.4851 step-time 0.13 perplexity 44.58 eval: bucket 0 perplexity 40.68 eval: bucket 1 perplexity 41.13 eval: bucket 2 perplexity 62.31 eval: bucket 3 perplexity 54.18 global step 14800 learning rate 0.4851 step-time 0.14 perplexity 44.79 eval: bucket 0 perplexity 23.25 eval: bucket 1 perplexity 57.64 eval: bucket 2 perplexity 45.13 eval: bucket 3 perplexity 66.79 global step 15000 learning rate 0.4851 step-time 0.13 perplexity 44.01 eval: bucket 0 perplexity 39.06 eval: bucket 1 perplexity 47.40 eval: bucket 2 perplexity 46.75 eval: bucket 3 perplexity 70.32 global step 15200 learning rate 0.4851 step-time 0.13 perplexity 43.19 eval: bucket 0 perplexity 30.41 eval: bucket 1 perplexity 44.50 eval: bucket 2 perplexity 38.83 eval: bucket 3 perplexity 58.36 global step 15400 learning rate 0.4851 step-time 0.14 perplexity 44.29 eval: bucket 0 perplexity 31.81 eval: bucket 1 perplexity 40.03 eval: bucket 2 perplexity 37.92 eval: bucket 3 perplexity 67.68 global step 15600 learning rate 0.4851 step-time 0.13 perplexity 44.24 eval: bucket 0 perplexity 31.61 eval: bucket 1 perplexity 28.46 eval: bucket 2 perplexity 53.39 eval: bucket 3 perplexity 44.00 global step 15800 learning rate 0.4851 step-time 0.12 perplexity 43.28 eval: bucket 0 perplexity 33.66 eval: bucket 1 perplexity 42.06 eval: bucket 2 perplexity 58.89 eval: bucket 3 perplexity 54.82 global step 16000 learning rate 0.4851 step-time 0.13 perplexity 44.10 eval: bucket 0 perplexity 22.62 eval: bucket 1 perplexity 65.61 eval: bucket 2 perplexity 47.75 eval: bucket 3 perplexity 81.10 global step 16200 learning rate 0.4851 step-time 0.12 perplexity 42.62 eval: bucket 0 perplexity 28.59 eval: bucket 1 perplexity 43.31 eval: bucket 2 perplexity 40.76 eval: bucket 3 perplexity 63.28 global step 16400 learning rate 0.4851 step-time 0.13 perplexity 41.66 eval: bucket 0 perplexity 39.59 eval: bucket 1 perplexity 26.85 eval: bucket 2 perplexity 61.59 eval: bucket 3 perplexity 67.48 global step 16600 learning rate 0.4851 step-time 0.13 perplexity 41.68 eval: bucket 0 perplexity 41.20 eval: bucket 1 perplexity 60.97 eval: bucket 2 perplexity 69.60 eval: bucket 3 perplexity 52.38 global step 16800 learning rate 0.4851 step-time 0.14 perplexity 42.55 eval: bucket 0 perplexity 35.41 eval: bucket 1 perplexity 45.09 eval: bucket 2 perplexity 53.47 eval: bucket 3 perplexity 60.52 global step 17000 learning rate 0.4851 step-time 0.13 perplexity 41.77 eval: bucket 0 perplexity 55.17 eval: bucket 1 perplexity 39.20 eval: bucket 2 perplexity 48.36 eval: bucket 3 perplexity 70.65 global step 17200 learning rate 0.4851 step-time 0.13 perplexity 40.44 eval: bucket 0 perplexity 37.62 eval: bucket 1 perplexity 81.30 eval: bucket 2 perplexity 42.03 eval: bucket 3 perplexity 109.17 global step 17400 learning rate 0.4851 step-time 0.14 perplexity 41.91 eval: bucket 0 perplexity 30.47 eval: bucket 1 perplexity 55.35 eval: bucket 2 perplexity 36.10 eval: bucket 3 perplexity 106.14 global step 17600 learning rate 0.4851 step-time 0.14 perplexity 42.88 eval: bucket 0 perplexity 36.75 eval: bucket 1 perplexity 39.74 eval: bucket 2 perplexity 53.77 eval: bucket 3 perplexity 79.14 global step 17800 learning rate 0.4803 step-time 0.13 perplexity 40.79 eval: bucket 0 perplexity 27.75 eval: bucket 1 perplexity 36.39 eval: bucket 2 perplexity 52.91 eval: bucket 3 perplexity 53.80 global step 18000 learning rate 0.4803 step-time 0.13 perplexity 41.42 eval: bucket 0 perplexity 42.63 eval: bucket 1 perplexity 30.89 eval: bucket 2 perplexity 45.63 eval: bucket 3 perplexity 50.41 global step 18200 learning rate 0.4803 step-time 0.13 perplexity 41.90 eval: bucket 0 perplexity 40.08 eval: bucket 1 perplexity 38.93 eval: bucket 2 perplexity 58.28 eval: bucket 3 perplexity 79.21 global step 18400 learning rate 0.4803 step-time 0.13 perplexity 40.80 eval: bucket 0 perplexity 29.61 eval: bucket 1 perplexity 35.68 eval: bucket 2 perplexity 37.80 eval: bucket 3 perplexity 58.01 global step 18600 learning rate 0.4803 step-time 0.13 perplexity 41.07 eval: bucket 0 perplexity 34.74 eval: bucket 1 perplexity 33.83 eval: bucket 2 perplexity 53.68 eval: bucket 3 perplexity 52.39 global step 18800 learning rate 0.4803 step-time 0.13 perplexity 39.75 eval: bucket 0 perplexity 19.50 eval: bucket 1 perplexity 57.54 eval: bucket 2 perplexity 41.88 eval: bucket 3 perplexity 69.84 global step 19000 learning rate 0.4803 step-time 0.13 perplexity 39.82 eval: bucket 0 perplexity 30.72 eval: bucket 1 perplexity 54.50 eval: bucket 2 perplexity 50.57 eval: bucket 3 perplexity 56.84 global step 19200 learning rate 0.4803 step-time 0.12 perplexity 38.77 eval: bucket 0 perplexity 29.04 eval: bucket 1 perplexity 41.63 eval: bucket 2 perplexity 38.55 eval: bucket 3 perplexity 50.54 global step 19400 learning rate 0.4803 step-time 0.12 perplexity 38.99 eval: bucket 0 perplexity 34.83 eval: bucket 1 perplexity 56.61 eval: bucket 2 perplexity 39.06 eval: bucket 3 perplexity 43.48 global step 19600 learning rate 0.4803 step-time 0.13 perplexity 39.37 eval: bucket 0 perplexity 41.38 eval: bucket 1 perplexity 27.54 eval: bucket 2 perplexity 43.99 eval: bucket 3 perplexity 66.53 global step 19800 learning rate 0.4803 step-time 0.15 perplexity 41.22 eval: bucket 0 perplexity 22.96 eval: bucket 1 perplexity 41.54 eval: bucket 2 perplexity 57.72 eval: bucket 3 perplexity 63.48 global step 20000 learning rate 0.4755 step-time 0.13 perplexity 39.15 eval: bucket 0 perplexity 43.50 eval: bucket 1 perplexity 35.65 eval: bucket 2 perplexity 39.03 eval: bucket 3 perplexity 59.81 global step 20200 learning rate 0.4755 step-time 0.14 perplexity 39.59 eval: bucket 0 perplexity 33.99 eval: bucket 1 perplexity 46.92 eval: bucket 2 perplexity 50.48 eval: bucket 3 perplexity 71.52 global step 20400 learning rate 0.4755 step-time 0.13 perplexity 39.41 eval: bucket 0 perplexity 32.42 eval: bucket 1 perplexity 54.75 eval: bucket 2 perplexity 34.53 eval: bucket 3 perplexity 63.26 global step 20600 learning rate 0.4755 step-time 0.13 perplexity 40.04 eval: bucket 0 perplexity 37.88 eval: bucket 1 perplexity 47.11 eval: bucket 2 perplexity 58.44 eval: bucket 3 perplexity 55.78 global step 20800 learning rate 0.4707 step-time 0.13 perplexity 38.14 eval: bucket 0 perplexity 27.03 eval: bucket 1 perplexity 26.33 eval: bucket 2 perplexity 65.75 eval: bucket 3 perplexity 66.07 global step 21000 learning rate 0.4707 step-time 0.13 perplexity 38.48 eval: bucket 0 perplexity 29.38 eval: bucket 1 perplexity 55.66 eval: bucket 2 perplexity 32.64 eval: bucket 3 perplexity 43.60 global step 21200 learning rate 0.4707 step-time 0.13 perplexity 38.65 eval: bucket 0 perplexity 39.30 eval: bucket 1 perplexity 40.58 eval: bucket 2 perplexity 31.69 eval: bucket 3 perplexity 63.56 global step 21400 learning rate 0.4707 step-time 0.13 perplexity 39.12 eval: bucket 0 perplexity 34.12 eval: bucket 1 perplexity 35.85 eval: bucket 2 perplexity 53.02 eval: bucket 3 perplexity 41.28 global step 21600 learning rate 0.4660 step-time 0.13 perplexity 38.46 eval: bucket 0 perplexity 26.45 eval: bucket 1 perplexity 37.22 eval: bucket 2 perplexity 47.21 eval: bucket 3 perplexity 57.56 global step 21800 learning rate 0.4660 step-time 0.13 perplexity 37.42 eval: bucket 0 perplexity 29.41 eval: bucket 1 perplexity 36.81 eval: bucket 2 perplexity 60.28 eval: bucket 3 perplexity 57.19 global step 22000 learning rate 0.4660 step-time 0.13 perplexity 38.58 eval: bucket 0 perplexity 36.98 eval: bucket 1 perplexity 37.82 eval: bucket 2 perplexity 62.09 eval: bucket 3 perplexity 43.55 global step 22200 learning rate 0.4660 step-time 0.13 perplexity 39.02 eval: bucket 0 perplexity 28.44 eval: bucket 1 perplexity 40.97 eval: bucket 2 perplexity 38.52 eval: bucket 3 perplexity 56.80 global step 22400 learning rate 0.4614 step-time 0.14 perplexity 38.90 eval: bucket 0 perplexity 29.68 eval: bucket 1 perplexity 62.02 eval: bucket 2 perplexity 50.87 eval: bucket 3 perplexity 58.21 global step 22600 learning rate 0.4614 step-time 0.13 perplexity 38.74 eval: bucket 0 perplexity 51.81 eval: bucket 1 perplexity 38.13 eval: bucket 2 perplexity 49.30 eval: bucket 3 perplexity 50.46 global step 22800 learning rate 0.4614 step-time 0.13 perplexity 37.91 eval: bucket 0 perplexity 36.69 eval: bucket 1 perplexity 26.39 eval: bucket 2 perplexity 29.77 eval: bucket 3 perplexity 44.88 global step 23000 learning rate 0.4614 step-time 0.13 perplexity 36.93 eval: bucket 0 perplexity 26.82 eval: bucket 1 perplexity 52.84 eval: bucket 2 perplexity 41.81 eval: bucket 3 perplexity 67.02 global step 23200 learning rate 0.4614 step-time 0.13 perplexity 36.78 eval: bucket 0 perplexity 27.42 eval: bucket 1 perplexity 28.59 eval: bucket 2 perplexity 57.07 eval: bucket 3 perplexity 44.71 global step 23400 learning rate 0.4614 step-time 0.13 perplexity 38.27 eval: bucket 0 perplexity 31.48 eval: bucket 1 perplexity 41.04 eval: bucket 2 perplexity 60.92 eval: bucket 3 perplexity 32.91 global step 23600 learning rate 0.4568 step-time 0.14 perplexity 37.74 eval: bucket 0 perplexity 32.03 eval: bucket 1 perplexity 55.18 eval: bucket 2 perplexity 39.27 eval: bucket 3 perplexity 77.05 global step 23800 learning rate 0.4568 step-time 0.12 perplexity 37.14 eval: bucket 0 perplexity 28.05 eval: bucket 1 perplexity 36.25 eval: bucket 2 perplexity 44.41 eval: bucket 3 perplexity 67.99 global step 24000 learning rate 0.4568 step-time 0.14 perplexity 36.87 eval: bucket 0 perplexity 35.21 eval: bucket 1 perplexity 68.40 eval: bucket 2 perplexity 55.59 eval: bucket 3 perplexity 60.84 global step 24200 learning rate 0.4568 step-time 0.14 perplexity 37.29 eval: bucket 0 perplexity 28.73 eval: bucket 1 perplexity 42.08 eval: bucket 2 perplexity 55.70 eval: bucket 3 perplexity 44.48 global step 24400 learning rate 0.4568 step-time 0.13 perplexity 36.21 eval: bucket 0 perplexity 34.98 eval: bucket 1 perplexity 45.02 eval: bucket 2 perplexity 41.71 eval: bucket 3 perplexity 62.69 global step 24600 learning rate 0.4568 step-time 0.14 perplexity 36.90 eval: bucket 0 perplexity 24.26 eval: bucket 1 perplexity 51.25 eval: bucket 2 perplexity 57.01 eval: bucket 3 perplexity 46.10 global step 24800 learning rate 0.4568 step-time 0.12 perplexity 36.10 eval: bucket 0 perplexity 31.29 eval: bucket 1 perplexity 48.27 eval: bucket 2 perplexity 42.68 eval: bucket 3 perplexity 85.07 global step 25000 learning rate 0.4568 step-time 0.13 perplexity 36.11 eval: bucket 0 perplexity 36.01 eval: bucket 1 perplexity 26.18 eval: bucket 2 perplexity 58.56 eval: bucket 3 perplexity 60.67 global step 25200 learning rate 0.4568 step-time 0.13 perplexity 35.39 eval: bucket 0 perplexity 33.97 eval: bucket 1 perplexity 57.33 eval: bucket 2 perplexity 81.66 eval: bucket 3 perplexity 84.87 global step 25400 learning rate 0.4568 step-time 0.13 perplexity 36.85 eval: bucket 0 perplexity 33.58 eval: bucket 1 perplexity 50.96 eval: bucket 2 perplexity 33.64 eval: bucket 3 perplexity 81.62 global step 25600 learning rate 0.4522 step-time 0.14 perplexity 37.45 eval: bucket 0 perplexity 34.89 eval: bucket 1 perplexity 42.05 eval: bucket 2 perplexity 47.11 eval: bucket 3 perplexity 63.73 global step 25800 learning rate 0.4477 step-time 0.13 perplexity 35.74 eval: bucket 0 perplexity 27.70 eval: bucket 1 perplexity 38.94 eval: bucket 2 perplexity 39.74 eval: bucket 3 perplexity 44.33 global step 26000 learning rate 0.4477 step-time 0.14 perplexity 37.00 eval: bucket 0 perplexity 55.58 eval: bucket 1 perplexity 21.60 eval: bucket 2 perplexity 71.11 eval: bucket 3 perplexity 75.09 global step 26200 learning rate 0.4477 step-time 0.14 perplexity 37.06 eval: bucket 0 perplexity 19.39 eval: bucket 1 perplexity 24.07 eval: bucket 2 perplexity 58.04 eval: bucket 3 perplexity 49.42 global step 26400 learning rate 0.4477 step-time 0.14 perplexity 35.75 eval: bucket 0 perplexity 33.56 eval: bucket 1 perplexity 36.47 eval: bucket 2 perplexity 41.84 eval: bucket 3 perplexity 42.44 global step 26600 learning rate 0.4477 step-time 0.14 perplexity 36.15 eval: bucket 0 perplexity 35.30 eval: bucket 1 perplexity 50.93 eval: bucket 2 perplexity 46.60 eval: bucket 3 perplexity 47.08 global step 26800 learning rate 0.4477 step-time 0.13 perplexity 36.11 eval: bucket 0 perplexity 47.45 eval: bucket 1 perplexity 30.68 eval: bucket 2 perplexity 39.72 eval: bucket 3 perplexity 54.03 global step 27000 learning rate 0.4477 step-time 0.13 perplexity 36.73 eval: bucket 0 perplexity 29.40 eval: bucket 1 perplexity 26.59 eval: bucket 2 perplexity 77.81 eval: bucket 3 perplexity 75.87 global step 27200 learning rate 0.4432 step-time 0.13 perplexity 36.48 eval: bucket 0 perplexity 36.79 eval: bucket 1 perplexity 63.74 eval: bucket 2 perplexity 53.87 eval: bucket 3 perplexity 65.66 global step 27400 learning rate 0.4432 step-time 0.14 perplexity 35.73 eval: bucket 0 perplexity 39.00 eval: bucket 1 perplexity 43.51 eval: bucket 2 perplexity 61.80 eval: bucket 3 perplexity 69.42 global step 27600 learning rate 0.4432 step-time 0.13 perplexity 35.47 eval: bucket 0 perplexity 27.76 eval: bucket 1 perplexity 48.11 eval: bucket 2 perplexity 43.54 eval: bucket 3 perplexity 63.68 global step 27800 learning rate 0.4432 step-time 0.12 perplexity 35.42 eval: bucket 0 perplexity 34.29 eval: bucket 1 perplexity 31.61 eval: bucket 2 perplexity 50.16 eval: bucket 3 perplexity 49.43 global step 28000 learning rate 0.4432 step-time 0.14 perplexity 36.25 eval: bucket 0 perplexity 31.48 eval: bucket 1 perplexity 53.36 eval: bucket 2 perplexity 56.97 eval: bucket 3 perplexity 53.32 global step 28200 learning rate 0.4388 step-time 0.13 perplexity 34.53 eval: bucket 0 perplexity 33.76 eval: bucket 1 perplexity 29.10 eval: bucket 2 perplexity 36.94 eval: bucket 3 perplexity 54.16 global step 28400 learning rate 0.4388 step-time 0.13 perplexity 35.29 eval: bucket 0 perplexity 30.38 eval: bucket 1 perplexity 37.19 eval: bucket 2 perplexity 39.61 eval: bucket 3 perplexity 68.84 global step 28600 learning rate 0.4388 step-time 0.12 perplexity 34.07 eval: bucket 0 perplexity 33.09 eval: bucket 1 perplexity 44.63 eval: bucket 2 perplexity 34.87 eval: bucket 3 perplexity 41.70 global step 28800 learning rate 0.4388 step-time 0.14 perplexity 35.44 eval: bucket 0 perplexity 36.31 eval: bucket 1 perplexity 34.67 eval: bucket 2 perplexity 46.13 eval: bucket 3 perplexity 47.95 global step 29000 learning rate 0.4344 step-time 0.13 perplexity 34.61 eval: bucket 0 perplexity 33.00 eval: bucket 1 perplexity 44.56 eval: bucket 2 perplexity 36.66 eval: bucket 3 perplexity 55.32 global step 29200 learning rate 0.4344 step-time 0.13 perplexity 35.54 eval: bucket 0 perplexity 33.01 eval: bucket 1 perplexity 15.75 eval: bucket 2 perplexity 36.59 eval: bucket 3 perplexity 43.49 global step 29400 learning rate 0.4300 step-time 0.14 perplexity 35.81 eval: bucket 0 perplexity 32.86 eval: bucket 1 perplexity 27.78 eval: bucket 2 perplexity 58.64 eval: bucket 3 perplexity 41.58 global step 29600 learning rate 0.4257 step-time 0.12 perplexity 33.24 eval: bucket 0 perplexity 31.23 eval: bucket 1 perplexity 25.58 eval: bucket 2 perplexity 36.84 eval: bucket 3 perplexity 36.33 global step 29800 learning rate 0.4257 step-time 0.14 perplexity 34.81 eval: bucket 0 perplexity 27.38 eval: bucket 1 perplexity 31.42 eval: bucket 2 perplexity 51.08 eval: bucket 3 perplexity 47.17 global step 30000 learning rate 0.4257 step-time 0.13 perplexity 35.54 eval: bucket 0 perplexity 20.52 eval: bucket 1 perplexity 31.18 eval: bucket 2 perplexity 33.52 eval: bucket 3 perplexity 37.56 global step 30200 learning rate 0.4257 step-time 0.13 perplexity 33.99 eval: bucket 0 perplexity 32.03 eval: bucket 1 perplexity 31.50 eval: bucket 2 perplexity 33.74 eval: bucket 3 perplexity 53.09 global step 30400 learning rate 0.4257 step-time 0.13 perplexity 35.85 eval: bucket 0 perplexity 30.09 eval: bucket 1 perplexity 35.27 eval: bucket 2 perplexity 37.11 eval: bucket 3 perplexity 71.79 global step 30600 learning rate 0.4215 step-time 0.12 perplexity 34.14 eval: bucket 0 perplexity 29.95 eval: bucket 1 perplexity 35.18 eval: bucket 2 perplexity 59.22 eval: bucket 3 perplexity 61.27 global step 30800 learning rate 0.4215 step-time 0.13 perplexity 33.35 eval: bucket 0 perplexity 25.15 eval: bucket 1 perplexity 41.79 eval: bucket 2 perplexity 36.79 eval: bucket 3 perplexity 65.52 global step 31000 learning rate 0.4215 step-time 0.13 perplexity 33.52 eval: bucket 0 perplexity 24.82 eval: bucket 1 perplexity 43.43 eval: bucket 2 perplexity 33.92 eval: bucket 3 perplexity 42.37 global step 31200 learning rate 0.4215 step-time 0.13 perplexity 34.20 eval: bucket 0 perplexity 45.41 eval: bucket 1 perplexity 26.53 eval: bucket 2 perplexity 36.91 eval: bucket 3 perplexity 64.07 global step 31400 learning rate 0.4173 step-time 0.13 perplexity 34.65 eval: bucket 0 perplexity 42.55 eval: bucket 1 perplexity 41.17 eval: bucket 2 perplexity 38.43 eval: bucket 3 perplexity 36.20 global step 31600 learning rate 0.4131 step-time 0.14 perplexity 34.26 eval: bucket 0 perplexity 26.32 eval: bucket 1 perplexity 43.09 eval: bucket 2 perplexity 49.65 eval: bucket 3 perplexity 60.29 global step 31800 learning rate 0.4131 step-time 0.13 perplexity 34.53 eval: bucket 0 perplexity 17.97 eval: bucket 1 perplexity 51.47 eval: bucket 2 perplexity 53.13 eval: bucket 3 perplexity 54.11 global step 32000 learning rate 0.4131 step-time 0.14 perplexity 34.70 eval: bucket 0 perplexity 37.29 eval: bucket 1 perplexity 34.25 eval: bucket 2 perplexity 62.47 eval: bucket 3 perplexity 58.62 global step 32200 learning rate 0.4090 step-time 0.13 perplexity 33.37 eval: bucket 0 perplexity 21.70 eval: bucket 1 perplexity 31.02 eval: bucket 2 perplexity 37.05 eval: bucket 3 perplexity 35.51 global step 32400 learning rate 0.4090 step-time 0.13 perplexity 32.90 eval: bucket 0 perplexity 35.17 eval: bucket 1 perplexity 42.76 eval: bucket 2 perplexity 41.92 eval: bucket 3 perplexity 69.83 global step 32600 learning rate 0.4090 step-time 0.14 perplexity 34.02 eval: bucket 0 perplexity 27.31 eval: bucket 1 perplexity 47.10 eval: bucket 2 perplexity 29.19 eval: bucket 3 perplexity 51.31 global step 32800 learning rate 0.4090 step-time 0.14 perplexity 34.37 eval: bucket 0 perplexity 21.97 eval: bucket 1 perplexity 27.10 eval: bucket 2 perplexity 35.08 eval: bucket 3 perplexity 46.50 global step 33000 learning rate 0.4049 step-time 0.13 perplexity 34.03 eval: bucket 0 perplexity 25.49 eval: bucket 1 perplexity 25.90 eval: bucket 2 perplexity 38.23 eval: bucket 3 perplexity 59.41 global step 33200 learning rate 0.4049 step-time 0.13 perplexity 33.35 eval: bucket 0 perplexity 38.36 eval: bucket 1 perplexity 36.97 eval: bucket 2 perplexity 45.81 eval: bucket 3 perplexity 42.05 global step 33400 learning rate 0.4049 step-time 0.13 perplexity 33.44 eval: bucket 0 perplexity 25.57 eval: bucket 1 perplexity 24.37 eval: bucket 2 perplexity 52.61 eval: bucket 3 perplexity 54.14 global step 33600 learning rate 0.4049 step-time 0.14 perplexity 34.68 eval: bucket 0 perplexity 19.56 eval: bucket 1 perplexity 27.24 eval: bucket 2 perplexity 49.22 eval: bucket 3 perplexity 56.73 global step 33800 learning rate 0.4008 step-time 0.13 perplexity 32.95 eval: bucket 0 perplexity 21.37 eval: bucket 1 perplexity 48.98 eval: bucket 2 perplexity 64.24 eval: bucket 3 perplexity 56.92 global step 34000 learning rate 0.4008 step-time 0.14 perplexity 33.10 eval: bucket 0 perplexity 30.89 eval: bucket 1 perplexity 52.31 eval: bucket 2 perplexity 39.55 eval: bucket 3 perplexity 38.16 global step 34200 learning rate 0.4008 step-time 0.12 perplexity 32.90 eval: bucket 0 perplexity 25.21 eval: bucket 1 perplexity 35.89 eval: bucket 2 perplexity 38.39 eval: bucket 3 perplexity 55.58 global step 34400 learning rate 0.4008 step-time 0.13 perplexity 32.92 eval: bucket 0 perplexity 21.68 eval: bucket 1 perplexity 40.60 eval: bucket 2 perplexity 49.42 eval: bucket 3 perplexity 34.88 global step 34600 learning rate 0.4008 step-time 0.13 perplexity 33.30 eval: bucket 0 perplexity 31.63 eval: bucket 1 perplexity 39.89 eval: bucket 2 perplexity 37.13 eval: bucket 3 perplexity 49.20 global step 34800 learning rate 0.3968 step-time 0.13 perplexity 32.09 eval: bucket 0 perplexity 33.07 eval: bucket 1 perplexity 47.72 eval: bucket 2 perplexity 44.60 eval: bucket 3 perplexity 48.11 global step 35000 learning rate 0.3968 step-time 0.13 perplexity 32.83 eval: bucket 0 perplexity 23.74 eval: bucket 1 perplexity 29.42 eval: bucket 2 perplexity 57.79 eval: bucket 3 perplexity 47.18 global step 35200 learning rate 0.3968 step-time 0.14 perplexity 32.50 eval: bucket 0 perplexity 25.13 eval: bucket 1 perplexity 39.15 eval: bucket 2 perplexity 34.76 eval: bucket 3 perplexity 58.09 global step 35400 learning rate 0.3968 step-time 0.13 perplexity 32.05 eval: bucket 0 perplexity 32.48 eval: bucket 1 perplexity 43.01 eval: bucket 2 perplexity 46.16 eval: bucket 3 perplexity 63.30 global step 35600 learning rate 0.3968 step-time 0.13 perplexity 32.22 eval: bucket 0 perplexity 24.11 eval: bucket 1 perplexity 53.85 eval: bucket 2 perplexity 37.05 eval: bucket 3 perplexity 54.44 global step 35800 learning rate 0.3968 step-time 0.12 perplexity 33.02 eval: bucket 0 perplexity 26.59 eval: bucket 1 perplexity 28.32 eval: bucket 2 perplexity 27.07 eval: bucket 3 perplexity 64.29 global step 36000 learning rate 0.3928 step-time 0.13 perplexity 33.51 eval: bucket 0 perplexity 28.34 eval: bucket 1 perplexity 33.51 eval: bucket 2 perplexity 36.50 eval: bucket 3 perplexity 54.27 global step 36200 learning rate 0.3889 step-time 0.13 perplexity 31.59 eval: bucket 0 perplexity 20.35 eval: bucket 1 perplexity 31.29 eval: bucket 2 perplexity 44.81 eval: bucket 3 perplexity 57.54 global step 36400 learning rate 0.3889 step-time 0.13 perplexity 32.74 eval: bucket 0 perplexity 21.74 eval: bucket 1 perplexity 22.94 eval: bucket 2 perplexity 41.91 eval: bucket 3 perplexity 37.92 global step 36600 learning rate 0.3889 step-time 0.14 perplexity 32.18 eval: bucket 0 perplexity 32.05 eval: bucket 1 perplexity 25.68 eval: bucket 2 perplexity 34.84 eval: bucket 3 perplexity 38.15 global step 36800 learning rate 0.3889 step-time 0.13 perplexity 32.57 eval: bucket 0 perplexity 23.10 eval: bucket 1 perplexity 45.06 eval: bucket 2 perplexity 30.25 eval: bucket 3 perplexity 59.18 global step 37000 learning rate 0.3889 step-time 0.13 perplexity 32.80 eval: bucket 0 perplexity 30.33 eval: bucket 1 perplexity 25.34 eval: bucket 2 perplexity 46.09 eval: bucket 3 perplexity 49.00 global step 37200 learning rate 0.3850 step-time 0.13 perplexity 32.27 eval: bucket 0 perplexity 34.58 eval: bucket 1 perplexity 71.11 eval: bucket 2 perplexity 51.19 eval: bucket 3 perplexity 53.06 global step 37400 learning rate 0.3850 step-time 0.14 perplexity 31.90 eval: bucket 0 perplexity 18.34 eval: bucket 1 perplexity 35.65 eval: bucket 2 perplexity 36.71 eval: bucket 3 perplexity 62.15 global step 37600 learning rate 0.3850 step-time 0.13 perplexity 31.10 eval: bucket 0 perplexity 32.20 eval: bucket 1 perplexity 32.28 eval: bucket 2 perplexity 37.57 eval: bucket 3 perplexity 45.50 global step 37800 learning rate 0.3850 step-time 0.13 perplexity 32.49 eval: bucket 0 perplexity 27.36 eval: bucket 1 perplexity 50.57 eval: bucket 2 perplexity 28.83 eval: bucket 3 perplexity 49.72 global step 38000 learning rate 0.3812 step-time 0.14 perplexity 31.85 eval: bucket 0 perplexity 30.65 eval: bucket 1 perplexity 29.36 eval: bucket 2 perplexity 35.02 eval: bucket 3 perplexity 36.86 global step 38200 learning rate 0.3812 step-time 0.12 perplexity 31.72 eval: bucket 0 perplexity 22.03 eval: bucket 1 perplexity 43.66 eval: bucket 2 perplexity 29.85 eval: bucket 3 perplexity 49.90 global step 38400 learning rate 0.3812 step-time 0.14 perplexity 31.87 eval: bucket 0 perplexity 38.75 eval: bucket 1 perplexity 25.91 eval: bucket 2 perplexity 26.81 eval: bucket 3 perplexity 62.86 global step 38600 learning rate 0.3812 step-time 0.13 perplexity 31.80 eval: bucket 0 perplexity 32.27 eval: bucket 1 perplexity 37.00 eval: bucket 2 perplexity 40.69 eval: bucket 3 perplexity 51.91 global step 38800 learning rate 0.3812 step-time 0.14 perplexity 31.82 eval: bucket 0 perplexity 25.69 eval: bucket 1 perplexity 32.27 eval: bucket 2 perplexity 48.24 eval: bucket 3 perplexity 43.26 global step 39000 learning rate 0.3812 step-time 0.14 perplexity 32.26 eval: bucket 0 perplexity 32.82 eval: bucket 1 perplexity 31.18 eval: bucket 2 perplexity 24.65 eval: bucket 3 perplexity 37.82 global step 39200 learning rate 0.3774 step-time 0.13 perplexity 31.96 eval: bucket 0 perplexity 31.84 eval: bucket 1 perplexity 40.93 eval: bucket 2 perplexity 40.04 eval: bucket 3 perplexity 51.23 global step 39400 learning rate 0.3774 step-time 0.13 perplexity 31.87 eval: bucket 0 perplexity 50.94 eval: bucket 1 perplexity 37.61 eval: bucket 2 perplexity 50.28 eval: bucket 3 perplexity 61.78 global step 39600 learning rate 0.3774 step-time 0.14 perplexity 32.00 eval: bucket 0 perplexity 42.73 eval: bucket 1 perplexity 35.45 eval: bucket 2 perplexity 45.80 eval: bucket 3 perplexity 35.65 global step 39800 learning rate 0.3774 step-time 0.13 perplexity 32.18 eval: bucket 0 perplexity 35.54 eval: bucket 1 perplexity 24.91 eval: bucket 2 perplexity 27.16 eval: bucket 3 perplexity 58.75 global step 40000 learning rate 0.3736 step-time 0.14 perplexity 31.81 eval: bucket 0 perplexity 18.90 eval: bucket 1 perplexity 36.70 eval: bucket 2 perplexity 33.89 eval: bucket 3 perplexity 75.01 global step 40200 learning rate 0.3736 step-time 0.14 perplexity 32.18 eval: bucket 0 perplexity 22.04 eval: bucket 1 perplexity 33.75 eval: bucket 2 perplexity 32.90 eval: bucket 3 perplexity 36.18 global step 40400 learning rate 0.3736 step-time 0.13 perplexity 30.86 eval: bucket 0 perplexity 15.06 eval: bucket 1 perplexity 27.70 eval: bucket 2 perplexity 39.36 eval: bucket 3 perplexity 46.89 global step 40600 learning rate 0.3736 step-time 0.13 perplexity 30.76 eval: bucket 0 perplexity 37.11 eval: bucket 1 perplexity 24.71 eval: bucket 2 perplexity 27.69 eval: bucket 3 perplexity 51.60 global step 40800 learning rate 0.3736 step-time 0.13 perplexity 31.37 eval: bucket 0 perplexity 29.27 eval: bucket 1 perplexity 37.24 eval: bucket 2 perplexity 50.70 eval: bucket 3 perplexity 57.55 global step 41000 learning rate 0.3736 step-time 0.13 perplexity 31.09 eval: bucket 0 perplexity 26.91 eval: bucket 1 perplexity 19.89 eval: bucket 2 perplexity 54.71 eval: bucket 3 perplexity 61.20 global step 41200 learning rate 0.3736 step-time 0.14 perplexity 31.52 eval: bucket 0 perplexity 21.54 eval: bucket 1 perplexity 28.80 eval: bucket 2 perplexity 28.75 eval: bucket 3 perplexity 53.11 global step 41400 learning rate 0.3699 step-time 0.14 perplexity 32.11 eval: bucket 0 perplexity 42.21 eval: bucket 1 perplexity 32.70 eval: bucket 2 perplexity 27.79 eval: bucket 3 perplexity 40.92 global step 41600 learning rate 0.3662 step-time 0.13 perplexity 30.92 eval: bucket 0 perplexity 44.85 eval: bucket 1 perplexity 36.15 eval: bucket 2 perplexity 39.49 eval: bucket 3 perplexity 38.53 global step 41800 learning rate 0.3662 step-time 0.13 perplexity 31.31 eval: bucket 0 perplexity 33.02 eval: bucket 1 perplexity 23.75 eval: bucket 2 perplexity 35.97 eval: bucket 3 perplexity 64.73 global step 42000 learning rate 0.3662 step-time 0.13 perplexity 30.51 eval: bucket 0 perplexity 21.01 eval: bucket 1 perplexity 44.32 eval: bucket 2 perplexity 54.10 eval: bucket 3 perplexity 47.78 global step 42200 learning rate 0.3662 step-time 0.13 perplexity 30.51 eval: bucket 0 perplexity 29.38 eval: bucket 1 perplexity 28.54 eval: bucket 2 perplexity 35.31 eval: bucket 3 perplexity 46.51 global step 42400 learning rate 0.3662 step-time 0.13 perplexity 31.27 eval: bucket 0 perplexity 23.57 eval: bucket 1 perplexity 16.95 eval: bucket 2 perplexity 49.34 eval: bucket 3 perplexity 32.28 global step 42600 learning rate 0.3662 step-time 0.14 perplexity 31.76 eval: bucket 0 perplexity 28.32 eval: bucket 1 perplexity 31.39 eval: bucket 2 perplexity 23.92 eval: bucket 3 perplexity 47.58 global step 42800 learning rate 0.3625 step-time 0.13 perplexity 29.33 eval: bucket 0 perplexity 30.16 eval: bucket 1 perplexity 30.48 eval: bucket 2 perplexity 46.12 eval: bucket 3 perplexity 57.90 global step 43000 learning rate 0.3625 step-time 0.13 perplexity 31.46 eval: bucket 0 perplexity 21.86 eval: bucket 1 perplexity 21.82 eval: bucket 2 perplexity 29.46 eval: bucket 3 perplexity 51.31 global step 43200 learning rate 0.3625 step-time 0.13 perplexity 31.21 eval: bucket 0 perplexity 31.82 eval: bucket 1 perplexity 42.23 eval: bucket 2 perplexity 35.55 eval: bucket 3 perplexity 45.31 global step 43400 learning rate 0.3625 step-time 0.12 perplexity 31.20 eval: bucket 0 perplexity 48.68 eval: bucket 1 perplexity 36.47 eval: bucket 2 perplexity 29.79 eval: bucket 3 perplexity 51.57 global step 43600 learning rate 0.3625 step-time 0.13 perplexity 30.24 eval: bucket 0 perplexity 28.11 eval: bucket 1 perplexity 25.37 eval: bucket 2 perplexity 42.79 eval: bucket 3 perplexity 60.27 global step 43800 learning rate 0.3625 step-time 0.13 perplexity 30.91 eval: bucket 0 perplexity 37.79 eval: bucket 1 perplexity 35.34 eval: bucket 2 perplexity 41.02 eval: bucket 3 perplexity 48.53 global step 44000 learning rate 0.3625 step-time 0.13 perplexity 30.68 eval: bucket 0 perplexity 35.48 eval: bucket 1 perplexity 35.82 eval: bucket 2 perplexity 42.23 eval: bucket 3 perplexity 37.94 global step 44200 learning rate 0.3625 step-time 0.13 perplexity 31.22 eval: bucket 0 perplexity 27.71 eval: bucket 1 perplexity 30.96 eval: bucket 2 perplexity 41.19 eval: bucket 3 perplexity 52.18 global step 44400 learning rate 0.3589 step-time 0.14 perplexity 30.17 eval: bucket 0 perplexity 30.96 eval: bucket 1 perplexity 43.02 eval: bucket 2 perplexity 45.96 eval: bucket 3 perplexity 47.27 global step 44600 learning rate 0.3589 step-time 0.13 perplexity 30.50 eval: bucket 0 perplexity 31.63 eval: bucket 1 perplexity 45.48 eval: bucket 2 perplexity 22.50 eval: bucket 3 perplexity 41.73 global step 44800 learning rate 0.3589 step-time 0.14 perplexity 30.43 eval: bucket 0 perplexity 27.33 eval: bucket 1 perplexity 37.92 eval: bucket 2 perplexity 30.83 eval: bucket 3 perplexity 35.14 global step 45000 learning rate 0.3589 step-time 0.13 perplexity 30.85 eval: bucket 0 perplexity 42.64 eval: bucket 1 perplexity 34.38 eval: bucket 2 perplexity 40.31 eval: bucket 3 perplexity 45.14 global step 45200 learning rate 0.3553 step-time 0.14 perplexity 31.96 eval: bucket 0 perplexity 22.86 eval: bucket 1 perplexity 30.44 eval: bucket 2 perplexity 50.86 eval: bucket 3 perplexity 49.19 global step 45400 learning rate 0.3517 step-time 0.14 perplexity 31.08 eval: bucket 0 perplexity 35.97 eval: bucket 1 perplexity 24.29 eval: bucket 2 perplexity 25.64 eval: bucket 3 perplexity 43.61 global step 45600 learning rate 0.3517 step-time 0.13 perplexity 30.79 eval: bucket 0 perplexity 35.68 eval: bucket 1 perplexity 45.36 eval: bucket 2 perplexity 23.81 eval: bucket 3 perplexity 38.23 global step 45800 learning rate 0.3517 step-time 0.13 perplexity 29.84 eval: bucket 0 perplexity 24.89 eval: bucket 1 perplexity 28.98 eval: bucket 2 perplexity 36.21 eval: bucket 3 perplexity 44.73 global step 46000 learning rate 0.3517 step-time 0.13 perplexity 30.51 eval: bucket 0 perplexity 23.35 eval: bucket 1 perplexity 37.69 eval: bucket 2 perplexity 42.76 eval: bucket 3 perplexity 48.15 global step 46200 learning rate 0.3517 step-time 0.13 perplexity 29.94 eval: bucket 0 perplexity 33.45 eval: bucket 1 perplexity 40.33 eval: bucket 2 perplexity 45.94 eval: bucket 3 perplexity 49.54 global step 46400 learning rate 0.3517 step-time 0.13 perplexity 29.91 eval: bucket 0 perplexity 37.13 eval: bucket 1 perplexity 34.78 eval: bucket 2 perplexity 38.48 eval: bucket 3 perplexity 54.18 global step 46600 learning rate 0.3517 step-time 0.12 perplexity 30.42 eval: bucket 0 perplexity 29.50 eval: bucket 1 perplexity 40.51 eval: bucket 2 perplexity 25.48 eval: bucket 3 perplexity 28.35 global step 46800 learning rate 0.3517 step-time 0.13 perplexity 30.94 eval: bucket 0 perplexity 28.75 eval: bucket 1 perplexity 34.43 eval: bucket 2 perplexity 30.77 eval: bucket 3 perplexity 48.55 global step 47000 learning rate 0.3482 step-time 0.13 perplexity 30.72 eval: bucket 0 perplexity 24.73 eval: bucket 1 perplexity 27.79 eval: bucket 2 perplexity 35.98 eval: bucket 3 perplexity 41.35 global step 47200 learning rate 0.3482 step-time 0.14 perplexity 29.56 eval: bucket 0 perplexity 21.48 eval: bucket 1 perplexity 40.71 eval: bucket 2 perplexity 35.81 eval: bucket 3 perplexity 45.74 global step 47400 learning rate 0.3482 step-time 0.13 perplexity 30.03 eval: bucket 0 perplexity 21.77 eval: bucket 1 perplexity 22.52 eval: bucket 2 perplexity 45.67 eval: bucket 3 perplexity 38.15 global step 47600 learning rate 0.3482 step-time 0.13 perplexity 29.75 eval: bucket 0 perplexity 27.98 eval: bucket 1 perplexity 45.23 eval: bucket 2 perplexity 50.09 eval: bucket 3 perplexity 58.46 global step 47800 learning rate 0.3482 step-time 0.13 perplexity 30.52 eval: bucket 0 perplexity 31.63 eval: bucket 1 perplexity 29.39 eval: bucket 2 perplexity 34.91 eval: bucket 3 perplexity 31.73 global step 48000 learning rate 0.3447 step-time 0.13 perplexity 30.42 eval: bucket 0 perplexity 29.69 eval: bucket 1 perplexity 35.33 eval: bucket 2 perplexity 51.38 eval: bucket 3 perplexity 44.29 global step 48200 learning rate 0.3447 step-time 0.13 perplexity 31.14 eval: bucket 0 perplexity 16.86 eval: bucket 1 perplexity 25.08 eval: bucket 2 perplexity 39.85 eval: bucket 3 perplexity 63.32 global step 48400 learning rate 0.3413 step-time 0.14 perplexity 29.86 eval: bucket 0 perplexity 23.53 eval: bucket 1 perplexity 19.51 eval: bucket 2 perplexity 23.20 eval: bucket 3 perplexity 49.73 global step 48600 learning rate 0.3413 step-time 0.14 perplexity 29.64 eval: bucket 0 perplexity 21.97 eval: bucket 1 perplexity 27.57 eval: bucket 2 perplexity 26.17 eval: bucket 3 perplexity 54.56 global step 48800 learning rate 0.3413 step-time 0.14 perplexity 29.94 eval: bucket 0 perplexity 24.36 eval: bucket 1 perplexity 32.59 eval: bucket 2 perplexity 36.62 eval: bucket 3 perplexity 43.30 global step 49000 learning rate 0.3413 step-time 0.13 perplexity 29.07 eval: bucket 0 perplexity 45.15 eval: bucket 1 perplexity 28.71 eval: bucket 2 perplexity 33.94 eval: bucket 3 perplexity 59.54 global step 49200 learning rate 0.3413 step-time 0.13 perplexity 28.73 eval: bucket 0 perplexity 28.29 eval: bucket 1 perplexity 31.89 eval: bucket 2 perplexity 31.27 eval: bucket 3 perplexity 41.48 global step 49400 learning rate 0.3413 step-time 0.13 perplexity 29.36 eval: bucket 0 perplexity 27.41 eval: bucket 1 perplexity 36.58 eval: bucket 2 perplexity 34.18 eval: bucket 3 perplexity 53.18 global step 49600 learning rate 0.3413 step-time 0.13 perplexity 29.84 eval: bucket 0 perplexity 32.66 eval: bucket 1 perplexity 33.35 eval: bucket 2 perplexity 49.34 eval: bucket 3 perplexity 44.68 global step 49800 learning rate 0.3379 step-time 0.14 perplexity 30.16 eval: bucket 0 perplexity 22.31 eval: bucket 1 perplexity 19.20 eval: bucket 2 perplexity 52.23 eval: bucket 3 perplexity 51.41 global step 50000 learning rate 0.3345 step-time 0.14 perplexity 29.94 eval: bucket 0 perplexity 19.71 eval: bucket 1 perplexity 33.77 eval: bucket 2 perplexity 43.92 eval: bucket 3 perplexity 52.43 global step 50200 learning rate 0.3345 step-time 0.13 perplexity 30.07 eval: bucket 0 perplexity 17.08 eval: bucket 1 perplexity 54.55 eval: bucket 2 perplexity 35.33 eval: bucket 3 perplexity 49.62 global step 50400 learning rate 0.3345 step-time 0.13 perplexity 29.70 eval: bucket 0 perplexity 30.23 eval: bucket 1 perplexity 51.76 eval: bucket 2 perplexity 39.28 eval: bucket 3 perplexity 42.15 global step 50600 learning rate 0.3345 step-time 0.14 perplexity 30.18 eval: bucket 0 perplexity 25.59 eval: bucket 1 perplexity 30.15 eval: bucket 2 perplexity 48.09 eval: bucket 3 perplexity 43.13 global step 50800 learning rate 0.3311 step-time 0.14 perplexity 28.71 eval: bucket 0 perplexity 21.89 eval: bucket 1 perplexity 27.21 eval: bucket 2 perplexity 50.02 eval: bucket 3 perplexity 32.23 global step 51000 learning rate 0.3311 step-time 0.13 perplexity 29.27 eval: bucket 0 perplexity 22.12 eval: bucket 1 perplexity 27.52 eval: bucket 2 perplexity 33.60 eval: bucket 3 perplexity 38.43 global step 51200 learning rate 0.3311 step-time 0.13 perplexity 29.10 eval: bucket 0 perplexity 26.44 eval: bucket 1 perplexity 34.51 eval: bucket 2 perplexity 49.58 eval: bucket 3 perplexity 40.50 global step 51400 learning rate 0.3311 step-time 0.13 perplexity 30.14 eval: bucket 0 perplexity 23.57 eval: bucket 1 perplexity 34.12 eval: bucket 2 perplexity 42.48 eval: bucket 3 perplexity 40.77 global step 51600 learning rate 0.3278 step-time 0.12 perplexity 28.30 eval: bucket 0 perplexity 25.29 eval: bucket 1 perplexity 36.94 eval: bucket 2 perplexity 43.98 eval: bucket 3 perplexity 35.09 global step 51800 learning rate 0.3278 step-time 0.13 perplexity 29.01 eval: bucket 0 perplexity 24.05 eval: bucket 1 perplexity 26.11 eval: bucket 2 perplexity 27.80 eval: bucket 3 perplexity 42.62 global step 52000 learning rate 0.3278 step-time 0.13 perplexity 28.72 eval: bucket 0 perplexity 20.95 eval: bucket 1 perplexity 36.69 eval: bucket 2 perplexity 38.85 eval: bucket 3 perplexity 40.57 global step 52200 learning rate 0.3278 step-time 0.13 perplexity 27.79 eval: bucket 0 perplexity 22.08 eval: bucket 1 perplexity 27.06 eval: bucket 2 perplexity 46.83 eval: bucket 3 perplexity 47.81 global step 52400 learning rate 0.3278 step-time 0.13 perplexity 28.60 eval: bucket 0 perplexity 32.98 eval: bucket 1 perplexity 28.70 eval: bucket 2 perplexity 23.70 eval: bucket 3 perplexity 47.01 global step 52600 learning rate 0.3278 step-time 0.13 perplexity 29.55 eval: bucket 0 perplexity 22.73 eval: bucket 1 perplexity 29.21 eval: bucket 2 perplexity 22.89 eval: bucket 3 perplexity 41.78 global step 52800 learning rate 0.3246 step-time 0.13 perplexity 29.44 eval: bucket 0 perplexity 24.88 eval: bucket 1 perplexity 19.33 eval: bucket 2 perplexity 25.05 eval: bucket 3 perplexity 53.56 global step 53000 learning rate 0.3246 step-time 0.14 perplexity 29.02 eval: bucket 0 perplexity 34.68 eval: bucket 1 perplexity 47.72 eval: bucket 2 perplexity 36.93 eval: bucket 3 perplexity 44.43 global step 53200 learning rate 0.3246 step-time 0.13 perplexity 28.44 eval: bucket 0 perplexity 21.88 eval: bucket 1 perplexity 29.61 eval: bucket 2 perplexity 30.04 eval: bucket 3 perplexity 50.43 global step 53400 learning rate 0.3246 step-time 0.13 perplexity 30.20 eval: bucket 0 perplexity 33.87 eval: bucket 1 perplexity 26.40 eval: bucket 2 perplexity 37.87 eval: bucket 3 perplexity 55.04 global step 53600 learning rate 0.3213 step-time 0.13 perplexity 29.04 eval: bucket 0 perplexity 33.29 eval: bucket 1 perplexity 31.29 eval: bucket 2 perplexity 39.91 eval: bucket 3 perplexity 34.96 global step 53800 learning rate 0.3213 step-time 0.13 perplexity 28.91 eval: bucket 0 perplexity 19.37 eval: bucket 1 perplexity 17.97 eval: bucket 2 perplexity 36.83 eval: bucket 3 perplexity 35.87 global step 54000 learning rate 0.3213 step-time 0.13 perplexity 29.35 eval: bucket 0 perplexity 20.89 eval: bucket 1 perplexity 24.46 eval: bucket 2 perplexity 45.77 eval: bucket 3 perplexity 46.75 global step 54200 learning rate 0.3213 step-time 0.14 perplexity 29.20 eval: bucket 0 perplexity 21.68 eval: bucket 1 perplexity 25.99 eval: bucket 2 perplexity 37.03 eval: bucket 3 perplexity 67.37 global step 54400 learning rate 0.3213 step-time 0.13 perplexity 28.89 eval: bucket 0 perplexity 16.56 eval: bucket 1 perplexity 22.17 eval: bucket 2 perplexity 44.12 eval: bucket 3 perplexity 62.72 global step 54600 learning rate 0.3213 step-time 0.13 perplexity 27.79 eval: bucket 0 perplexity 21.09 eval: bucket 1 perplexity 26.99 eval: bucket 2 perplexity 23.11 eval: bucket 3 perplexity 49.23 global step 54800 learning rate 0.3213 step-time 0.13 perplexity 28.78 eval: bucket 0 perplexity 38.41 eval: bucket 1 perplexity 22.46 eval: bucket 2 perplexity 50.74 eval: bucket 3 perplexity 33.61 global step 55000 learning rate 0.3213 step-time 0.13 perplexity 29.12 eval: bucket 0 perplexity 29.96 eval: bucket 1 perplexity 31.49 eval: bucket 2 perplexity 50.27 eval: bucket 3 perplexity 47.60 global step 55200 learning rate 0.3181 step-time 0.13 perplexity 28.10 eval: bucket 0 perplexity 28.07 eval: bucket 1 perplexity 38.33 eval: bucket 2 perplexity 32.32 eval: bucket 3 perplexity 44.33 global step 55400 learning rate 0.3181 step-time 0.13 perplexity 28.35 eval: bucket 0 perplexity 25.86 eval: bucket 1 perplexity 24.62 eval: bucket 2 perplexity 50.12 eval: bucket 3 perplexity 55.99 global step 55600 learning rate 0.3181 step-time 0.13 perplexity 28.77 eval: bucket 0 perplexity 24.09 eval: bucket 1 perplexity 31.36 eval: bucket 2 perplexity 46.05 eval: bucket 3 perplexity 57.04 global step 55800 learning rate 0.3181 step-time 0.14 perplexity 28.41 eval: bucket 0 perplexity 19.45 eval: bucket 1 perplexity 52.99 eval: bucket 2 perplexity 44.81 eval: bucket 3 perplexity 28.94 global step 56000 learning rate 0.3181 step-time 0.14 perplexity 29.48 eval: bucket 0 perplexity 30.29 eval: bucket 1 perplexity 31.90 eval: bucket 2 perplexity 29.32 eval: bucket 3 perplexity 54.66 global step 56200 learning rate 0.3149 step-time 0.12 perplexity 27.97 eval: bucket 0 perplexity 34.14 eval: bucket 1 perplexity 21.90 eval: bucket 2 perplexity 40.00 eval: bucket 3 perplexity 40.59 global step 56400 learning rate 0.3149 step-time 0.13 perplexity 28.18 eval: bucket 0 perplexity 33.43 eval: bucket 1 perplexity 31.57 eval: bucket 2 perplexity 36.54 eval: bucket 3 perplexity 32.36 global step 56600 learning rate 0.3149 step-time 0.13 perplexity 28.84 eval: bucket 0 perplexity 26.01 eval: bucket 1 perplexity 37.27 eval: bucket 2 perplexity 26.09 eval: bucket 3 perplexity 38.46 global step 56800 learning rate 0.3149 step-time 0.13 perplexity 28.85 eval: bucket 0 perplexity 23.69 eval: bucket 1 perplexity 53.45 eval: bucket 2 perplexity 46.38 eval: bucket 3 perplexity 31.87 global step 57000 learning rate 0.3118 step-time 0.13 perplexity 28.75 eval: bucket 0 perplexity 21.55 eval: bucket 1 perplexity 30.56 eval: bucket 2 perplexity 33.42 eval: bucket 3 perplexity 58.22 global step 57200 learning rate 0.3118 step-time 0.12 perplexity 28.43 eval: bucket 0 perplexity 31.08 eval: bucket 1 perplexity 33.11 eval: bucket 2 perplexity 36.47 eval: bucket 3 perplexity 32.83 global step 57400 learning rate 0.3118 step-time 0.12 perplexity 28.88 eval: bucket 0 perplexity 33.56 eval: bucket 1 perplexity 27.02 eval: bucket 2 perplexity 21.95 eval: bucket 3 perplexity 35.59 global step 57600 learning rate 0.3086 step-time 0.13 perplexity 28.59 eval: bucket 0 perplexity 20.89 eval: bucket 1 perplexity 26.72 eval: bucket 2 perplexity 30.16 eval: bucket 3 perplexity 64.17 global step 57800 learning rate 0.3086 step-time 0.14 perplexity 27.96 eval: bucket 0 perplexity 33.24 eval: bucket 1 perplexity 29.36 eval: bucket 2 perplexity 30.93 eval: bucket 3 perplexity 40.70 global step 58000 learning rate 0.3086 step-time 0.14 perplexity 28.76 eval: bucket 0 perplexity 18.34 eval: bucket 1 perplexity 35.20 eval: bucket 2 perplexity 36.27 eval: bucket 3 perplexity 43.01 global step 58200 learning rate 0.3086 step-time 0.15 perplexity 29.58 eval: bucket 0 perplexity 28.75 eval: bucket 1 perplexity 26.03 eval: bucket 2 perplexity 21.78 eval: bucket 3 perplexity 34.09 global step 58400 learning rate 0.3056 step-time 0.14 perplexity 28.87 eval: bucket 0 perplexity 24.64 eval: bucket 1 perplexity 27.73 eval: bucket 2 perplexity 38.95 eval: bucket 3 perplexity 52.94 global step 58600 learning rate 0.3056 step-time 0.13 perplexity 27.58 eval: bucket 0 perplexity 29.34 eval: bucket 1 perplexity 36.81 eval: bucket 2 perplexity 38.57 eval: bucket 3 perplexity 39.47 global step 58800 learning rate 0.3056 step-time 0.13 perplexity 27.18 eval: bucket 0 perplexity 36.88 eval: bucket 1 perplexity 32.33 eval: bucket 2 perplexity 25.29 eval: bucket 3 perplexity 48.94 global step 59000 learning rate 0.3056 step-time 0.13 perplexity 28.38 eval: bucket 0 perplexity 27.40 eval: bucket 1 perplexity 27.26 eval: bucket 2 perplexity 28.49 eval: bucket 3 perplexity 39.20 global step 59200 learning rate 0.3056 step-time 0.13 perplexity 26.90 eval: bucket 0 perplexity 29.64 eval: bucket 1 perplexity 28.33 eval: bucket 2 perplexity 31.12 eval: bucket 3 perplexity 37.89 global step 59400 learning rate 0.3056 step-time 0.13 perplexity 28.58 eval: bucket 0 perplexity 25.74 eval: bucket 1 perplexity 36.39 eval: bucket 2 perplexity 41.16 eval: bucket 3 perplexity 32.16 global step 59600 learning rate 0.3025 step-time 0.13 perplexity 28.12 eval: bucket 0 perplexity 29.78 eval: bucket 1 perplexity 23.13 eval: bucket 2 perplexity 26.91 eval: bucket 3 perplexity 32.84 global step 59800 learning rate 0.3025 step-time 0.13 perplexity 27.16 eval: bucket 0 perplexity 24.97 eval: bucket 1 perplexity 29.01 eval: bucket 2 perplexity 29.74 eval: bucket 3 perplexity 39.66 global step 60000 learning rate 0.3025 step-time 0.13 perplexity 28.36 eval: bucket 0 perplexity 38.33 eval: bucket 1 perplexity 26.09 eval: bucket 2 perplexity 26.66 eval: bucket 3 perplexity 39.90 global step 60200 learning rate 0.3025 step-time 0.13 perplexity 27.57 eval: bucket 0 perplexity 19.42 eval: bucket 1 perplexity 34.56 eval: bucket 2 perplexity 26.87 eval: bucket 3 perplexity 47.35 global step 60400 learning rate 0.3025 step-time 0.12 perplexity 28.24 eval: bucket 0 perplexity 37.89 eval: bucket 1 perplexity 38.95 eval: bucket 2 perplexity 26.75 eval: bucket 3 perplexity 75.85 global step 60600 learning rate 0.3025 step-time 0.14 perplexity 27.68 eval: bucket 0 perplexity 44.46 eval: bucket 1 perplexity 30.81 eval: bucket 2 perplexity 39.75 eval: bucket 3 perplexity 33.89 global step 60800 learning rate 0.3025 step-time 0.13 perplexity 28.06 eval: bucket 0 perplexity 20.92 eval: bucket 1 perplexity 41.79 eval: bucket 2 perplexity 36.73 eval: bucket 3 perplexity 40.53 global step 61000 learning rate 0.3025 step-time 0.13 perplexity 28.08 eval: bucket 0 perplexity 23.77 eval: bucket 1 perplexity 26.77 eval: bucket 2 perplexity 34.63 eval: bucket 3 perplexity 38.50 global step 61200 learning rate 0.3025 step-time 0.13 perplexity 27.69 eval: bucket 0 perplexity 23.17 eval: bucket 1 perplexity 22.76 eval: bucket 2 perplexity 30.45 eval: bucket 3 perplexity 36.28 global step 61400 learning rate 0.3025 step-time 0.13 perplexity 27.78 eval: bucket 0 perplexity 24.01 eval: bucket 1 perplexity 14.55 eval: bucket 2 perplexity 21.88 eval: bucket 3 perplexity 42.74 global step 61600 learning rate 0.3025 step-time 0.13 perplexity 28.08 eval: bucket 0 perplexity 20.54 eval: bucket 1 perplexity 22.73 eval: bucket 2 perplexity 34.59 eval: bucket 3 perplexity 57.52 global step 61800 learning rate 0.2995 step-time 0.13 perplexity 27.80 eval: bucket 0 perplexity 20.59 eval: bucket 1 perplexity 46.98 eval: bucket 2 perplexity 42.91 eval: bucket 3 perplexity 32.33 global step 62000 learning rate 0.2995 step-time 0.14 perplexity 28.16 eval: bucket 0 perplexity 27.04 eval: bucket 1 perplexity 34.72 eval: bucket 2 perplexity 30.71 eval: bucket 3 perplexity 42.24 global step 62200 learning rate 0.2965 step-time 0.13 perplexity 28.74 eval: bucket 0 perplexity 30.84 eval: bucket 1 perplexity 44.03 eval: bucket 2 perplexity 36.94 eval: bucket 3 perplexity 52.22 global step 62400 learning rate 0.2935 step-time 0.13 perplexity 27.11 eval: bucket 0 perplexity 24.50 eval: bucket 1 perplexity 20.78 eval: bucket 2 perplexity 24.72 eval: bucket 3 perplexity 37.36 global step 62600 learning rate 0.2935 step-time 0.13 perplexity 28.11 eval: bucket 0 perplexity 31.00 eval: bucket 1 perplexity 17.82 eval: bucket 2 perplexity 38.62 eval: bucket 3 perplexity 30.84 global step 62800 learning rate 0.2935 step-time 0.13 perplexity 28.00 eval: bucket 0 perplexity 22.60 eval: bucket 1 perplexity 36.95 eval: bucket 2 perplexity 29.90 eval: bucket 3 perplexity 35.36 global step 63000 learning rate 0.2935 step-time 0.13 perplexity 27.46 eval: bucket 0 perplexity 19.13 eval: bucket 1 perplexity 25.58 eval: bucket 2 perplexity 32.83 eval: bucket 3 perplexity 43.71 global step 63200 learning rate 0.2935 step-time 0.14 perplexity 27.19 eval: bucket 0 perplexity 31.50 eval: bucket 1 perplexity 30.09 eval: bucket 2 perplexity 34.63 eval: bucket 3 perplexity 54.62 global step 63400 learning rate 0.2935 step-time 0.13 perplexity 27.13 eval: bucket 0 perplexity 23.16 eval: bucket 1 perplexity 26.81 eval: bucket 2 perplexity 36.74 eval: bucket 3 perplexity 48.72 global step 63600 learning rate 0.2935 step-time 0.12 perplexity 26.67 eval: bucket 0 perplexity 23.06 eval: bucket 1 perplexity 27.50 eval: bucket 2 perplexity 46.53 eval: bucket 3 perplexity 43.74 global step 63800 learning rate 0.2935 step-time 0.14 perplexity 28.31 eval: bucket 0 perplexity 19.28 eval: bucket 1 perplexity 34.73 eval: bucket 2 perplexity 35.91 eval: bucket 3 perplexity 37.86 global step 64000 learning rate 0.2906 step-time 0.14 perplexity 27.22 eval: bucket 0 perplexity 19.65 eval: bucket 1 perplexity 30.59 eval: bucket 2 perplexity 37.96 eval: bucket 3 perplexity 43.84 global step 64200 learning rate 0.2906 step-time 0.13 perplexity 27.33 eval: bucket 0 perplexity 27.16 eval: bucket 1 perplexity 42.72 eval: bucket 2 perplexity 19.70 eval: bucket 3 perplexity 63.72 global step 64400 learning rate 0.2906 step-time 0.14 perplexity 27.33 eval: bucket 0 perplexity 27.07 eval: bucket 1 perplexity 23.60 eval: bucket 2 perplexity 36.58 eval: bucket 3 perplexity 64.10 global step 64600 learning rate 0.2906 step-time 0.13 perplexity 28.14 eval: bucket 0 perplexity 12.52 eval: bucket 1 perplexity 25.93 eval: bucket 2 perplexity 26.45 eval: bucket 3 perplexity 42.68 global step 64800 learning rate 0.2877 step-time 0.13 perplexity 27.22 eval: bucket 0 perplexity 19.31 eval: bucket 1 perplexity 29.49 eval: bucket 2 perplexity 30.13 eval: bucket 3 perplexity 54.83 global step 65000 learning rate 0.2877 step-time 0.14 perplexity 28.09 eval: bucket 0 perplexity 31.96 eval: bucket 1 perplexity 30.79 eval: bucket 2 perplexity 28.44 eval: bucket 3 perplexity 37.37 global step 65200 learning rate 0.2877 step-time 0.14 perplexity 26.95 eval: bucket 0 perplexity 32.88 eval: bucket 1 perplexity 32.27 eval: bucket 2 perplexity 48.62 eval: bucket 3 perplexity 41.79 global step 65400 learning rate 0.2877 step-time 0.13 perplexity 26.51 eval: bucket 0 perplexity 23.13 eval: bucket 1 perplexity 33.33 eval: bucket 2 perplexity 29.26 eval: bucket 3 perplexity 41.84 global step 65600 learning rate 0.2877 step-time 0.13 perplexity 27.48 eval: bucket 0 perplexity 22.83 eval: bucket 1 perplexity 22.15 eval: bucket 2 perplexity 32.39 eval: bucket 3 perplexity 46.63 global step 65800 learning rate 0.2877 step-time 0.13 perplexity 27.72 eval: bucket 0 perplexity 19.65 eval: bucket 1 perplexity 23.54 eval: bucket 2 perplexity 49.13 eval: bucket 3 perplexity 58.94 global step 66000 learning rate 0.2848 step-time 0.13 perplexity 27.09 eval: bucket 0 perplexity 21.88 eval: bucket 1 perplexity 34.42 eval: bucket 2 perplexity 35.57 eval: bucket 3 perplexity 38.22 global step 66200 learning rate 0.2848 step-time 0.14 perplexity 27.93 eval: bucket 0 perplexity 24.21 eval: bucket 1 perplexity 30.80 eval: bucket 2 perplexity 37.99 eval: bucket 3 perplexity 43.08 global step 66400 learning rate 0.2820 step-time 0.14 perplexity 28.39 eval: bucket 0 perplexity 33.31 eval: bucket 1 perplexity 21.97 eval: bucket 2 perplexity 32.01 eval: bucket 3 perplexity 44.47 global step 66600 learning rate 0.2791 step-time 0.13 perplexity 27.82 eval: bucket 0 perplexity 24.06 eval: bucket 1 perplexity 33.90 eval: bucket 2 perplexity 40.48 eval: bucket 3 perplexity 45.18 global step 66800 learning rate 0.2791 step-time 0.13 perplexity 27.40 eval: bucket 0 perplexity 18.84 eval: bucket 1 perplexity 40.03 eval: bucket 2 perplexity 37.16 eval: bucket 3 perplexity 40.24 global step 67000 learning rate 0.2791 step-time 0.12 perplexity 26.50 eval: bucket 0 perplexity 24.27 eval: bucket 1 perplexity 24.00 eval: bucket 2 perplexity 23.65 eval: bucket 3 perplexity 49.31 global step 67200 learning rate 0.2791 step-time 0.13 perplexity 26.54 eval: bucket 0 perplexity 17.36 eval: bucket 1 perplexity 50.82 eval: bucket 2 perplexity 27.03 eval: bucket 3 perplexity 32.34 global step 67400 learning rate 0.2791 step-time 0.13 perplexity 26.77 eval: bucket 0 perplexity 24.08 eval: bucket 1 perplexity 23.29 eval: bucket 2 perplexity 40.36 eval: bucket 3 perplexity 36.58 global step 67600 learning rate 0.2791 step-time 0.13 perplexity 27.24 eval: bucket 0 perplexity 27.33 eval: bucket 1 perplexity 24.26 eval: bucket 2 perplexity 19.99 eval: bucket 3 perplexity 33.68 global step 67800 learning rate 0.2763 step-time 0.13 perplexity 26.66 eval: bucket 0 perplexity 29.92 eval: bucket 1 perplexity 36.96 eval: bucket 2 perplexity 47.92 eval: bucket 3 perplexity 34.31 global step 68000 learning rate 0.2763 step-time 0.13 perplexity 27.27 eval: bucket 0 perplexity 22.08 eval: bucket 1 perplexity 42.61 eval: bucket 2 perplexity 42.14 eval: bucket 3 perplexity 34.65 global step 68200 learning rate 0.2736 step-time 0.13 perplexity 27.27 eval: bucket 0 perplexity 25.76 eval: bucket 1 perplexity 33.59 eval: bucket 2 perplexity 30.93 eval: bucket 3 perplexity 38.26 global step 68400 learning rate 0.2736 step-time 0.13 perplexity 27.02 eval: bucket 0 perplexity 22.55 eval: bucket 1 perplexity 39.74 eval: bucket 2 perplexity 29.52 eval: bucket 3 perplexity 35.33 global step 68600 learning rate 0.2736 step-time 0.14 perplexity 27.17 eval: bucket 0 perplexity 26.25 eval: bucket 1 perplexity 31.88 eval: bucket 2 perplexity 51.38 eval: bucket 3 perplexity 59.08 global step 68800 learning rate 0.2736 step-time 0.14 perplexity 27.31 eval: bucket 0 perplexity 31.24 eval: bucket 1 perplexity 22.30 eval: bucket 2 perplexity 31.98 eval: bucket 3 perplexity 48.45 global step 69000 learning rate 0.2708 step-time 0.13 perplexity 27.23 eval: bucket 0 perplexity 33.51 eval: bucket 1 perplexity 25.76 eval: bucket 2 perplexity 28.22 eval: bucket 3 perplexity 42.03 global step 69200 learning rate 0.2708 step-time 0.13 perplexity 27.02 eval: bucket 0 perplexity 15.67 eval: bucket 1 perplexity 17.94 eval: bucket 2 perplexity 39.49 eval: bucket 3 perplexity 45.87 global step 69400 learning rate 0.2708 step-time 0.13 perplexity 26.52 eval: bucket 0 perplexity 27.68 eval: bucket 1 perplexity 25.92 eval: bucket 2 perplexity 43.14 eval: bucket 3 perplexity 42.33 global step 69600 learning rate 0.2708 step-time 0.13 perplexity 27.67 eval: bucket 0 perplexity 18.13 eval: bucket 1 perplexity 22.59 eval: bucket 2 perplexity 24.99 eval: bucket 3 perplexity 38.35 global step 69800 learning rate 0.2681 step-time 0.12 perplexity 26.06 eval: bucket 0 perplexity 34.34 eval: bucket 1 perplexity 30.32 eval: bucket 2 perplexity 24.59 eval: bucket 3 perplexity 50.07 global step 70000 learning rate 0.2681 step-time 0.13 perplexity 27.05 eval: bucket 0 perplexity 27.70 eval: bucket 1 perplexity 36.93 eval: bucket 2 perplexity 25.99 eval: bucket 3 perplexity 49.50 global step 70200 learning rate 0.2681 step-time 0.12 perplexity 26.17 eval: bucket 0 perplexity 33.42 eval: bucket 1 perplexity 29.94 eval: bucket 2 perplexity 31.46 eval: bucket 3 perplexity 37.19 global step 70400 learning rate 0.2681 step-time 0.14 perplexity 27.12 eval: bucket 0 perplexity 23.72 eval: bucket 1 perplexity 25.61 eval: bucket 2 perplexity 22.89 eval: bucket 3 perplexity 41.54 global step 70600 learning rate 0.2655 step-time 0.14 perplexity 26.45 eval: bucket 0 perplexity 19.07 eval: bucket 1 perplexity 27.31 eval: bucket 2 perplexity 40.45 eval: bucket 3 perplexity 39.08 global step 70800 learning rate 0.2655 step-time 0.13 perplexity 26.05 eval: bucket 0 perplexity 27.74 eval: bucket 1 perplexity 27.84 eval: bucket 2 perplexity 42.59 eval: bucket 3 perplexity 42.10 global step 71000 learning rate 0.2655 step-time 0.14 perplexity 26.78 eval: bucket 0 perplexity 26.82 eval: bucket 1 perplexity 25.98 eval: bucket 2 perplexity 28.16 eval: bucket 3 perplexity 35.01 global step 71200 learning rate 0.2655 step-time 0.14 perplexity 26.55 eval: bucket 0 perplexity 26.84 eval: bucket 1 perplexity 32.12 eval: bucket 2 perplexity 46.77 eval: bucket 3 perplexity 41.86 global step 71400 learning rate 0.2655 step-time 0.13 perplexity 26.80 eval: bucket 0 perplexity 26.17 eval: bucket 1 perplexity 28.79 eval: bucket 2 perplexity 36.30 eval: bucket 3 perplexity 36.28 global step 71600 learning rate 0.2628 step-time 0.13 perplexity 26.78 eval: bucket 0 perplexity 27.26 eval: bucket 1 perplexity 30.40 eval: bucket 2 perplexity 20.69 eval: bucket 3 perplexity 49.50 global step 71800 learning rate 0.2628 step-time 0.14 perplexity 27.05 eval: bucket 0 perplexity 43.84 eval: bucket 1 perplexity 35.41 eval: bucket 2 perplexity 35.03 eval: bucket 3 perplexity 42.28 global step 72000 learning rate 0.2602 step-time 0.13 perplexity 26.01 eval: bucket 0 perplexity 24.97 eval: bucket 1 perplexity 34.29 eval: bucket 2 perplexity 34.68 eval: bucket 3 perplexity 65.80 global step 72200 learning rate 0.2602 step-time 0.13 perplexity 26.49 eval: bucket 0 perplexity 40.27 eval: bucket 1 perplexity 34.15 eval: bucket 2 perplexity 40.32 eval: bucket 3 perplexity 47.56 global step 72400 learning rate 0.2602 step-time 0.13 perplexity 26.59 eval: bucket 0 perplexity 29.52 eval: bucket 1 perplexity 23.80 eval: bucket 2 perplexity 31.54 eval: bucket 3 perplexity 44.75 global step 72600 learning rate 0.2602 step-time 0.13 perplexity 26.00 eval: bucket 0 perplexity 19.10 eval: bucket 1 perplexity 39.48 eval: bucket 2 perplexity 38.44 eval: bucket 3 perplexity 35.86 global step 72800 learning rate 0.2602 step-time 0.14 perplexity 25.56 eval: bucket 0 perplexity 13.46 eval: bucket 1 perplexity 26.62 eval: bucket 2 perplexity 32.32 eval: bucket 3 perplexity 42.80 global step 73000 learning rate 0.2602 step-time 0.13 perplexity 26.73 eval: bucket 0 perplexity 37.49 eval: bucket 1 perplexity 16.55 eval: bucket 2 perplexity 20.33 eval: bucket 3 perplexity 41.77 global step 73200 learning rate 0.2576 step-time 0.13 perplexity 26.60 eval: bucket 0 perplexity 20.53 eval: bucket 1 perplexity 39.66 eval: bucket 2 perplexity 53.91 eval: bucket 3 perplexity 45.30 global step 73400 learning rate 0.2576 step-time 0.13 perplexity 26.42 eval: bucket 0 perplexity 22.04 eval: bucket 1 perplexity 37.51 eval: bucket 2 perplexity 29.00 eval: bucket 3 perplexity 32.20 global step 73600 learning rate 0.2576 step-time 0.13 perplexity 26.16 eval: bucket 0 perplexity 26.83 eval: bucket 1 perplexity 32.82 eval: bucket 2 perplexity 37.35 eval: bucket 3 perplexity 32.13 global step 73800 learning rate 0.2576 step-time 0.12 perplexity 26.49 eval: bucket 0 perplexity 25.26 eval: bucket 1 perplexity 18.15 eval: bucket 2 perplexity 35.74 eval: bucket 3 perplexity 36.68 global step 74000 learning rate 0.2576 step-time 0.14 perplexity 26.17 eval: bucket 0 perplexity 23.12 eval: bucket 1 perplexity 35.61 eval: bucket 2 perplexity 31.49 eval: bucket 3 perplexity 42.61 global step 74200 learning rate 0.2576 step-time 0.13 perplexity 27.61 eval: bucket 0 perplexity 23.03 eval: bucket 1 perplexity 23.45 eval: bucket 2 perplexity 45.47 eval: bucket 3 perplexity 45.97 global step 74400 learning rate 0.2550 step-time 0.14 perplexity 26.91 eval: bucket 0 perplexity 26.81 eval: bucket 1 perplexity 27.04 eval: bucket 2 perplexity 28.05 eval: bucket 3 perplexity 35.63 global step 74600 learning rate 0.2550 step-time 0.14 perplexity 26.00 eval: bucket 0 perplexity 32.19 eval: bucket 1 perplexity 24.08 eval: bucket 2 perplexity 31.82 eval: bucket 3 perplexity 42.56 global step 74800 learning rate 0.2550 step-time 0.13 perplexity 26.05 eval: bucket 0 perplexity 23.16 eval: bucket 1 perplexity 23.02 eval: bucket 2 perplexity 40.57 eval: bucket 3 perplexity 43.30 global step 75000 learning rate 0.2550 step-time 0.12 perplexity 25.97 eval: bucket 0 perplexity 23.69 eval: bucket 1 perplexity 37.34 eval: bucket 2 perplexity 31.49 eval: bucket 3 perplexity 38.28 global step 75200 learning rate 0.2550 step-time 0.13 perplexity 25.95 eval: bucket 0 perplexity 26.96 eval: bucket 1 perplexity 31.30 eval: bucket 2 perplexity 26.51 eval: bucket 3 perplexity 47.97 global step 75400 learning rate 0.2550 step-time 0.13 perplexity 25.92 eval: bucket 0 perplexity 34.45 eval: bucket 1 perplexity 26.02 eval: bucket 2 perplexity 30.21 eval: bucket 3 perplexity 33.88 global step 75600 learning rate 0.2550 step-time 0.13 perplexity 26.13 eval: bucket 0 perplexity 26.01 eval: bucket 1 perplexity 28.73 eval: bucket 2 perplexity 35.47 eval: bucket 3 perplexity 43.62 global step 75800 learning rate 0.2524 step-time 0.13 perplexity 25.38 eval: bucket 0 perplexity 37.09 eval: bucket 1 perplexity 32.62 eval: bucket 2 perplexity 24.99 eval: bucket 3 perplexity 51.32 global step 76000 learning rate 0.2524 step-time 0.14 perplexity 26.42 eval: bucket 0 perplexity 29.12 eval: bucket 1 perplexity 39.69 eval: bucket 2 perplexity 27.87 eval: bucket 3 perplexity 42.20 global step 76200 learning rate 0.2499 step-time 0.13 perplexity 26.74 eval: bucket 0 perplexity 18.36 eval: bucket 1 perplexity 35.10 eval: bucket 2 perplexity 33.60 eval: bucket 3 perplexity 31.77 global step 76400 learning rate 0.2474 step-time 0.14 perplexity 26.43 eval: bucket 0 perplexity 19.28 eval: bucket 1 perplexity 26.61 eval: bucket 2 perplexity 29.44 eval: bucket 3 perplexity 30.58 global step 76600 learning rate 0.2474 step-time 0.13 perplexity 25.51 eval: bucket 0 perplexity 30.86 eval: bucket 1 perplexity 23.48 eval: bucket 2 perplexity 31.47 eval: bucket 3 perplexity 35.53 global step 76800 learning rate 0.2474 step-time 0.13 perplexity 26.48 eval: bucket 0 perplexity 28.67 eval: bucket 1 perplexity 23.71 eval: bucket 2 perplexity 30.95 eval: bucket 3 perplexity 38.57 global step 77000 learning rate 0.2474 step-time 0.13 perplexity 26.14 eval: bucket 0 perplexity 19.40 eval: bucket 1 perplexity 32.53 eval: bucket 2 perplexity 22.38 eval: bucket 3 perplexity 37.14 global step 77200 learning rate 0.2474 step-time 0.13 perplexity 26.64 eval: bucket 0 perplexity 36.94 eval: bucket 1 perplexity 22.40 eval: bucket 2 perplexity 28.06 eval: bucket 3 perplexity 42.64 global step 77400 learning rate 0.2449 step-time 0.13 perplexity 26.30 eval: bucket 0 perplexity 35.38 eval: bucket 1 perplexity 32.82 eval: bucket 2 perplexity 24.40 eval: bucket 3 perplexity 51.25 global step 77600 learning rate 0.2449 step-time 0.13 perplexity 26.54 eval: bucket 0 perplexity 35.51 eval: bucket 1 perplexity 29.92 eval: bucket 2 perplexity 41.66 eval: bucket 3 perplexity 59.34 global step 77800 learning rate 0.2449 step-time 0.13 perplexity 26.78 eval: bucket 0 perplexity 24.76 eval: bucket 1 perplexity 29.14 eval: bucket 2 perplexity 52.78 eval: bucket 3 perplexity 34.20 global step 78000 learning rate 0.2425 step-time 0.13 perplexity 26.35 eval: bucket 0 perplexity 18.43 eval: bucket 1 perplexity 26.23 eval: bucket 2 perplexity 31.98 eval: bucket 3 perplexity 29.54 global step 78200 learning rate 0.2425 step-time 0.13 perplexity 24.73 eval: bucket 0 perplexity 30.19 eval: bucket 1 perplexity 31.25 eval: bucket 2 perplexity 20.64 eval: bucket 3 perplexity 32.48 global step 78400 learning rate 0.2425 step-time 0.12 perplexity 25.42 eval: bucket 0 perplexity 14.40 eval: bucket 1 perplexity 29.57 eval: bucket 2 perplexity 32.55 eval: bucket 3 perplexity 40.33 global step 78600 learning rate 0.2425 step-time 0.13 perplexity 26.19 eval: bucket 0 perplexity 18.13 eval: bucket 1 perplexity 22.33 eval: bucket 2 perplexity 20.85 eval: bucket 3 perplexity 42.33 global step 78800 learning rate 0.2425 step-time 0.12 perplexity 25.11 eval: bucket 0 perplexity 32.25 eval: bucket 1 perplexity 36.77 eval: bucket 2 perplexity 27.68 eval: bucket 3 perplexity 30.04 global step 79000 learning rate 0.2425 step-time 0.13 perplexity 25.90 eval: bucket 0 perplexity 22.87 eval: bucket 1 perplexity 32.23 eval: bucket 2 perplexity 37.41 eval: bucket 3 perplexity 34.06 global step 79200 learning rate 0.2425 step-time 0.13 perplexity 26.52 eval: bucket 0 perplexity 19.29 eval: bucket 1 perplexity 27.83 eval: bucket 2 perplexity 26.92 eval: bucket 3 perplexity 47.33 global step 79400 learning rate 0.2401 step-time 0.13 perplexity 25.67 eval: bucket 0 perplexity 23.32 eval: bucket 1 perplexity 29.85 eval: bucket 2 perplexity 24.30 eval: bucket 3 perplexity 34.40 global step 79600 learning rate 0.2401 step-time 0.14 perplexity 25.69 eval: bucket 0 perplexity 19.54 eval: bucket 1 perplexity 24.77 eval: bucket 2 perplexity 28.97 eval: bucket 3 perplexity 30.47 global step 79800 learning rate 0.2401 step-time 0.13 perplexity 25.04 eval: bucket 0 perplexity 19.75 eval: bucket 1 perplexity 21.21 eval: bucket 2 perplexity 34.92 eval: bucket 3 perplexity 31.31 global step 80000 learning rate 0.2401 step-time 0.14 perplexity 26.18 eval: bucket 0 perplexity 21.86 eval: bucket 1 perplexity 25.94 eval: bucket 2 perplexity 35.30 eval: bucket 3 perplexity 34.65 global step 80200 learning rate 0.2377 step-time 0.14 perplexity 25.91 eval: bucket 0 perplexity 26.73 eval: bucket 1 perplexity 32.58 eval: bucket 2 perplexity 26.71 eval: bucket 3 perplexity 34.80 global step 80400 learning rate 0.2377 step-time 0.13 perplexity 26.14 eval: bucket 0 perplexity 21.00 eval: bucket 1 perplexity 30.11 eval: bucket 2 perplexity 29.61 eval: bucket 3 perplexity 46.55 global step 80600 learning rate 0.2377 step-time 0.14 perplexity 25.96 eval: bucket 0 perplexity 18.15 eval: bucket 1 perplexity 27.23 eval: bucket 2 perplexity 29.61 eval: bucket 3 perplexity 30.74 global step 80800 learning rate 0.2377 step-time 0.13 perplexity 25.31 eval: bucket 0 perplexity 33.66 eval: bucket 1 perplexity 32.05 eval: bucket 2 perplexity 20.32 eval: bucket 3 perplexity 35.68 global step 81000 learning rate 0.2377 step-time 0.13 perplexity 26.16 eval: bucket 0 perplexity 25.50 eval: bucket 1 perplexity 23.46 eval: bucket 2 perplexity 33.09 eval: bucket 3 perplexity 44.07 global step 81200 learning rate 0.2353 step-time 0.13 perplexity 25.73 eval: bucket 0 perplexity 25.30 eval: bucket 1 perplexity 31.36 eval: bucket 2 perplexity 32.25 eval: bucket 3 perplexity 26.84 global step 81400 learning rate 0.2353 step-time 0.13 perplexity 26.26 eval: bucket 0 perplexity 22.95 eval: bucket 1 perplexity 25.36 eval: bucket 2 perplexity 44.98 eval: bucket 3 perplexity 37.05 global step 81600 learning rate 0.2329 step-time 0.13 perplexity 25.10 eval: bucket 0 perplexity 27.40 eval: bucket 1 perplexity 27.50 eval: bucket 2 perplexity 51.88 eval: bucket 3 perplexity 42.01 global step 81800 learning rate 0.2329 step-time 0.13 perplexity 26.54 eval: bucket 0 perplexity 17.68 eval: bucket 1 perplexity 26.76 eval: bucket 2 perplexity 32.58 eval: bucket 3 perplexity 39.71 global step 82000 learning rate 0.2306 step-time 0.12 perplexity 24.73 eval: bucket 0 perplexity 33.36 eval: bucket 1 perplexity 27.65 eval: bucket 2 perplexity 25.30 eval: bucket 3 perplexity 42.33 global step 82200 learning rate 0.2306 step-time 0.13 perplexity 26.34 eval: bucket 0 perplexity 32.06 eval: bucket 1 perplexity 29.28 eval: bucket 2 perplexity 28.30 eval: bucket 3 perplexity 37.54 global step 82400 learning rate 0.2306 step-time 0.13 perplexity 26.01 eval: bucket 0 perplexity 16.33 eval: bucket 1 perplexity 47.48 eval: bucket 2 perplexity 31.71 eval: bucket 3 perplexity 51.29 global step 82600 learning rate 0.2306 step-time 0.14 perplexity 25.88 eval: bucket 0 perplexity 23.38 eval: bucket 1 perplexity 39.26 eval: bucket 2 perplexity 23.76 eval: bucket 3 perplexity 43.35 global step 82800 learning rate 0.2306 step-time 0.13 perplexity 25.64 eval: bucket 0 perplexity 25.27 eval: bucket 1 perplexity 32.96 eval: bucket 2 perplexity 40.35 eval: bucket 3 perplexity 41.03 global step 83000 learning rate 0.2306 step-time 0.13 perplexity 25.75 eval: bucket 0 perplexity 23.42 eval: bucket 1 perplexity 33.62 eval: bucket 2 perplexity 29.75 eval: bucket 3 perplexity 44.40 global step 83200 learning rate 0.2306 step-time 0.13 perplexity 25.82 eval: bucket 0 perplexity 20.16 eval: bucket 1 perplexity 28.58 eval: bucket 2 perplexity 31.70 eval: bucket 3 perplexity 42.58 global step 83400 learning rate 0.2306 step-time 0.13 perplexity 25.96 eval: bucket 0 perplexity 32.35 eval: bucket 1 perplexity 22.52 eval: bucket 2 perplexity 28.59 eval: bucket 3 perplexity 28.89 global step 83600 learning rate 0.2283 step-time 0.13 perplexity 25.97 eval: bucket 0 perplexity 25.30 eval: bucket 1 perplexity 20.24 eval: bucket 2 perplexity 27.96 eval: bucket 3 perplexity 41.39 global step 83800 learning rate 0.2260 step-time 0.13 perplexity 25.02 eval: bucket 0 perplexity 29.62 eval: bucket 1 perplexity 19.87 eval: bucket 2 perplexity 33.96 eval: bucket 3 perplexity 53.41 global step 84000 learning rate 0.2260 step-time 0.14 perplexity 25.07 eval: bucket 0 perplexity 14.85 eval: bucket 1 perplexity 28.38 eval: bucket 2 perplexity 23.85 eval: bucket 3 perplexity 38.78 global step 84200 learning rate 0.2260 step-time 0.13 perplexity 25.34 eval: bucket 0 perplexity 19.90 eval: bucket 1 perplexity 21.95 eval: bucket 2 perplexity 26.45 eval: bucket 3 perplexity 39.41 global step 84400 learning rate 0.2260 step-time 0.13 perplexity 24.87 eval: bucket 0 perplexity 18.33 eval: bucket 1 perplexity 22.82 eval: bucket 2 perplexity 33.45 eval: bucket 3 perplexity 30.66 global step 84600 learning rate 0.2260 step-time 0.13 perplexity 25.35 eval: bucket 0 perplexity 25.97 eval: bucket 1 perplexity 23.70 eval: bucket 2 perplexity 52.33 eval: bucket 3 perplexity 28.69 global step 84800 learning rate 0.2238 step-time 0.13 perplexity 25.29 eval: bucket 0 perplexity 25.83 eval: bucket 1 perplexity 34.64 eval: bucket 2 perplexity 27.96 eval: bucket 3 perplexity 35.63 global step 85000 learning rate 0.2238 step-time 0.13 perplexity 25.60 eval: bucket 0 perplexity 22.21 eval: bucket 1 perplexity 27.05 eval: bucket 2 perplexity 26.35 eval: bucket 3 perplexity 26.38 global step 85200 learning rate 0.2215 step-time 0.13 perplexity 24.99 eval: bucket 0 perplexity 14.39 eval: bucket 1 perplexity 32.72 eval: bucket 2 perplexity 21.02 eval: bucket 3 perplexity 45.77 global step 85400 learning rate 0.2215 step-time 0.13 perplexity 24.30 eval: bucket 0 perplexity 23.50 eval: bucket 1 perplexity 41.69 eval: bucket 2 perplexity 23.26 eval: bucket 3 perplexity 24.30 global step 85600 learning rate 0.2215 step-time 0.13 perplexity 24.93 eval: bucket 0 perplexity 20.02 eval: bucket 1 perplexity 32.26 eval: bucket 2 perplexity 31.87 eval: bucket 3 perplexity 31.54 global step 85800 learning rate 0.2215 step-time 0.14 perplexity 25.28 eval: bucket 0 perplexity 19.44 eval: bucket 1 perplexity 23.56 eval: bucket 2 perplexity 24.89 eval: bucket 3 perplexity 55.76 global step 86000 learning rate 0.2193 step-time 0.13 perplexity 26.06 eval: bucket 0 perplexity 15.42 eval: bucket 1 perplexity 22.48 eval: bucket 2 perplexity 30.49 eval: bucket 3 perplexity 42.65 global step 86200 learning rate 0.2171 step-time 0.14 perplexity 24.73 eval: bucket 0 perplexity 33.21 eval: bucket 1 perplexity 26.72 eval: bucket 2 perplexity 25.07 eval: bucket 3 perplexity 33.49 global step 86400 learning rate 0.2171 step-time 0.13 perplexity 24.31 eval: bucket 0 perplexity 16.97 eval: bucket 1 perplexity 22.90 eval: bucket 2 perplexity 32.77 eval: bucket 3 perplexity 44.17 global step 86600 learning rate 0.2171 step-time 0.13 perplexity 25.62 eval: bucket 0 perplexity 17.78 eval: bucket 1 perplexity 17.25 eval: bucket 2 perplexity 25.09 eval: bucket 3 perplexity 33.42 global step 86800 learning rate 0.2171 step-time 0.13 perplexity 25.44 eval: bucket 0 perplexity 24.10 eval: bucket 1 perplexity 23.80 eval: bucket 2 perplexity 26.15 eval: bucket 3 perplexity 42.94 global step 87000 learning rate 0.2171 step-time 0.14 perplexity 25.77 eval: bucket 0 perplexity 17.34 eval: bucket 1 perplexity 23.10 eval: bucket 2 perplexity 17.24 eval: bucket 3 perplexity 37.05 global step 87200 learning rate 0.2149 step-time 0.13 perplexity 24.95 eval: bucket 0 perplexity 14.66 eval: bucket 1 perplexity 41.63 eval: bucket 2 perplexity 36.94 eval: bucket 3 perplexity 46.32 global step 87400 learning rate 0.2149 step-time 0.13 perplexity 24.67 eval: bucket 0 perplexity 16.65 eval: bucket 1 perplexity 17.23 eval: bucket 2 perplexity 38.12 eval: bucket 3 perplexity 49.12 global step 87600 learning rate 0.2149 step-time 0.13 perplexity 25.41 eval: bucket 0 perplexity 28.16 eval: bucket 1 perplexity 26.62 eval: bucket 2 perplexity 28.24 eval: bucket 3 perplexity 47.82 global step 87800 learning rate 0.2149 step-time 0.13 perplexity 25.56 eval: bucket 0 perplexity 27.49 eval: bucket 1 perplexity 21.47 eval: bucket 2 perplexity 26.86 eval: bucket 3 perplexity 43.13 global step 88000 learning rate 0.2128 step-time 0.14 perplexity 25.49 eval: bucket 0 perplexity 17.10 eval: bucket 1 perplexity 18.76 eval: bucket 2 perplexity 28.96 eval: bucket 3 perplexity 40.50 global step 88200 learning rate 0.2128 step-time 0.13 perplexity 25.42 eval: bucket 0 perplexity 17.74 eval: bucket 1 perplexity 24.66 eval: bucket 2 perplexity 40.93 eval: bucket 3 perplexity 42.38 global step 88400 learning rate 0.2128 step-time 0.13 perplexity 24.85 eval: bucket 0 perplexity 19.90 eval: bucket 1 perplexity 27.66 eval: bucket 2 perplexity 29.14 eval: bucket 3 perplexity 45.33 global step 88600 learning rate 0.2128 step-time 0.13 perplexity 25.05 eval: bucket 0 perplexity 25.32 eval: bucket 1 perplexity 32.94 eval: bucket 2 perplexity 35.48 eval: bucket 3 perplexity 46.19 global step 88800 learning rate 0.2128 step-time 0.14 perplexity 25.95 eval: bucket 0 perplexity 15.61 eval: bucket 1 perplexity 28.77 eval: bucket 2 perplexity 33.06 eval: bucket 3 perplexity 36.80 global step 89000 learning rate 0.2107 step-time 0.12 perplexity 24.64 eval: bucket 0 perplexity 25.73 eval: bucket 1 perplexity 26.59 eval: bucket 2 perplexity 19.31 eval: bucket 3 perplexity 56.61 global step 89200 learning rate 0.2107 step-time 0.13 perplexity 25.24 eval: bucket 0 perplexity 27.96 eval: bucket 1 perplexity 35.60 eval: bucket 2 perplexity 33.19 eval: bucket 3 perplexity 39.79 global step 89400 learning rate 0.2107 step-time 0.13 perplexity 25.30 eval: bucket 0 perplexity 21.99 eval: bucket 1 perplexity 28.70 eval: bucket 2 perplexity 34.79 eval: bucket 3 perplexity 35.11 global step 89600 learning rate 0.2107 step-time 0.13 perplexity 25.06 eval: bucket 0 perplexity 21.78 eval: bucket 1 perplexity 21.27 eval: bucket 2 perplexity 22.89 eval: bucket 3 perplexity 37.67 global step 89800 learning rate 0.2107 step-time 0.14 perplexity 25.05 eval: bucket 0 perplexity 23.84 eval: bucket 1 perplexity 26.09 eval: bucket 2 perplexity 33.82 eval: bucket 3 perplexity 37.59 global step 90000 learning rate 0.2107 step-time 0.13 perplexity 24.99 eval: bucket 0 perplexity 26.69 eval: bucket 1 perplexity 32.80 eval: bucket 2 perplexity 25.53 eval: bucket 3 perplexity 35.59 global step 90200 learning rate 0.2107 step-time 0.13 perplexity 24.67 eval: bucket 0 perplexity 25.87 eval: bucket 1 perplexity 34.62 eval: bucket 2 perplexity 31.88 eval: bucket 3 perplexity 27.47 global step 90400 learning rate 0.2107 step-time 0.13 perplexity 25.24 eval: bucket 0 perplexity 39.41 eval: bucket 1 perplexity 22.88 eval: bucket 2 perplexity 25.79 eval: bucket 3 perplexity 40.16 global step 90600 learning rate 0.2086 step-time 0.13 perplexity 25.11 eval: bucket 0 perplexity 24.46 eval: bucket 1 perplexity 22.88 eval: bucket 2 perplexity 22.39 eval: bucket 3 perplexity 35.64 global step 90800 learning rate 0.2086 step-time 0.14 perplexity 25.23 eval: bucket 0 perplexity 17.05 eval: bucket 1 perplexity 42.56 eval: bucket 2 perplexity 26.44 eval: bucket 3 perplexity 41.77 global step 91000 learning rate 0.2086 step-time 0.13 perplexity 24.20 eval: bucket 0 perplexity 32.89 eval: bucket 1 perplexity 31.06 eval: bucket 2 perplexity 30.13 eval: bucket 3 perplexity 34.90 global step 91200 learning rate 0.2086 step-time 0.14 perplexity 25.31 eval: bucket 0 perplexity 15.28 eval: bucket 1 perplexity 25.66 eval: bucket 2 perplexity 20.46 eval: bucket 3 perplexity 33.68 global step 91400 learning rate 0.2065 step-time 0.13 perplexity 24.76 eval: bucket 0 perplexity 28.99 eval: bucket 1 perplexity 32.19 eval: bucket 2 perplexity 39.03 eval: bucket 3 perplexity 36.71 global step 91600 learning rate 0.2065 step-time 0.13 perplexity 24.16 eval: bucket 0 perplexity 21.22 eval: bucket 1 perplexity 31.18 eval: bucket 2 perplexity 40.18 eval: bucket 3 perplexity 26.59 global step 91800 learning rate 0.2065 step-time 0.14 perplexity 25.09 eval: bucket 0 perplexity 21.43 eval: bucket 1 perplexity 27.06 eval: bucket 2 perplexity 19.02 eval: bucket 3 perplexity 27.91 global step 92000 learning rate 0.2065 step-time 0.13 perplexity 25.15 eval: bucket 0 perplexity 34.17 eval: bucket 1 perplexity 34.72 eval: bucket 2 perplexity 49.96 eval: bucket 3 perplexity 30.17 global step 92200 learning rate 0.2044 step-time 0.13 perplexity 24.66 eval: bucket 0 perplexity 27.47 eval: bucket 1 perplexity 21.34 eval: bucket 2 perplexity 28.39 eval: bucket 3 perplexity 31.63 global step 92400 learning rate 0.2044 step-time 0.12 perplexity 24.05 eval: bucket 0 perplexity 34.92 eval: bucket 1 perplexity 25.97 eval: bucket 2 perplexity 19.94 eval: bucket 3 perplexity 54.41 global step 92600 learning rate 0.2044 step-time 0.13 perplexity 24.32 eval: bucket 0 perplexity 39.80 eval: bucket 1 perplexity 22.58 eval: bucket 2 perplexity 28.65 eval: bucket 3 perplexity 27.43 global step 92800 learning rate 0.2044 step-time 0.13 perplexity 24.31 eval: bucket 0 perplexity 27.08 eval: bucket 1 perplexity 29.83 eval: bucket 2 perplexity 21.97 eval: bucket 3 perplexity 41.78 global step 93000 learning rate 0.2044 step-time 0.12 perplexity 24.72 eval: bucket 0 perplexity 24.48 eval: bucket 1 perplexity 31.35 eval: bucket 2 perplexity 26.82 eval: bucket 3 perplexity 51.92 global step 93200 learning rate 0.2024 step-time 0.14 perplexity 24.90 eval: bucket 0 perplexity 19.31 eval: bucket 1 perplexity 25.11 eval: bucket 2 perplexity 26.96 eval: bucket 3 perplexity 25.73 global step 93400 learning rate 0.2003 step-time 0.13 perplexity 24.42 eval: bucket 0 perplexity 29.72 eval: bucket 1 perplexity 36.37 eval: bucket 2 perplexity 36.99 eval: bucket 3 perplexity 40.92 global step 93600 learning rate 0.2003 step-time 0.13 perplexity 24.99 eval: bucket 0 perplexity 31.40 eval: bucket 1 perplexity 30.24 eval: bucket 2 perplexity 34.18 eval: bucket 3 perplexity 37.81 global step 93800 learning rate 0.1983 step-time 0.14 perplexity 24.62 eval: bucket 0 perplexity 27.24 eval: bucket 1 perplexity 24.19 eval: bucket 2 perplexity 27.83 eval: bucket 3 perplexity 33.82 global step 94000 learning rate 0.1983 step-time 0.12 perplexity 24.80 eval: bucket 0 perplexity 21.12 eval: bucket 1 perplexity 29.15 eval: bucket 2 perplexity 23.24 eval: bucket 3 perplexity 36.66 global step 94200 learning rate 0.1983 step-time 0.13 perplexity 24.72 eval: bucket 0 perplexity 22.08 eval: bucket 1 perplexity 22.04 eval: bucket 2 perplexity 42.99 eval: bucket 3 perplexity 42.66 global step 94400 learning rate 0.1983 step-time 0.13 perplexity 24.68 eval: bucket 0 perplexity 27.29 eval: bucket 1 perplexity 31.79 eval: bucket 2 perplexity 31.82 eval: bucket 3 perplexity 34.91 global step 94600 learning rate 0.1983 step-time 0.12 perplexity 24.11 eval: bucket 0 perplexity 23.14 eval: bucket 1 perplexity 28.67 eval: bucket 2 perplexity 26.05 eval: bucket 3 perplexity 39.80 global step 94800 learning rate 0.1983 step-time 0.13 perplexity 24.51 eval: bucket 0 perplexity 23.98 eval: bucket 1 perplexity 34.68 eval: bucket 2 perplexity 28.54 eval: bucket 3 perplexity 27.73 global step 95000 learning rate 0.1983 step-time 0.13 perplexity 23.93 eval: bucket 0 perplexity 21.46 eval: bucket 1 perplexity 19.23 eval: bucket 2 perplexity 23.36 eval: bucket 3 perplexity 50.99 global step 95200 learning rate 0.1983 step-time 0.13 perplexity 24.50 eval: bucket 0 perplexity 27.52 eval: bucket 1 perplexity 32.59 eval: bucket 2 perplexity 30.81 eval: bucket 3 perplexity 47.92 global step 95400 learning rate 0.1983 step-time 0.13 perplexity 24.49 eval: bucket 0 perplexity 13.86 eval: bucket 1 perplexity 33.07 eval: bucket 2 perplexity 25.29 eval: bucket 3 perplexity 54.28 global step 95600 learning rate 0.1983 step-time 0.13 perplexity 23.84 eval: bucket 0 perplexity 23.01 eval: bucket 1 perplexity 19.52 eval: bucket 2 perplexity 19.30 eval: bucket 3 perplexity 41.43 global step 95800 learning rate 0.1983 step-time 0.12 perplexity 23.87 eval: bucket 0 perplexity 28.98 eval: bucket 1 perplexity 35.21 eval: bucket 2 perplexity 38.26 eval: bucket 3 perplexity 39.07 global step 96000 learning rate 0.1983 step-time 0.12 perplexity 24.07 eval: bucket 0 perplexity 14.43 eval: bucket 1 perplexity 15.57 eval: bucket 2 perplexity 27.97 eval: bucket 3 perplexity 46.27 global step 96200 learning rate 0.1983 step-time 0.13 perplexity 24.68 eval: bucket 0 perplexity 25.09 eval: bucket 1 perplexity 22.15 eval: bucket 2 perplexity 34.40 eval: bucket 3 perplexity 43.30 global step 96400 learning rate 0.1964 step-time 0.13 perplexity 24.51 eval: bucket 0 perplexity 24.08 eval: bucket 1 perplexity 25.13 eval: bucket 2 perplexity 18.22 eval: bucket 3 perplexity 37.39 global step 96600 learning rate 0.1964 step-time 0.14 perplexity 24.45 eval: bucket 0 perplexity 21.91 eval: bucket 1 perplexity 29.40 eval: bucket 2 perplexity 31.80 eval: bucket 3 perplexity 44.91 global step 96800 learning rate 0.1964 step-time 0.12 perplexity 24.32 eval: bucket 0 perplexity 21.55 eval: bucket 1 perplexity 29.53 eval: bucket 2 perplexity 25.77 eval: bucket 3 perplexity 33.05 global step 97000 learning rate 0.1964 step-time 0.13 perplexity 24.17 eval: bucket 0 perplexity 29.15 eval: bucket 1 perplexity 19.69 eval: bucket 2 perplexity 29.94 eval: bucket 3 perplexity 33.74 global step 97200 learning rate 0.1964 step-time 0.14 perplexity 24.45 eval: bucket 0 perplexity 21.14 eval: bucket 1 perplexity 29.16 eval: bucket 2 perplexity 38.90 eval: bucket 3 perplexity 38.59 global step 97400 learning rate 0.1964 step-time 0.13 perplexity 24.70 eval: bucket 0 perplexity 15.15 eval: bucket 1 perplexity 27.99 eval: bucket 2 perplexity 25.93 eval: bucket 3 perplexity 32.06 global step 97600 learning rate 0.1944 step-time 0.14 perplexity 24.74 eval: bucket 0 perplexity 19.97 eval: bucket 1 perplexity 23.47 eval: bucket 2 perplexity 50.61 eval: bucket 3 perplexity 34.80 global step 97800 learning rate 0.1924 step-time 0.14 perplexity 24.64 eval: bucket 0 perplexity 22.10 eval: bucket 1 perplexity 19.60 eval: bucket 2 perplexity 33.81 eval: bucket 3 perplexity 46.59 global step 98000 learning rate 0.1924 step-time 0.14 perplexity 25.68 eval: bucket 0 perplexity 18.61 eval: bucket 1 perplexity 34.28 eval: bucket 2 perplexity 26.78 eval: bucket 3 perplexity 35.92 global step 98200 learning rate 0.1905 step-time 0.14 perplexity 24.73 eval: bucket 0 perplexity 19.02 eval: bucket 1 perplexity 33.50 eval: bucket 2 perplexity 36.77 eval: bucket 3 perplexity 42.23 global step 98400 learning rate 0.1905 step-time 0.13 perplexity 24.49 eval: bucket 0 perplexity 17.02 eval: bucket 1 perplexity 32.47 eval: bucket 2 perplexity 36.48 eval: bucket 3 perplexity 38.14 global step 98600 learning rate 0.1905 step-time 0.13 perplexity 24.60 eval: bucket 0 perplexity 24.05 eval: bucket 1 perplexity 32.76 eval: bucket 2 perplexity 27.50 eval: bucket 3 perplexity 30.21 global step 98800 learning rate 0.1905 step-time 0.13 perplexity 24.13 eval: bucket 0 perplexity 35.68 eval: bucket 1 perplexity 23.21 eval: bucket 2 perplexity 21.64 eval: bucket 3 perplexity 43.04 global step 99000 learning rate 0.1905 step-time 0.13 perplexity 24.81 eval: bucket 0 perplexity 17.78 eval: bucket 1 perplexity 23.33 eval: bucket 2 perplexity 29.85 eval: bucket 3 perplexity 36.75 global step 99200 learning rate 0.1886 step-time 0.13 perplexity 24.84 eval: bucket 0 perplexity 21.63 eval: bucket 1 perplexity 28.27 eval: bucket 2 perplexity 35.71 eval: bucket 3 perplexity 39.85 global step 99400 learning rate 0.1867 step-time 0.13 perplexity 24.18 eval: bucket 0 perplexity 36.30 eval: bucket 1 perplexity 24.99 eval: bucket 2 perplexity 29.40 eval: bucket 3 perplexity 53.84 global step 99600 learning rate 0.1867 step-time 0.13 perplexity 24.03 eval: bucket 0 perplexity 14.33 eval: bucket 1 perplexity 16.79 eval: bucket 2 perplexity 41.81 eval: bucket 3 perplexity 37.59 global step 99800 learning rate 0.1867 step-time 0.13 perplexity 24.64 eval: bucket 0 perplexity 27.12 eval: bucket 1 perplexity 18.98 eval: bucket 2 perplexity 32.30 eval: bucket 3 perplexity 44.06 global step 100000 learning rate 0.1867 step-time 0.12 perplexity 24.01 eval: bucket 0 perplexity 12.98 eval: bucket 1 perplexity 26.97 eval: bucket 2 perplexity 26.09 eval: bucket 3 perplexity 37.42 global step 100200 learning rate 0.1867 step-time 0.12 perplexity 23.64 eval: bucket 0 perplexity 23.10 eval: bucket 1 perplexity 31.00 eval: bucket 2 perplexity 28.02 eval: bucket 3 perplexity 31.98 global step 100400 learning rate 0.1867 step-time 0.14 perplexity 24.73 eval: bucket 0 perplexity 19.20 eval: bucket 1 perplexity 26.73 eval: bucket 2 perplexity 20.24 eval: bucket 3 perplexity 48.56 global step 100600 learning rate 0.1849 step-time 0.13 perplexity 24.35 eval: bucket 0 perplexity 24.04 eval: bucket 1 perplexity 27.31 eval: bucket 2 perplexity 22.54 eval: bucket 3 perplexity 36.09 global step 100800 learning rate 0.1849 step-time 0.13 perplexity 24.07 eval: bucket 0 perplexity 26.00 eval: bucket 1 perplexity 22.33 eval: bucket 2 perplexity 37.54 eval: bucket 3 perplexity 33.55 global step 101000 learning rate 0.1849 step-time 0.12 perplexity 23.69 eval: bucket 0 perplexity 17.92 eval: bucket 1 perplexity 19.69 eval: bucket 2 perplexity 32.70 eval: bucket 3 perplexity 51.93 global step 101200 learning rate 0.1849 step-time 0.14 perplexity 24.68 eval: bucket 0 perplexity 22.41 eval: bucket 1 perplexity 28.01 eval: bucket 2 perplexity 28.07 eval: bucket 3 perplexity 36.14 global step 101400 learning rate 0.1830 step-time 0.13 perplexity 24.07 eval: bucket 0 perplexity 26.61 eval: bucket 1 perplexity 24.01 eval: bucket 2 perplexity 34.08 eval: bucket 3 perplexity 40.09 global step 101600 learning rate 0.1830 step-time 0.13 perplexity 23.63 eval: bucket 0 perplexity 16.86 eval: bucket 1 perplexity 20.97 eval: bucket 2 perplexity 38.83 eval: bucket 3 perplexity 25.13 global step 101800 learning rate 0.1830 step-time 0.13 perplexity 25.04 eval: bucket 0 perplexity 19.96 eval: bucket 1 perplexity 25.01 eval: bucket 2 perplexity 32.07 eval: bucket 3 perplexity 29.50 global step 102000 learning rate 0.1812 step-time 0.13 perplexity 23.87 eval: bucket 0 perplexity 13.22 eval: bucket 1 perplexity 28.85 eval: bucket 2 perplexity 34.39 eval: bucket 3 perplexity 36.35 global step 102200 learning rate 0.1812 step-time 0.14 perplexity 24.63 eval: bucket 0 perplexity 15.84 eval: bucket 1 perplexity 23.72 eval: bucket 2 perplexity 27.37 eval: bucket 3 perplexity 40.84 global step 102400 learning rate 0.1812 step-time 0.13 perplexity 24.24 eval: bucket 0 perplexity 22.68 eval: bucket 1 perplexity 18.72 eval: bucket 2 perplexity 28.07 eval: bucket 3 perplexity 43.43 global step 102600 learning rate 0.1812 step-time 0.13 perplexity 24.34 eval: bucket 0 perplexity 18.81 eval: bucket 1 perplexity 19.19 eval: bucket 2 perplexity 34.83 eval: bucket 3 perplexity 35.83 global step 102800 learning rate 0.1812 step-time 0.13 perplexity 24.16 eval: bucket 0 perplexity 16.34 eval: bucket 1 perplexity 19.33 eval: bucket 2 perplexity 35.26 eval: bucket 3 perplexity 32.19 global step 103000 learning rate 0.1812 step-time 0.14 perplexity 23.25 eval: bucket 0 perplexity 20.82 eval: bucket 1 perplexity 17.03 eval: bucket 2 perplexity 27.91 eval: bucket 3 perplexity 38.14 global step 103200 learning rate 0.1812 step-time 0.13 perplexity 24.22 eval: bucket 0 perplexity 18.05 eval: bucket 1 perplexity 27.80 eval: bucket 2 perplexity 37.79 eval: bucket 3 perplexity 22.67 global step 103400 learning rate 0.1812 step-time 0.13 perplexity 23.62 eval: bucket 0 perplexity 18.74 eval: bucket 1 perplexity 27.02 eval: bucket 2 perplexity 26.92 eval: bucket 3 perplexity 34.83 global step 103600 learning rate 0.1812 step-time 0.14 perplexity 24.29 eval: bucket 0 perplexity 24.88 eval: bucket 1 perplexity 16.83 eval: bucket 2 perplexity 34.20 eval: bucket 3 perplexity 52.67 global step 103800 learning rate 0.1794 step-time 0.14 perplexity 23.76 eval: bucket 0 perplexity 25.02 eval: bucket 1 perplexity 25.06 eval: bucket 2 perplexity 30.86 eval: bucket 3 perplexity 24.82 global step 104000 learning rate 0.1794 step-time 0.13 perplexity 24.21 eval: bucket 0 perplexity 28.58 eval: bucket 1 perplexity 27.79 eval: bucket 2 perplexity 33.60 eval: bucket 3 perplexity 22.17 global step 104200 learning rate 0.1794 step-time 0.13 perplexity 23.19 eval: bucket 0 perplexity 18.35 eval: bucket 1 perplexity 34.24 eval: bucket 2 perplexity 28.19 eval: bucket 3 perplexity 29.06 global step 104400 learning rate 0.1794 step-time 0.13 perplexity 25.01 eval: bucket 0 perplexity 14.05 eval: bucket 1 perplexity 33.08 eval: bucket 2 perplexity 27.58 eval: bucket 3 perplexity 45.84 global step 104600 learning rate 0.1776 step-time 0.13 perplexity 23.31 eval: bucket 0 perplexity 33.03 eval: bucket 1 perplexity 25.66 eval: bucket 2 perplexity 34.51 eval: bucket 3 perplexity 26.16 global step 104800 learning rate 0.1776 step-time 0.13 perplexity 22.71 eval: bucket 0 perplexity 24.72 eval: bucket 1 perplexity 28.10 eval: bucket 2 perplexity 30.52 eval: bucket 3 perplexity 38.95 global step 105000 learning rate 0.1776 step-time 0.13 perplexity 23.32 eval: bucket 0 perplexity 13.67 eval: bucket 1 perplexity 24.85 eval: bucket 2 perplexity 33.84 eval: bucket 3 perplexity 44.10 global step 105200 learning rate 0.1776 step-time 0.12 perplexity 23.29 eval: bucket 0 perplexity 15.60 eval: bucket 1 perplexity 20.17 eval: bucket 2 perplexity 41.57 eval: bucket 3 perplexity 51.93 global step 105400 learning rate 0.1776 step-time 0.13 perplexity 24.05 eval: bucket 0 perplexity 16.72 eval: bucket 1 perplexity 26.18 eval: bucket 2 perplexity 23.55 eval: bucket 3 perplexity 56.55 global step 105600 learning rate 0.1758 step-time 0.13 perplexity 23.74 eval: bucket 0 perplexity 25.94 eval: bucket 1 perplexity 21.42 eval: bucket 2 perplexity 28.76 eval: bucket 3 perplexity 34.14 global step 105800 learning rate 0.1758 step-time 0.13 perplexity 23.49 eval: bucket 0 perplexity 18.70 eval: bucket 1 perplexity 23.61 eval: bucket 2 perplexity 23.22 eval: bucket 3 perplexity 38.81 global step 106000 learning rate 0.1758 step-time 0.14 perplexity 23.75 eval: bucket 0 perplexity 15.25 eval: bucket 1 perplexity 21.39 eval: bucket 2 perplexity 17.71 eval: bucket 3 perplexity 28.42 global step 106200 learning rate 0.1758 step-time 0.14 perplexity 23.52 eval: bucket 0 perplexity 32.24 eval: bucket 1 perplexity 22.44 eval: bucket 2 perplexity 25.72 eval: bucket 3 perplexity 43.24 global step 106400 learning rate 0.1758 step-time 0.13 perplexity 23.22 eval: bucket 0 perplexity 25.64 eval: bucket 1 perplexity 16.67 eval: bucket 2 perplexity 28.03 eval: bucket 3 perplexity 29.09 global step 106600 learning rate 0.1758 step-time 0.13 perplexity 23.29 eval: bucket 0 perplexity 21.91 eval: bucket 1 perplexity 36.95 eval: bucket 2 perplexity 30.96 eval: bucket 3 perplexity 27.05 global step 106800 learning rate 0.1758 step-time 0.13 perplexity 23.52 eval: bucket 0 perplexity 20.68 eval: bucket 1 perplexity 33.90 eval: bucket 2 perplexity 43.26 eval: bucket 3 perplexity 38.07 global step 107000 learning rate 0.1758 step-time 0.14 perplexity 23.07 eval: bucket 0 perplexity 15.29 eval: bucket 1 perplexity 17.51 eval: bucket 2 perplexity 26.04 eval: bucket 3 perplexity 33.91 global step 107200 learning rate 0.1758 step-time 0.14 perplexity 23.86 eval: bucket 0 perplexity 20.90 eval: bucket 1 perplexity 29.12 eval: bucket 2 perplexity 40.29 eval: bucket 3 perplexity 43.82 global step 107400 learning rate 0.1740 step-time 0.12 perplexity 23.06 eval: bucket 0 perplexity 16.17 eval: bucket 1 perplexity 22.88 eval: bucket 2 perplexity 32.20 eval: bucket 3 perplexity 35.36 global step 107600 learning rate 0.1740 step-time 0.13 perplexity 24.28 eval: bucket 0 perplexity 21.22 eval: bucket 1 perplexity 23.08 eval: bucket 2 perplexity 26.66 eval: bucket 3 perplexity 32.86 global step 107800 learning rate 0.1723 step-time 0.13 perplexity 23.29 eval: bucket 0 perplexity 21.60 eval: bucket 1 perplexity 29.96 eval: bucket 2 perplexity 34.93 eval: bucket 3 perplexity 41.01 global step 108000 learning rate 0.1723 step-time 0.13 perplexity 23.38 eval: bucket 0 perplexity 20.10 eval: bucket 1 perplexity 27.06 eval: bucket 2 perplexity 22.74 eval: bucket 3 perplexity 34.01 global step 108200 learning rate 0.1723 step-time 0.13 perplexity 23.30 eval: bucket 0 perplexity 24.06 eval: bucket 1 perplexity 20.22 eval: bucket 2 perplexity 23.43 eval: bucket 3 perplexity 34.50 global step 108400 learning rate 0.1723 step-time 0.14 perplexity 22.77 eval: bucket 0 perplexity 24.22 eval: bucket 1 perplexity 24.54 eval: bucket 2 perplexity 21.58 eval: bucket 3 perplexity 36.49 global step 108600 learning rate 0.1723 step-time 0.12 perplexity 23.72 eval: bucket 0 perplexity 18.54 eval: bucket 1 perplexity 22.19 eval: bucket 2 perplexity 20.00 eval: bucket 3 perplexity 35.27 global step 108800 learning rate 0.1706 step-time 0.14 perplexity 24.12 eval: bucket 0 perplexity 27.89 eval: bucket 1 perplexity 40.12 eval: bucket 2 perplexity 32.98 eval: bucket 3 perplexity 28.14 global step 109000 learning rate 0.1689 step-time 0.13 perplexity 23.76 eval: bucket 0 perplexity 20.56 eval: bucket 1 perplexity 26.99 eval: bucket 2 perplexity 32.93 eval: bucket 3 perplexity 40.08 global step 109200 learning rate 0.1689 step-time 0.13 perplexity 23.01 eval: bucket 0 perplexity 24.83 eval: bucket 1 perplexity 27.42 eval: bucket 2 perplexity 25.80 eval: bucket 3 perplexity 39.50 global step 109400 learning rate 0.1689 step-time 0.12 perplexity 23.57 eval: bucket 0 perplexity 21.85 eval: bucket 1 perplexity 47.95 eval: bucket 2 perplexity 27.07 eval: bucket 3 perplexity 24.62 global step 109600 learning rate 0.1689 step-time 0.13 perplexity 23.20 eval: bucket 0 perplexity 28.89 eval: bucket 1 perplexity 37.72 eval: bucket 2 perplexity 38.24 eval: bucket 3 perplexity 37.72 global step 109800 learning rate 0.1689 step-time 0.13 perplexity 23.60 eval: bucket 0 perplexity 20.46 eval: bucket 1 perplexity 20.87 eval: bucket 2 perplexity 18.65 eval: bucket 3 perplexity 39.05 global step 110000 learning rate 0.1672 step-time 0.13 perplexity 23.05 eval: bucket 0 perplexity 23.36 eval: bucket 1 perplexity 20.38 eval: bucket 2 perplexity 26.56 eval: bucket 3 perplexity 44.97 global step 110200 learning rate 0.1672 step-time 0.13 perplexity 24.44 eval: bucket 0 perplexity 22.51 eval: bucket 1 perplexity 29.05 eval: bucket 2 perplexity 33.14 eval: bucket 3 perplexity 31.21 global step 110400 learning rate 0.1655 step-time 0.13 perplexity 23.44 eval: bucket 0 perplexity 18.86 eval: bucket 1 perplexity 32.57 eval: bucket 2 perplexity 28.00 eval: bucket 3 perplexity 28.46 global step 110600 learning rate 0.1655 step-time 0.13 perplexity 22.99 eval: bucket 0 perplexity 21.04 eval: bucket 1 perplexity 20.75 eval: bucket 2 perplexity 25.89 eval: bucket 3 perplexity 35.71 global step 110800 learning rate 0.1655 step-time 0.12 perplexity 23.31 eval: bucket 0 perplexity 20.16 eval: bucket 1 perplexity 35.60 eval: bucket 2 perplexity 43.50 eval: bucket 3 perplexity 36.60 global step 111000 learning rate 0.1655 step-time 0.13 perplexity 23.31 eval: bucket 0 perplexity 23.37 eval: bucket 1 perplexity 26.81 eval: bucket 2 perplexity 25.95 eval: bucket 3 perplexity 27.56 global step 111200 learning rate 0.1655 step-time 0.14 perplexity 23.03 eval: bucket 0 perplexity 42.68 eval: bucket 1 perplexity 21.54 eval: bucket 2 perplexity 36.13 eval: bucket 3 perplexity 35.47 global step 111400 learning rate 0.1655 step-time 0.13 perplexity 23.95 eval: bucket 0 perplexity 11.72 eval: bucket 1 perplexity 28.08 eval: bucket 2 perplexity 25.73 eval: bucket 3 perplexity 30.25 global step 111600 learning rate 0.1639 step-time 0.13 perplexity 23.41 eval: bucket 0 perplexity 19.39 eval: bucket 1 perplexity 27.42 eval: bucket 2 perplexity 45.42 eval: bucket 3 perplexity 41.13 global step 111800 learning rate 0.1639 step-time 0.13 perplexity 23.69 eval: bucket 0 perplexity 21.23 eval: bucket 1 perplexity 23.64 eval: bucket 2 perplexity 32.15 eval: bucket 3 perplexity 38.99 global step 112000 learning rate 0.1639 step-time 0.13 perplexity 23.60 eval: bucket 0 perplexity 18.53 eval: bucket 1 perplexity 20.51 eval: bucket 2 perplexity 34.85 eval: bucket 3 perplexity 39.90 global step 112200 learning rate 0.1639 step-time 0.13 perplexity 23.24 eval: bucket 0 perplexity 18.57 eval: bucket 1 perplexity 29.21 eval: bucket 2 perplexity 25.33 eval: bucket 3 perplexity 38.63 global step 112400 learning rate 0.1639 step-time 0.13 perplexity 23.72 eval: bucket 0 perplexity 24.78 eval: bucket 1 perplexity 20.50 eval: bucket 2 perplexity 25.10 eval: bucket 3 perplexity 33.13 global step 112600 learning rate 0.1622 step-time 0.14 perplexity 22.75 eval: bucket 0 perplexity 19.57 eval: bucket 1 perplexity 39.03 eval: bucket 2 perplexity 34.61 eval: bucket 3 perplexity 36.86 global step 112800 learning rate 0.1622 step-time 0.13 perplexity 24.07 eval: bucket 0 perplexity 17.77 eval: bucket 1 perplexity 29.91 eval: bucket 2 perplexity 18.30 eval: bucket 3 perplexity 30.67 global step 113000 learning rate 0.1606 step-time 0.12 perplexity 22.37 eval: bucket 0 perplexity 14.23 eval: bucket 1 perplexity 24.21 eval: bucket 2 perplexity 25.18 eval: bucket 3 perplexity 34.82 global step 113200 learning rate 0.1606 step-time 0.13 perplexity 22.97 eval: bucket 0 perplexity 22.84 eval: bucket 1 perplexity 25.94 eval: bucket 2 perplexity 43.98 eval: bucket 3 perplexity 37.56 global step 113400 learning rate 0.1606 step-time 0.12 perplexity 23.32 eval: bucket 0 perplexity 27.31 eval: bucket 1 perplexity 15.08 eval: bucket 2 perplexity 38.25 eval: bucket 3 perplexity 28.99 global step 113600 learning rate 0.1606 step-time 0.14 perplexity 24.02 eval: bucket 0 perplexity 25.66 eval: bucket 1 perplexity 33.58 eval: bucket 2 perplexity 21.38 eval: bucket 3 perplexity 33.23 global step 113800 learning rate 0.1590 step-time 0.13 perplexity 23.40 eval: bucket 0 perplexity 33.52 eval: bucket 1 perplexity 29.14 eval: bucket 2 perplexity 33.58 eval: bucket 3 perplexity 28.95 global step 114000 learning rate 0.1590 step-time 0.13 perplexity 23.05 eval: bucket 0 perplexity 21.93 eval: bucket 1 perplexity 21.13 eval: bucket 2 perplexity 24.78 eval: bucket 3 perplexity 26.80 global step 114200 learning rate 0.1590 step-time 0.13 perplexity 22.82 eval: bucket 0 perplexity 29.56 eval: bucket 1 perplexity 21.84 eval: bucket 2 perplexity 25.66 eval: bucket 3 perplexity 46.79 global step 114400 learning rate 0.1590 step-time 0.12 perplexity 23.18 eval: bucket 0 perplexity 20.32 eval: bucket 1 perplexity 22.02 eval: bucket 2 perplexity 34.36 eval: bucket 3 perplexity 32.41 global step 114600 learning rate 0.1590 step-time 0.13 perplexity 23.81 eval: bucket 0 perplexity 22.30 eval: bucket 1 perplexity 22.43 eval: bucket 2 perplexity 28.99 eval: bucket 3 perplexity 41.53 global step 114800 learning rate 0.1574 step-time 0.13 perplexity 23.31 eval: bucket 0 perplexity 17.13 eval: bucket 1 perplexity 18.68 eval: bucket 2 perplexity 38.04 eval: bucket 3 perplexity 31.01 global step 115000 learning rate 0.1574 step-time 0.13 perplexity 23.37 eval: bucket 0 perplexity 17.82 eval: bucket 1 perplexity 23.07 eval: bucket 2 perplexity 31.91 eval: bucket 3 perplexity 24.82 global step 115200 learning rate 0.1574 step-time 0.14 perplexity 23.58 eval: bucket 0 perplexity 24.91 eval: bucket 1 perplexity 14.95 eval: bucket 2 perplexity 28.96 eval: bucket 3 perplexity 51.50 global step 115400 learning rate 0.1574 step-time 0.13 perplexity 22.94 eval: bucket 0 perplexity 21.05 eval: bucket 1 perplexity 23.22 eval: bucket 2 perplexity 39.02 eval: bucket 3 perplexity 41.44 global step 115600 learning rate 0.1574 step-time 0.14 perplexity 23.38 eval: bucket 0 perplexity 23.06 eval: bucket 1 perplexity 33.19 eval: bucket 2 perplexity 23.59 eval: bucket 3 perplexity 34.56 global step 115800 learning rate 0.1574 step-time 0.13 perplexity 22.25 eval: bucket 0 perplexity 24.64 eval: bucket 1 perplexity 33.86 eval: bucket 2 perplexity 23.78 eval: bucket 3 perplexity 43.88 global step 116000 learning rate 0.1574 step-time 0.12 perplexity 22.11 eval: bucket 0 perplexity 15.66 eval: bucket 1 perplexity 22.78 eval: bucket 2 perplexity 23.33 eval: bucket 3 perplexity 36.85 global step 116200 learning rate 0.1574 step-time 0.13 perplexity 22.47 eval: bucket 0 perplexity 22.69 eval: bucket 1 perplexity 20.66 eval: bucket 2 perplexity 36.92 eval: bucket 3 perplexity 29.90 global step 116400 learning rate 0.1574 step-time 0.13 perplexity 23.15 eval: bucket 0 perplexity 28.89 eval: bucket 1 perplexity 21.18 eval: bucket 2 perplexity 30.95 eval: bucket 3 perplexity 26.34 global step 116600 learning rate 0.1558 step-time 0.13 perplexity 23.34 eval: bucket 0 perplexity 30.71 eval: bucket 1 perplexity 17.35 eval: bucket 2 perplexity 20.59 eval: bucket 3 perplexity 33.21 global step 116800 learning rate 0.1543 step-time 0.13 perplexity 22.47 eval: bucket 0 perplexity 18.86 eval: bucket 1 perplexity 17.67 eval: bucket 2 perplexity 21.97 eval: bucket 3 perplexity 39.78 global step 117000 learning rate 0.1543 step-time 0.13 perplexity 23.25 eval: bucket 0 perplexity 37.07 eval: bucket 1 perplexity 17.94 eval: bucket 2 perplexity 36.09 eval: bucket 3 perplexity 48.55 global step 117200 learning rate 0.1543 step-time 0.13 perplexity 23.35 eval: bucket 0 perplexity 22.96 eval: bucket 1 perplexity 18.48 eval: bucket 2 perplexity 32.71 eval: bucket 3 perplexity 38.61 global step 117400 learning rate 0.1527 step-time 0.12 perplexity 22.57 eval: bucket 0 perplexity 14.21 eval: bucket 1 perplexity 20.86 eval: bucket 2 perplexity 28.45 eval: bucket 3 perplexity 38.60 global step 117600 learning rate 0.1527 step-time 0.14 perplexity 22.96 eval: bucket 0 perplexity 24.90 eval: bucket 1 perplexity 22.60 eval: bucket 2 perplexity 22.86 eval: bucket 3 perplexity 31.04 global step 117800 learning rate 0.1527 step-time 0.13 perplexity 22.58 eval: bucket 0 perplexity 18.62 eval: bucket 1 perplexity 37.07 eval: bucket 2 perplexity 41.26 eval: bucket 3 perplexity 38.64 global step 118000 learning rate 0.1527 step-time 0.14 perplexity 23.20 eval: bucket 0 perplexity 14.91 eval: bucket 1 perplexity 14.74 eval: bucket 2 perplexity 44.77 eval: bucket 3 perplexity 37.10 global step 118200 learning rate 0.1512 step-time 0.14 perplexity 23.85 eval: bucket 0 perplexity 21.48 eval: bucket 1 perplexity 28.38 eval: bucket 2 perplexity 30.47 eval: bucket 3 perplexity 40.45 global step 118400 learning rate 0.1497 step-time 0.13 perplexity 22.51 eval: bucket 0 perplexity 20.07 eval: bucket 1 perplexity 25.32 eval: bucket 2 perplexity 30.48 eval: bucket 3 perplexity 28.63 global step 118600 learning rate 0.1497 step-time 0.13 perplexity 23.07 eval: bucket 0 perplexity 28.81 eval: bucket 1 perplexity 16.29 eval: bucket 2 perplexity 24.19 eval: bucket 3 perplexity 35.72 global step 118800 learning rate 0.1497 step-time 0.13 perplexity 22.59 eval: bucket 0 perplexity 24.66 eval: bucket 1 perplexity 20.51 eval: bucket 2 perplexity 24.88 eval: bucket 3 perplexity 21.92 global step 119000 learning rate 0.1497 step-time 0.14 perplexity 23.17 eval: bucket 0 perplexity 18.73 eval: bucket 1 perplexity 24.78 eval: bucket 2 perplexity 26.61 eval: bucket 3 perplexity 35.65 global step 119200 learning rate 0.1482 step-time 0.14 perplexity 23.28 eval: bucket 0 perplexity 19.54 eval: bucket 1 perplexity 27.79 eval: bucket 2 perplexity 28.06 eval: bucket 3 perplexity 39.78 global step 119400 learning rate 0.1467 step-time 0.13 perplexity 22.73 eval: bucket 0 perplexity 23.84 eval: bucket 1 perplexity 26.62 eval: bucket 2 perplexity 30.13 eval: bucket 3 perplexity 31.32 global step 119600 learning rate 0.1467 step-time 0.14 perplexity 23.55 eval: bucket 0 perplexity 15.86 eval: bucket 1 perplexity 28.11 eval: bucket 2 perplexity 27.42 eval: bucket 3 perplexity 59.44 global step 119800 learning rate 0.1452 step-time 0.13 perplexity 23.04 eval: bucket 0 perplexity 14.49 eval: bucket 1 perplexity 20.68 eval: bucket 2 perplexity 24.78 eval: bucket 3 perplexity 41.96 global step 120000 learning rate 0.1452 step-time 0.14 perplexity 22.91 eval: bucket 0 perplexity 26.76 eval: bucket 1 perplexity 32.81 eval: bucket 2 perplexity 30.94 eval: bucket 3 perplexity 41.18 global step 120200 learning rate 0.1452 step-time 0.13 perplexity 22.90 eval: bucket 0 perplexity 17.00 eval: bucket 1 perplexity 28.94 eval: bucket 2 perplexity 30.81 eval: bucket 3 perplexity 40.73 global step 120400 learning rate 0.1452 step-time 0.13 perplexity 22.93 eval: bucket 0 perplexity 32.59 eval: bucket 1 perplexity 26.38 eval: bucket 2 perplexity 30.73 eval: bucket 3 perplexity 27.97 global step 120600 learning rate 0.1452 step-time 0.13 perplexity 22.76 eval: bucket 0 perplexity 26.04 eval: bucket 1 perplexity 17.33 eval: bucket 2 perplexity 26.66 eval: bucket 3 perplexity 33.99 global step 120800 learning rate 0.1452 step-time 0.12 perplexity 23.02 eval: bucket 0 perplexity 18.77 eval: bucket 1 perplexity 24.03 eval: bucket 2 perplexity 29.93 eval: bucket 3 perplexity 30.64 global step 121000 learning rate 0.1438 step-time 0.13 perplexity 21.95 eval: bucket 0 perplexity 27.04 eval: bucket 1 perplexity 17.80 eval: bucket 2 perplexity 26.65 eval: bucket 3 perplexity 41.33 global step 121200 learning rate 0.1438 step-time 0.13 perplexity 23.04 eval: bucket 0 perplexity 24.38 eval: bucket 1 perplexity 37.46 eval: bucket 2 perplexity 27.72 eval: bucket 3 perplexity 45.12 global step 121400 learning rate 0.1424 step-time 0.14 perplexity 23.00 eval: bucket 0 perplexity 18.96 eval: bucket 1 perplexity 32.05 eval: bucket 2 perplexity 25.26 eval: bucket 3 perplexity 35.37 global step 121600 learning rate 0.1424 step-time 0.12 perplexity 22.86 eval: bucket 0 perplexity 22.42 eval: bucket 1 perplexity 23.23 eval: bucket 2 perplexity 21.77 eval: bucket 3 perplexity 28.09 global step 121800 learning rate 0.1424 step-time 0.13 perplexity 23.04 eval: bucket 0 perplexity 39.40 eval: bucket 1 perplexity 26.91 eval: bucket 2 perplexity 26.83 eval: bucket 3 perplexity 33.36 global step 122000 learning rate 0.1409 step-time 0.14 perplexity 23.25 eval: bucket 0 perplexity 16.29 eval: bucket 1 perplexity 20.74 eval: bucket 2 perplexity 37.97 eval: bucket 3 perplexity 32.58 global step 122200 learning rate 0.1395 step-time 0.13 perplexity 22.91 eval: bucket 0 perplexity 16.78 eval: bucket 1 perplexity 40.01 eval: bucket 2 perplexity 24.62 eval: bucket 3 perplexity 22.18 global step 122400 learning rate 0.1395 step-time 0.13 perplexity 22.36 eval: bucket 0 perplexity 18.27 eval: bucket 1 perplexity 17.88 eval: bucket 2 perplexity 27.45 eval: bucket 3 perplexity 31.30 global step 122600 learning rate 0.1395 step-time 0.13 perplexity 22.99 eval: bucket 0 perplexity 25.73 eval: bucket 1 perplexity 30.84 eval: bucket 2 perplexity 21.00 eval: bucket 3 perplexity 25.17 global step 122800 learning rate 0.1395 step-time 0.13 perplexity 22.27 eval: bucket 0 perplexity 18.95 eval: bucket 1 perplexity 23.98 eval: bucket 2 perplexity 26.42 eval: bucket 3 perplexity 28.67 global step 123000 learning rate 0.1395 step-time 0.13 perplexity 22.74 eval: bucket 0 perplexity 20.86 eval: bucket 1 perplexity 28.30 eval: bucket 2 perplexity 34.84 eval: bucket 3 perplexity 49.17 global step 123200 learning rate 0.1395 step-time 0.14 perplexity 23.34 eval: bucket 0 perplexity 26.65 eval: bucket 1 perplexity 29.38 eval: bucket 2 perplexity 30.54 eval: bucket 3 perplexity 38.64 global step 123400 learning rate 0.1381 step-time 0.13 perplexity 22.06 eval: bucket 0 perplexity 34.54 eval: bucket 1 perplexity 26.87 eval: bucket 2 perplexity 30.97 eval: bucket 3 perplexity 45.90 global step 123600 learning rate 0.1381 step-time 0.13 perplexity 21.94 eval: bucket 0 perplexity 19.68 eval: bucket 1 perplexity 20.82 eval: bucket 2 perplexity 24.24 eval: bucket 3 perplexity 27.52 global step 123800 learning rate 0.1381 step-time 0.13 perplexity 23.37 eval: bucket 0 perplexity 17.06 eval: bucket 1 perplexity 19.13 eval: bucket 2 perplexity 40.75 eval: bucket 3 perplexity 41.22 global step 124000 learning rate 0.1367 step-time 0.13 perplexity 22.73 eval: bucket 0 perplexity 21.37 eval: bucket 1 perplexity 14.65 eval: bucket 2 perplexity 24.52 eval: bucket 3 perplexity 34.91 global step 124200 learning rate 0.1367 step-time 0.13 perplexity 22.78 eval: bucket 0 perplexity 17.58 eval: bucket 1 perplexity 22.39 eval: bucket 2 perplexity 23.98 eval: bucket 3 perplexity 54.66 global step 124400 learning rate 0.1367 step-time 0.13 perplexity 22.96 eval: bucket 0 perplexity 20.98 eval: bucket 1 perplexity 32.56 eval: bucket 2 perplexity 31.74 eval: bucket 3 perplexity 23.15 global step 124600 learning rate 0.1367 step-time 0.14 perplexity 22.52 eval: bucket 0 perplexity 20.22 eval: bucket 1 perplexity 27.61 eval: bucket 2 perplexity 41.97 eval: bucket 3 perplexity 36.54 global step 124800 learning rate 0.1367 step-time 0.13 perplexity 22.59 eval: bucket 0 perplexity 33.01 eval: bucket 1 perplexity 16.32 eval: bucket 2 perplexity 17.98 eval: bucket 3 perplexity 43.86 global step 125000 learning rate 0.1367 step-time 0.14 perplexity 22.64 eval: bucket 0 perplexity 16.54 eval: bucket 1 perplexity 28.77 eval: bucket 2 perplexity 26.74 eval: bucket 3 perplexity 40.36 global step 125200 learning rate 0.1367 step-time 0.13 perplexity 22.90 eval: bucket 0 perplexity 17.32 eval: bucket 1 perplexity 23.74 eval: bucket 2 perplexity 19.74 eval: bucket 3 perplexity 41.91 global step 125400 learning rate 0.1354 step-time 0.13 perplexity 21.88 eval: bucket 0 perplexity 19.95 eval: bucket 1 perplexity 28.03 eval: bucket 2 perplexity 36.27 eval: bucket 3 perplexity 33.27 global step 125600 learning rate 0.1354 step-time 0.13 perplexity 22.46 eval: bucket 0 perplexity 26.68 eval: bucket 1 perplexity 13.52 eval: bucket 2 perplexity 44.55 eval: bucket 3 perplexity 35.60 global step 125800 learning rate 0.1354 step-time 0.13 perplexity 23.06 eval: bucket 0 perplexity 19.77 eval: bucket 1 perplexity 22.78 eval: bucket 2 perplexity 34.38 eval: bucket 3 perplexity 29.55 global step 126000 learning rate 0.1340 step-time 0.13 perplexity 22.19 eval: bucket 0 perplexity 26.59 eval: bucket 1 perplexity 26.93 eval: bucket 2 perplexity 28.13 eval: bucket 3 perplexity 33.56 global step 126200 learning rate 0.1340 step-time 0.13 perplexity 22.45 eval: bucket 0 perplexity 25.10 eval: bucket 1 perplexity 28.11 eval: bucket 2 perplexity 33.38 eval: bucket 3 perplexity 42.65 global step 126400 learning rate 0.1340 step-time 0.13 perplexity 22.10 eval: bucket 0 perplexity 17.46 eval: bucket 1 perplexity 27.48 eval: bucket 2 perplexity 34.22 eval: bucket 3 perplexity 37.07 global step 126600 learning rate 0.1340 step-time 0.14 perplexity 23.29 eval: bucket 0 perplexity 13.26 eval: bucket 1 perplexity 25.06 eval: bucket 2 perplexity 29.49 eval: bucket 3 perplexity 34.10 global step 126800 learning rate 0.1327 step-time 0.13 perplexity 22.65 eval: bucket 0 perplexity 15.30 eval: bucket 1 perplexity 23.47 eval: bucket 2 perplexity 36.48 eval: bucket 3 perplexity 43.94 global step 127000 learning rate 0.1327 step-time 0.13 perplexity 23.00 eval: bucket 0 perplexity 16.10 eval: bucket 1 perplexity 23.29 eval: bucket 2 perplexity 39.80 eval: bucket 3 perplexity 30.00 global step 127200 learning rate 0.1327 step-time 0.12 perplexity 22.81 eval: bucket 0 perplexity 19.22 eval: bucket 1 perplexity 25.49 eval: bucket 2 perplexity 18.53 eval: bucket 3 perplexity 32.74 global step 127400 learning rate 0.1327 step-time 0.14 perplexity 22.26 eval: bucket 0 perplexity 19.35 eval: bucket 1 perplexity 17.37 eval: bucket 2 perplexity 20.72 eval: bucket 3 perplexity 55.59 global step 127600 learning rate 0.1327 step-time 0.12 perplexity 22.29 eval: bucket 0 perplexity 15.84 eval: bucket 1 perplexity 26.76 eval: bucket 2 perplexity 35.05 eval: bucket 3 perplexity 43.37 global step 127800 learning rate 0.1327 step-time 0.14 perplexity 22.25 eval: bucket 0 perplexity 23.75 eval: bucket 1 perplexity 23.85 eval: bucket 2 perplexity 20.26 eval: bucket 3 perplexity 30.99 global step 128000 learning rate 0.1327 step-time 0.13 perplexity 22.18 eval: bucket 0 perplexity 14.51 eval: bucket 1 perplexity 21.10 eval: bucket 2 perplexity 26.31 eval: bucket 3 perplexity 24.57 global step 128200 learning rate 0.1327 step-time 0.13 perplexity 22.20 eval: bucket 0 perplexity 22.48 eval: bucket 1 perplexity 21.02 eval: bucket 2 perplexity 22.64 eval: bucket 3 perplexity 35.25 global step 128400 learning rate 0.1327 step-time 0.13 perplexity 21.90 eval: bucket 0 perplexity 18.94 eval: bucket 1 perplexity 29.02 eval: bucket 2 perplexity 25.09 eval: bucket 3 perplexity 61.61 global step 128600 learning rate 0.1327 step-time 0.13 perplexity 23.18 eval: bucket 0 perplexity 30.53 eval: bucket 1 perplexity 25.15 eval: bucket 2 perplexity 32.80 eval: bucket 3 perplexity 35.66 global step 128800 learning rate 0.1314 step-time 0.13 perplexity 22.24 eval: bucket 0 perplexity 17.29 eval: bucket 1 perplexity 28.63 eval: bucket 2 perplexity 31.89 eval: bucket 3 perplexity 35.92 global step 129000 learning rate 0.1314 step-time 0.13 perplexity 22.21 eval: bucket 0 perplexity 17.94 eval: bucket 1 perplexity 21.80 eval: bucket 2 perplexity 34.72 eval: bucket 3 perplexity 44.38 global step 129200 learning rate 0.1314 step-time 0.12 perplexity 21.92 eval: bucket 0 perplexity 18.69 eval: bucket 1 perplexity 22.55 eval: bucket 2 perplexity 26.27 eval: bucket 3 perplexity 30.96 global step 129400 learning rate 0.1314 step-time 0.12 perplexity 22.64 eval: bucket 0 perplexity 19.08 eval: bucket 1 perplexity 17.23 eval: bucket 2 perplexity 39.63 eval: bucket 3 perplexity 27.18 global step 129600 learning rate 0.1300 step-time 0.13 perplexity 22.93 eval: bucket 0 perplexity 20.26 eval: bucket 1 perplexity 26.04 eval: bucket 2 perplexity 24.21 eval: bucket 3 perplexity 37.98 global step 129800 learning rate 0.1287 step-time 0.13 perplexity 22.03 eval: bucket 0 perplexity 20.45 eval: bucket 1 perplexity 20.94 eval: bucket 2 perplexity 27.30 eval: bucket 3 perplexity 20.84 global step 130000 learning rate 0.1287 step-time 0.13 perplexity 21.89 eval: bucket 0 perplexity 18.62 eval: bucket 1 perplexity 21.92 eval: bucket 2 perplexity 27.88 eval: bucket 3 perplexity 23.19 global step 130200 learning rate 0.1287 step-time 0.13 perplexity 23.01 eval: bucket 0 perplexity 17.50 eval: bucket 1 perplexity 25.55 eval: bucket 2 perplexity 23.35 eval: bucket 3 perplexity 23.27 global step 130400 learning rate 0.1275 step-time 0.14 perplexity 22.29 eval: bucket 0 perplexity 14.97 eval: bucket 1 perplexity 33.55 eval: bucket 2 perplexity 18.89 eval: bucket 3 perplexity 38.34 global step 130600 learning rate 0.1275 step-time 0.13 perplexity 23.47 eval: bucket 0 perplexity 21.51 eval: bucket 1 perplexity 26.71 eval: bucket 2 perplexity 28.65 eval: bucket 3 perplexity 30.71 global step 130800 learning rate 0.1262 step-time 0.14 perplexity 22.84 eval: bucket 0 perplexity 28.82 eval: bucket 1 perplexity 18.56 eval: bucket 2 perplexity 22.74 eval: bucket 3 perplexity 42.32 global step 131000 learning rate 0.1262 step-time 0.13 perplexity 22.33 eval: bucket 0 perplexity 27.31 eval: bucket 1 perplexity 23.08 eval: bucket 2 perplexity 42.88 eval: bucket 3 perplexity 46.23 global step 131200 learning rate 0.1262 step-time 0.13 perplexity 22.70 eval: bucket 0 perplexity 19.66 eval: bucket 1 perplexity 30.43 eval: bucket 2 perplexity 36.83 eval: bucket 3 perplexity 44.57 global step 131400 learning rate 0.1262 step-time 0.13 perplexity 22.29 eval: bucket 0 perplexity 13.20 eval: bucket 1 perplexity 27.87 eval: bucket 2 perplexity 23.70 eval: bucket 3 perplexity 33.57 global step 131600 learning rate 0.1262 step-time 0.13 perplexity 21.76 eval: bucket 0 perplexity 25.68 eval: bucket 1 perplexity 25.05 eval: bucket 2 perplexity 25.80 eval: bucket 3 perplexity 28.39 global step 131800 learning rate 0.1262 step-time 0.13 perplexity 22.73 eval: bucket 0 perplexity 26.61 eval: bucket 1 perplexity 21.00 eval: bucket 2 perplexity 21.16 eval: bucket 3 perplexity 22.43 global step 132000 learning rate 0.1249 step-time 0.13 perplexity 22.24 eval: bucket 0 perplexity 23.54 eval: bucket 1 perplexity 19.32 eval: bucket 2 perplexity 19.56 eval: bucket 3 perplexity 38.41 global step 132200 learning rate 0.1249 step-time 0.14 perplexity 22.54 eval: bucket 0 perplexity 27.39 eval: bucket 1 perplexity 19.85 eval: bucket 2 perplexity 21.84 eval: bucket 3 perplexity 39.49 global step 132400 learning rate 0.1249 step-time 0.14 perplexity 23.26 eval: bucket 0 perplexity 19.41 eval: bucket 1 perplexity 15.54 eval: bucket 2 perplexity 38.61 eval: bucket 3 perplexity 38.33 global step 132600 learning rate 0.1237 step-time 0.13 perplexity 22.54 eval: bucket 0 perplexity 28.20 eval: bucket 1 perplexity 22.70 eval: bucket 2 perplexity 30.22 eval: bucket 3 perplexity 30.94 global step 132800 learning rate 0.1237 step-time 0.13 perplexity 22.10 eval: bucket 0 perplexity 21.39 eval: bucket 1 perplexity 18.21 eval: bucket 2 perplexity 20.97 eval: bucket 3 perplexity 31.68 global step 133000 learning rate 0.1237 step-time 0.13 perplexity 22.53 eval: bucket 0 perplexity 16.26 eval: bucket 1 perplexity 21.37 eval: bucket 2 perplexity 24.10 eval: bucket 3 perplexity 28.82 global step 133200 learning rate 0.1237 step-time 0.13 perplexity 21.56 eval: bucket 0 perplexity 26.60 eval: bucket 1 perplexity 47.85 eval: bucket 2 perplexity 20.01 eval: bucket 3 perplexity 51.22 global step 133400 learning rate 0.1237 step-time 0.13 perplexity 22.47 eval: bucket 0 perplexity 20.17 eval: bucket 1 perplexity 16.77 eval: bucket 2 perplexity 45.77 eval: bucket 3 perplexity 37.41 global step 133600 learning rate 0.1237 step-time 0.14 perplexity 22.38 eval: bucket 0 perplexity 20.51 eval: bucket 1 perplexity 31.75 eval: bucket 2 perplexity 27.99 eval: bucket 3 perplexity 33.72 global step 133800 learning rate 0.1237 step-time 0.13 perplexity 21.94 eval: bucket 0 perplexity 20.76 eval: bucket 1 perplexity 19.10 eval: bucket 2 perplexity 26.11 eval: bucket 3 perplexity 41.42 global step 134000 learning rate 0.1237 step-time 0.14 perplexity 22.57 eval: bucket 0 perplexity 13.19 eval: bucket 1 perplexity 23.17 eval: bucket 2 perplexity 24.05 eval: bucket 3 perplexity 36.78 global step 134200 learning rate 0.1224 step-time 0.13 perplexity 21.99 eval: bucket 0 perplexity 19.59 eval: bucket 1 perplexity 20.28 eval: bucket 2 perplexity 20.26 eval: bucket 3 perplexity 43.16 global step 134400 learning rate 0.1224 step-time 0.13 perplexity 22.24 eval: bucket 0 perplexity 24.36 eval: bucket 1 perplexity 23.71 eval: bucket 2 perplexity 32.39 eval: bucket 3 perplexity 55.42 global step 134600 learning rate 0.1224 step-time 0.13 perplexity 22.17 eval: bucket 0 perplexity 27.29 eval: bucket 1 perplexity 23.22 eval: bucket 2 perplexity 27.73 eval: bucket 3 perplexity 29.93 global step 134800 learning rate 0.1224 step-time 0.13 perplexity 22.12 eval: bucket 0 perplexity 20.32 eval: bucket 1 perplexity 30.87 eval: bucket 2 perplexity 28.39 eval: bucket 3 perplexity 66.84 global step 135000 learning rate 0.1224 step-time 0.13 perplexity 22.72 eval: bucket 0 perplexity 20.20 eval: bucket 1 perplexity 34.94 eval: bucket 2 perplexity 27.14 eval: bucket 3 perplexity 28.54 global step 135200 learning rate 0.1212 step-time 0.12 perplexity 22.00 eval: bucket 0 perplexity 24.47 eval: bucket 1 perplexity 26.18 eval: bucket 2 perplexity 28.50 eval: bucket 3 perplexity 28.78 global step 135400 learning rate 0.1212 step-time 0.13 perplexity 21.68 eval: bucket 0 perplexity 18.15 eval: bucket 1 perplexity 31.33 eval: bucket 2 perplexity 39.59 eval: bucket 3 perplexity 42.28 global step 135600 learning rate 0.1212 step-time 0.13 perplexity 22.14 eval: bucket 0 perplexity 24.24 eval: bucket 1 perplexity 18.46 eval: bucket 2 perplexity 41.48 eval: bucket 3 perplexity 34.88 global step 135800 learning rate 0.1212 step-time 0.13 perplexity 21.89 eval: bucket 0 perplexity 18.02 eval: bucket 1 perplexity 36.21 eval: bucket 2 perplexity 30.20 eval: bucket 3 perplexity 40.94 global step 136000 learning rate 0.1212 step-time 0.14 perplexity 22.56 eval: bucket 0 perplexity 20.31 eval: bucket 1 perplexity 23.80 eval: bucket 2 perplexity 24.39 eval: bucket 3 perplexity 20.76 global step 136200 learning rate 0.1200 step-time 0.13 perplexity 22.36 eval: bucket 0 perplexity 20.37 eval: bucket 1 perplexity 37.38 eval: bucket 2 perplexity 24.47 eval: bucket 3 perplexity 34.99 global step 136400 learning rate 0.1200 step-time 0.13 perplexity 21.97 eval: bucket 0 perplexity 21.29 eval: bucket 1 perplexity 23.59 eval: bucket 2 perplexity 23.00 eval: bucket 3 perplexity 39.80 global step 136600 learning rate 0.1200 step-time 0.13 perplexity 22.02 eval: bucket 0 perplexity 21.59 eval: bucket 1 perplexity 16.98 eval: bucket 2 perplexity 26.83 eval: bucket 3 perplexity 22.54 global step 136800 learning rate 0.1200 step-time 0.14 perplexity 21.99 eval: bucket 0 perplexity 26.97 eval: bucket 1 perplexity 26.17 eval: bucket 2 perplexity 22.12 eval: bucket 3 perplexity 25.38 global step 137000 learning rate 0.1200 step-time 0.13 perplexity 22.16 eval: bucket 0 perplexity 15.02 eval: bucket 1 perplexity 19.79 eval: bucket 2 perplexity 37.20 eval: bucket 3 perplexity 53.84 global step 137200 learning rate 0.1188 step-time 0.13 perplexity 22.37 eval: bucket 0 perplexity 35.07 eval: bucket 1 perplexity 19.99 eval: bucket 2 perplexity 21.33 eval: bucket 3 perplexity 23.33 global step 137400 learning rate 0.1176 step-time 0.13 perplexity 21.79 eval: bucket 0 perplexity 33.83 eval: bucket 1 perplexity 40.70 eval: bucket 2 perplexity 41.90 eval: bucket 3 perplexity 32.21 global step 137600 learning rate 0.1176 step-time 0.14 perplexity 22.20 eval: bucket 0 perplexity 27.04 eval: bucket 1 perplexity 27.81 eval: bucket 2 perplexity 28.12 eval: bucket 3 perplexity 27.82 global step 137800 learning rate 0.1176 step-time 0.13 perplexity 21.94 eval: bucket 0 perplexity 26.69 eval: bucket 1 perplexity 28.32 eval: bucket 2 perplexity 21.04 eval: bucket 3 perplexity 28.95 global step 138000 learning rate 0.1176 step-time 0.13 perplexity 21.50 eval: bucket 0 perplexity 22.89 eval: bucket 1 perplexity 29.59 eval: bucket 2 perplexity 21.99 eval: bucket 3 perplexity 33.72 global step 138200 learning rate 0.1176 step-time 0.14 perplexity 22.61 eval: bucket 0 perplexity 18.85 eval: bucket 1 perplexity 33.30 eval: bucket 2 perplexity 39.19 eval: bucket 3 perplexity 39.73 global step 138400 learning rate 0.1164 step-time 0.13 perplexity 21.61 eval: bucket 0 perplexity 18.57 eval: bucket 1 perplexity 22.46 eval: bucket 2 perplexity 34.89 eval: bucket 3 perplexity 38.94 global step 138600 learning rate 0.1164 step-time 0.13 perplexity 21.36 eval: bucket 0 perplexity 29.16 eval: bucket 1 perplexity 16.43 eval: bucket 2 perplexity 33.11 eval: bucket 3 perplexity 41.89 global step 138800 learning rate 0.1164 step-time 0.14 perplexity 22.00 eval: bucket 0 perplexity 21.28 eval: bucket 1 perplexity 25.67 eval: bucket 2 perplexity 27.06 eval: bucket 3 perplexity 41.19 global step 139000 learning rate 0.1164 step-time 0.12 perplexity 21.71 eval: bucket 0 perplexity 28.56 eval: bucket 1 perplexity 24.34 eval: bucket 2 perplexity 25.45 eval: bucket 3 perplexity 39.65 global step 139200 learning rate 0.1164 step-time 0.13 perplexity 21.89 eval: bucket 0 perplexity 24.31 eval: bucket 1 perplexity 24.71 eval: bucket 2 perplexity 17.75 eval: bucket 3 perplexity 35.80 global step 139400 learning rate 0.1164 step-time 0.13 perplexity 21.90 eval: bucket 0 perplexity 22.94 eval: bucket 1 perplexity 20.75 eval: bucket 2 perplexity 26.17 eval: bucket 3 perplexity 29.18 global step 139600 learning rate 0.1164 step-time 0.13 perplexity 21.60 eval: bucket 0 perplexity 19.83 eval: bucket 1 perplexity 27.95 eval: bucket 2 perplexity 30.15 eval: bucket 3 perplexity 29.04 global step 139800 learning rate 0.1164 step-time 0.13 perplexity 21.19 eval: bucket 0 perplexity 21.58 eval: bucket 1 perplexity 21.15 eval: bucket 2 perplexity 22.68 eval: bucket 3 perplexity 43.41 global step 140000 learning rate 0.1164 step-time 0.13 perplexity 21.74 eval: bucket 0 perplexity 25.81 eval: bucket 1 perplexity 28.62 eval: bucket 2 perplexity 29.88 eval: bucket 3 perplexity 34.66 global step 140200 learning rate 0.1164 step-time 0.13 perplexity 21.41 eval: bucket 0 perplexity 18.65 eval: bucket 1 perplexity 32.91 eval: bucket 2 perplexity 23.74 eval: bucket 3 perplexity 38.01 global step 140400 learning rate 0.1164 step-time 0.13 perplexity 21.54 eval: bucket 0 perplexity 16.59 eval: bucket 1 perplexity 26.10 eval: bucket 2 perplexity 36.20 eval: bucket 3 perplexity 30.90 global step 140600 learning rate 0.1164 step-time 0.13 perplexity 22.24 eval: bucket 0 perplexity 19.97 eval: bucket 1 perplexity 19.71 eval: bucket 2 perplexity 28.71 eval: bucket 3 perplexity 32.05 global step 140800 learning rate 0.1153 step-time 0.14 perplexity 22.58 eval: bucket 0 perplexity 20.32 eval: bucket 1 perplexity 38.34 eval: bucket 2 perplexity 37.16 eval: bucket 3 perplexity 24.74 global step 141000 learning rate 0.1141 step-time 0.13 perplexity 21.37 eval: bucket 0 perplexity 25.61 eval: bucket 1 perplexity 24.43 eval: bucket 2 perplexity 29.27 eval: bucket 3 perplexity 34.80 global step 141200 learning rate 0.1141 step-time 0.12 perplexity 21.69 eval: bucket 0 perplexity 26.30 eval: bucket 1 perplexity 27.74 eval: bucket 2 perplexity 24.69 eval: bucket 3 perplexity 41.07 global step 141400 learning rate 0.1141 step-time 0.14 perplexity 21.73 eval: bucket 0 perplexity 27.40 eval: bucket 1 perplexity 32.42 eval: bucket 2 perplexity 21.69 eval: bucket 3 perplexity 41.64 global step 141600 learning rate 0.1141 step-time 0.13 perplexity 21.94 eval: bucket 0 perplexity 13.75 eval: bucket 1 perplexity 32.59 eval: bucket 2 perplexity 21.84 eval: bucket 3 perplexity 37.13 global step 141800 learning rate 0.1130 step-time 0.13 perplexity 22.61 eval: bucket 0 perplexity 25.54 eval: bucket 1 perplexity 30.62 eval: bucket 2 perplexity 31.97 eval: bucket 3 perplexity 38.16 global step 142000 learning rate 0.1118 step-time 0.14 perplexity 22.15 eval: bucket 0 perplexity 13.72 eval: bucket 1 perplexity 13.09 eval: bucket 2 perplexity 37.06 eval: bucket 3 perplexity 29.26 global step 142200 learning rate 0.1118 step-time 0.13 perplexity 21.61 eval: bucket 0 perplexity 17.46 eval: bucket 1 perplexity 24.21 eval: bucket 2 perplexity 20.02 eval: bucket 3 perplexity 42.44 global step 142400 learning rate 0.1118 step-time 0.14 perplexity 22.75 eval: bucket 0 perplexity 15.66 eval: bucket 1 perplexity 18.68 eval: bucket 2 perplexity 34.74 eval: bucket 3 perplexity 29.16 global step 142600 learning rate 0.1107 step-time 0.14 perplexity 22.07 eval: bucket 0 perplexity 14.65 eval: bucket 1 perplexity 19.58 eval: bucket 2 perplexity 40.25 eval: bucket 3 perplexity 37.89 global step 142800 learning rate 0.1107 step-time 0.13 perplexity 21.36 eval: bucket 0 perplexity 21.75 eval: bucket 1 perplexity 32.35 eval: bucket 2 perplexity 43.31 eval: bucket 3 perplexity 25.01 global step 143000 learning rate 0.1107 step-time 0.14 perplexity 21.94 eval: bucket 0 perplexity 14.29 eval: bucket 1 perplexity 26.31 eval: bucket 2 perplexity 30.23 eval: bucket 3 perplexity 35.80 global step 143200 learning rate 0.1107 step-time 0.13 perplexity 21.46 eval: bucket 0 perplexity 18.63 eval: bucket 1 perplexity 23.87 eval: bucket 2 perplexity 25.65 eval: bucket 3 perplexity 39.93 global step 143400 learning rate 0.1107 step-time 0.13 perplexity 21.76 eval: bucket 0 perplexity 24.40 eval: bucket 1 perplexity 21.25 eval: bucket 2 perplexity 24.06 eval: bucket 3 perplexity 33.84 global step 143600 learning rate 0.1107 step-time 0.13 perplexity 21.79 eval: bucket 0 perplexity 18.26 eval: bucket 1 perplexity 17.71 eval: bucket 2 perplexity 23.62 eval: bucket 3 perplexity 24.42 global step 143800 learning rate 0.1107 step-time 0.14 perplexity 21.94 eval: bucket 0 perplexity 25.14 eval: bucket 1 perplexity 29.71 eval: bucket 2 perplexity 27.61 eval: bucket 3 perplexity 31.78 global step 144000 learning rate 0.1096 step-time 0.12 perplexity 21.28 eval: bucket 0 perplexity 13.03 eval: bucket 1 perplexity 19.13 eval: bucket 2 perplexity 38.23 eval: bucket 3 perplexity 33.17 global step 144200 learning rate 0.1096 step-time 0.14 perplexity 22.28 eval: bucket 0 perplexity 13.19 eval: bucket 1 perplexity 20.55 eval: bucket 2 perplexity 30.26 eval: bucket 3 perplexity 33.08 global step 144400 learning rate 0.1085 step-time 0.13 perplexity 21.87 eval: bucket 0 perplexity 22.12 eval: bucket 1 perplexity 35.53 eval: bucket 2 perplexity 21.84 eval: bucket 3 perplexity 33.47 global step 144600 learning rate 0.1085 step-time 0.14 perplexity 22.18 eval: bucket 0 perplexity 28.20 eval: bucket 1 perplexity 27.12 eval: bucket 2 perplexity 30.40 eval: bucket 3 perplexity 21.62 global step 144800 learning rate 0.1085 step-time 0.13 perplexity 22.10 eval: bucket 0 perplexity 34.71 eval: bucket 1 perplexity 23.17 eval: bucket 2 perplexity 28.92 eval: bucket 3 perplexity 28.58 global step 145000 learning rate 0.1085 step-time 0.14 perplexity 21.28 eval: bucket 0 perplexity 18.29 eval: bucket 1 perplexity 16.11 eval: bucket 2 perplexity 28.76 eval: bucket 3 perplexity 29.16 global step 145200 learning rate 0.1085 step-time 0.12 perplexity 21.30 eval: bucket 0 perplexity 25.35 eval: bucket 1 perplexity 25.15 eval: bucket 2 perplexity 21.86 eval: bucket 3 perplexity 35.28 global step 145400 learning rate 0.1085 step-time 0.13 perplexity 21.77 eval: bucket 0 perplexity 23.46 eval: bucket 1 perplexity 33.12 eval: bucket 2 perplexity 30.34 eval: bucket 3 perplexity 38.15 global step 145600 learning rate 0.1085 step-time 0.13 perplexity 21.11 eval: bucket 0 perplexity 15.88 eval: bucket 1 perplexity 21.15 eval: bucket 2 perplexity 33.87 eval: bucket 3 perplexity 24.75 global step 145800 learning rate 0.1085 step-time 0.13 perplexity 21.98 eval: bucket 0 perplexity 27.32 eval: bucket 1 perplexity 21.58 eval: bucket 2 perplexity 20.26 eval: bucket 3 perplexity 36.15 global step 146000 learning rate 0.1074 step-time 0.13 perplexity 21.30 eval: bucket 0 perplexity 18.25 eval: bucket 1 perplexity 25.53 eval: bucket 2 perplexity 30.22 eval: bucket 3 perplexity 35.05 global step 146200 learning rate 0.1074 step-time 0.13 perplexity 22.49 eval: bucket 0 perplexity 16.28 eval: bucket 1 perplexity 29.01 eval: bucket 2 perplexity 30.09 eval: bucket 3 perplexity 35.58 global step 146400 learning rate 0.1064 step-time 0.13 perplexity 21.58 eval: bucket 0 perplexity 25.61 eval: bucket 1 perplexity 24.71 eval: bucket 2 perplexity 26.03 eval: bucket 3 perplexity 28.17 global step 146600 learning rate 0.1064 step-time 0.13 perplexity 21.64 eval: bucket 0 perplexity 25.76 eval: bucket 1 perplexity 31.91 eval: bucket 2 perplexity 33.42 eval: bucket 3 perplexity 27.92 global step 146800 learning rate 0.1064 step-time 0.14 perplexity 21.82 eval: bucket 0 perplexity 15.22 eval: bucket 1 perplexity 21.42 eval: bucket 2 perplexity 26.30 eval: bucket 3 perplexity 30.83 global step 147000 learning rate 0.1064 step-time 0.13 perplexity 21.88 eval: bucket 0 perplexity 16.88 eval: bucket 1 perplexity 17.18 eval: bucket 2 perplexity 24.58 eval: bucket 3 perplexity 31.60 global step 147200 learning rate 0.1053 step-time 0.13 perplexity 21.67 eval: bucket 0 perplexity 24.76 eval: bucket 1 perplexity 23.26 eval: bucket 2 perplexity 27.08 eval: bucket 3 perplexity 50.26 global step 147400 learning rate 0.1053 step-time 0.15 perplexity 21.89 eval: bucket 0 perplexity 22.79 eval: bucket 1 perplexity 30.39 eval: bucket 2 perplexity 19.71 eval: bucket 3 perplexity 41.31 global step 147600 learning rate 0.1042 step-time 0.13 perplexity 21.79 eval: bucket 0 perplexity 18.52 eval: bucket 1 perplexity 22.72 eval: bucket 2 perplexity 19.19 eval: bucket 3 perplexity 49.75 global step 147800 learning rate 0.1042 step-time 0.13 perplexity 22.24 eval: bucket 0 perplexity 18.40 eval: bucket 1 perplexity 30.30 eval: bucket 2 perplexity 34.74 eval: bucket 3 perplexity 41.47 global step 148000 learning rate 0.1032 step-time 0.13 perplexity 22.37 eval: bucket 0 perplexity 19.38 eval: bucket 1 perplexity 17.14 eval: bucket 2 perplexity 29.00 eval: bucket 3 perplexity 31.02 global step 148200 learning rate 0.1022 step-time 0.13 perplexity 21.42 eval: bucket 0 perplexity 26.63 eval: bucket 1 perplexity 29.32 eval: bucket 2 perplexity 27.47 eval: bucket 3 perplexity 29.51 global step 148400 learning rate 0.1022 step-time 0.13 perplexity 21.47 eval: bucket 0 perplexity 27.42 eval: bucket 1 perplexity 22.17 eval: bucket 2 perplexity 29.77 eval: bucket 3 perplexity 22.69 global step 148600 learning rate 0.1022 step-time 0.13 perplexity 21.94 eval: bucket 0 perplexity 16.31 eval: bucket 1 perplexity 34.58 eval: bucket 2 perplexity 40.77 eval: bucket 3 perplexity 23.64 global step 148800 learning rate 0.1022 step-time 0.14 perplexity 21.25 eval: bucket 0 perplexity 17.75 eval: bucket 1 perplexity 23.47 eval: bucket 2 perplexity 30.09 eval: bucket 3 perplexity 24.29 global step 149000 learning rate 0.1022 step-time 0.12 perplexity 20.86 eval: bucket 0 perplexity 22.46 eval: bucket 1 perplexity 20.08 eval: bucket 2 perplexity 22.80 eval: bucket 3 perplexity 36.26 global step 149200 learning rate 0.1022 step-time 0.12 perplexity 21.26 eval: bucket 0 perplexity 26.55 eval: bucket 1 perplexity 24.76 eval: bucket 2 perplexity 23.39 eval: bucket 3 perplexity 34.74 global step 149400 learning rate 0.1022 step-time 0.13 perplexity 21.25 eval: bucket 0 perplexity 23.57 eval: bucket 1 perplexity 35.07 eval: bucket 2 perplexity 34.50 eval: bucket 3 perplexity 26.32 global step 149600 learning rate 0.1022 step-time 0.13 perplexity 21.80 eval: bucket 0 perplexity 11.80 eval: bucket 1 perplexity 20.82 eval: bucket 2 perplexity 30.92 eval: bucket 3 perplexity 28.51 global step 149800 learning rate 0.1012 step-time 0.14 perplexity 22.22 eval: bucket 0 perplexity 19.86 eval: bucket 1 perplexity 17.37 eval: bucket 2 perplexity 24.70 eval: bucket 3 perplexity 48.59 global step 150000 learning rate 0.1001 step-time 0.13 perplexity 21.73 eval: bucket 0 perplexity 30.20 eval: bucket 1 perplexity 22.16 eval: bucket 2 perplexity 32.46 eval: bucket 3 perplexity 24.87 global step 150200 learning rate 0.1001 step-time 0.13 perplexity 21.18 eval: bucket 0 perplexity 31.37 eval: bucket 1 perplexity 25.65 eval: bucket 2 perplexity 24.31 eval: bucket 3 perplexity 38.70 global step 150400 learning rate 0.1001 step-time 0.12 perplexity 20.88 eval: bucket 0 perplexity 20.27 eval: bucket 1 perplexity 34.69 eval: bucket 2 perplexity 36.23 eval: bucket 3 perplexity 34.30 global step 150600 learning rate 0.1001 step-time 0.14 perplexity 21.98 eval: bucket 0 perplexity 17.59 eval: bucket 1 perplexity 23.99 eval: bucket 2 perplexity 25.91 eval: bucket 3 perplexity 42.58 global step 150800 learning rate 0.0991 step-time 0.12 perplexity 20.67 eval: bucket 0 perplexity 35.04 eval: bucket 1 perplexity 27.47 eval: bucket 2 perplexity 27.81 eval: bucket 3 perplexity 29.36 global step 151000 learning rate 0.0991 step-time 0.13 perplexity 21.13 eval: bucket 0 perplexity 21.14 eval: bucket 1 perplexity 15.03 eval: bucket 2 perplexity 31.59 eval: bucket 3 perplexity 28.87 global step 151200 learning rate 0.0991 step-time 0.13 perplexity 21.12 eval: bucket 0 perplexity 26.04 eval: bucket 1 perplexity 31.36 eval: bucket 2 perplexity 31.11 eval: bucket 3 perplexity 32.61 global step 151400 learning rate 0.0991 step-time 0.12 perplexity 21.06 eval: bucket 0 perplexity 14.16 eval: bucket 1 perplexity 19.79 eval: bucket 2 perplexity 22.06 eval: bucket 3 perplexity 40.81 global step 151600 learning rate 0.0991 step-time 0.13 perplexity 21.26 eval: bucket 0 perplexity 16.22 eval: bucket 1 perplexity 20.08 eval: bucket 2 perplexity 28.17 eval: bucket 3 perplexity 31.19 global step 151800 learning rate 0.0981 step-time 0.14 perplexity 21.90 eval: bucket 0 perplexity 36.23 eval: bucket 1 perplexity 19.78 eval: bucket 2 perplexity 28.50 eval: bucket 3 perplexity 30.96 global step 152000 learning rate 0.0972 step-time 0.13 perplexity 21.39 eval: bucket 0 perplexity 16.17 eval: bucket 1 perplexity 20.02 eval: bucket 2 perplexity 38.76 eval: bucket 3 perplexity 35.37 global step 152200 learning rate 0.0972 step-time 0.13 perplexity 20.93 eval: bucket 0 perplexity 19.93 eval: bucket 1 perplexity 30.87 eval: bucket 2 perplexity 28.09 eval: bucket 3 perplexity 42.35 global step 152400 learning rate 0.0972 step-time 0.13 perplexity 20.84 eval: bucket 0 perplexity 16.44 eval: bucket 1 perplexity 25.32 eval: bucket 2 perplexity 30.10 eval: bucket 3 perplexity 42.44 global step 152600 learning rate 0.0972 step-time 0.13 perplexity 21.07 eval: bucket 0 perplexity 23.74 eval: bucket 1 perplexity 22.84 eval: bucket 2 perplexity 28.92 eval: bucket 3 perplexity 34.37 global step 152800 learning rate 0.0972 step-time 0.13 perplexity 20.95 eval: bucket 0 perplexity 31.60 eval: bucket 1 perplexity 17.82 eval: bucket 2 perplexity 24.54 eval: bucket 3 perplexity 22.46 global step 153000 learning rate 0.0972 step-time 0.14 perplexity 21.76 eval: bucket 0 perplexity 20.98 eval: bucket 1 perplexity 19.98 eval: bucket 2 perplexity 26.57 eval: bucket 3 perplexity 23.78 global step 153200 learning rate 0.0962 step-time 0.13 perplexity 21.30 eval: bucket 0 perplexity 26.58 eval: bucket 1 perplexity 35.78 eval: bucket 2 perplexity 22.81 eval: bucket 3 perplexity 20.66 global step 153400 learning rate 0.0962 step-time 0.13 perplexity 21.39 eval: bucket 0 perplexity 24.44 eval: bucket 1 perplexity 20.23 eval: bucket 2 perplexity 28.91 eval: bucket 3 perplexity 41.66 global step 153600 learning rate 0.0962 step-time 0.13 perplexity 21.00 eval: bucket 0 perplexity 23.05 eval: bucket 1 perplexity 21.27 eval: bucket 2 perplexity 24.03 eval: bucket 3 perplexity 31.83 global step 153800 learning rate 0.0962 step-time 0.13 perplexity 21.06 eval: bucket 0 perplexity 21.32 eval: bucket 1 perplexity 21.89 eval: bucket 2 perplexity 23.53 eval: bucket 3 perplexity 31.72 global step 154000 learning rate 0.0962 step-time 0.12 perplexity 21.15 eval: bucket 0 perplexity 17.35 eval: bucket 1 perplexity 16.16 eval: bucket 2 perplexity 31.65 eval: bucket 3 perplexity 29.40 global step 154200 learning rate 0.0962 step-time 0.14 perplexity 21.14 eval: bucket 0 perplexity 23.59 eval: bucket 1 perplexity 18.85 eval: bucket 2 perplexity 30.62 eval: bucket 3 perplexity 26.66 global step 154400 learning rate 0.0962 step-time 0.14 perplexity 21.65 eval: bucket 0 perplexity 29.66 eval: bucket 1 perplexity 18.35 eval: bucket 2 perplexity 37.91 eval: bucket 3 perplexity 50.52 global step 154600 learning rate 0.0952 step-time 0.12 perplexity 21.19 eval: bucket 0 perplexity 13.83 eval: bucket 1 perplexity 19.53 eval: bucket 2 perplexity 30.20 eval: bucket 3 perplexity 38.99 global step 154800 learning rate 0.0952 step-time 0.14 perplexity 21.38 eval: bucket 0 perplexity 22.02 eval: bucket 1 perplexity 19.31 eval: bucket 2 perplexity 32.63 eval: bucket 3 perplexity 27.60 global step 155000 learning rate 0.0952 step-time 0.13 perplexity 21.19 eval: bucket 0 perplexity 22.55 eval: bucket 1 perplexity 24.69 eval: bucket 2 perplexity 31.63 eval: bucket 3 perplexity 21.02 global step 155200 learning rate 0.0952 step-time 0.13 perplexity 21.82 eval: bucket 0 perplexity 25.29 eval: bucket 1 perplexity 23.18 eval: bucket 2 perplexity 27.22 eval: bucket 3 perplexity 30.79 global step 155400 learning rate 0.0943 step-time 0.13 perplexity 20.77 eval: bucket 0 perplexity 22.93 eval: bucket 1 perplexity 27.82 eval: bucket 2 perplexity 23.89 eval: bucket 3 perplexity 38.82 global step 155600 learning rate 0.0943 step-time 0.13 perplexity 21.51 eval: bucket 0 perplexity 19.21 eval: bucket 1 perplexity 21.11 eval: bucket 2 perplexity 30.96 eval: bucket 3 perplexity 30.63 global step 155800 learning rate 0.0943 step-time 0.13 perplexity 21.48 eval: bucket 0 perplexity 15.72 eval: bucket 1 perplexity 23.34 eval: bucket 2 perplexity 21.42 eval: bucket 3 perplexity 30.24 global step 156000 learning rate 0.0943 step-time 0.12 perplexity 20.39 eval: bucket 0 perplexity 20.56 eval: bucket 1 perplexity 22.10 eval: bucket 2 perplexity 29.48 eval: bucket 3 perplexity 30.86 global step 156200 learning rate 0.0943 step-time 0.13 perplexity 20.50 eval: bucket 0 perplexity 30.44 eval: bucket 1 perplexity 16.24 eval: bucket 2 perplexity 19.46 eval: bucket 3 perplexity 30.30 global step 156400 learning rate 0.0943 step-time 0.13 perplexity 21.68 eval: bucket 0 perplexity 20.27 eval: bucket 1 perplexity 34.54 eval: bucket 2 perplexity 24.02 eval: bucket 3 perplexity 37.31 global step 156600 learning rate 0.0933 step-time 0.13 perplexity 21.27 eval: bucket 0 perplexity 22.23 eval: bucket 1 perplexity 24.93 eval: bucket 2 perplexity 23.49 eval: bucket 3 perplexity 29.18 global step 156800 learning rate 0.0933 step-time 0.13 perplexity 21.28 eval: bucket 0 perplexity 24.35 eval: bucket 1 perplexity 28.01 eval: bucket 2 perplexity 30.95 eval: bucket 3 perplexity 34.28 global step 157000 learning rate 0.0933 step-time 0.12 perplexity 20.97 eval: bucket 0 perplexity 15.03 eval: bucket 1 perplexity 35.37 eval: bucket 2 perplexity 23.55 eval: bucket 3 perplexity 38.39 global step 157200 learning rate 0.0933 step-time 0.14 perplexity 21.86 eval: bucket 0 perplexity 24.78 eval: bucket 1 perplexity 23.07 eval: bucket 2 perplexity 32.78 eval: bucket 3 perplexity 39.82 global step 157400 learning rate 0.0924 step-time 0.14 perplexity 21.29 eval: bucket 0 perplexity 11.62 eval: bucket 1 perplexity 16.46 eval: bucket 2 perplexity 33.97 eval: bucket 3 perplexity 47.44 global step 157600 learning rate 0.0924 step-time 0.13 perplexity 20.82 eval: bucket 0 perplexity 17.27 eval: bucket 1 perplexity 32.13 eval: bucket 2 perplexity 41.13 eval: bucket 3 perplexity 37.72 global step 157800 learning rate 0.0924 step-time 0.12 perplexity 20.84 eval: bucket 0 perplexity 14.04 eval: bucket 1 perplexity 18.01 eval: bucket 2 perplexity 30.29 eval: bucket 3 perplexity 49.17 global step 158000 learning rate 0.0924 step-time 0.13 perplexity 21.38 eval: bucket 0 perplexity 18.55 eval: bucket 1 perplexity 16.74 eval: bucket 2 perplexity 35.88 eval: bucket 3 perplexity 49.83 global step 158200 learning rate 0.0915 step-time 0.13 perplexity 21.08 eval: bucket 0 perplexity 23.78 eval: bucket 1 perplexity 24.73 eval: bucket 2 perplexity 25.91 eval: bucket 3 perplexity 45.87 global step 158400 learning rate 0.0915 step-time 0.14 perplexity 21.47 eval: bucket 0 perplexity 22.85 eval: bucket 1 perplexity 28.88 eval: bucket 2 perplexity 18.94 eval: bucket 3 perplexity 23.50 global step 158600 learning rate 0.0906 step-time 0.13 perplexity 21.21 eval: bucket 0 perplexity 21.55 eval: bucket 1 perplexity 26.40 eval: bucket 2 perplexity 25.85 eval: bucket 3 perplexity 33.29 global step 158800 learning rate 0.0906 step-time 0.13 perplexity 21.37 eval: bucket 0 perplexity 32.20 eval: bucket 1 perplexity 25.03 eval: bucket 2 perplexity 38.07 eval: bucket 3 perplexity 30.40 global step 159000 learning rate 0.0906 step-time 0.13 perplexity 21.34 eval: bucket 0 perplexity 19.06 eval: bucket 1 perplexity 31.97 eval: bucket 2 perplexity 22.44 eval: bucket 3 perplexity 34.90 global step 159200 learning rate 0.0906 step-time 0.14 perplexity 21.52 eval: bucket 0 perplexity 27.58 eval: bucket 1 perplexity 17.29 eval: bucket 2 perplexity 34.86 eval: bucket 3 perplexity 27.38 global step 159400 learning rate 0.0897 step-time 0.13 perplexity 21.07 eval: bucket 0 perplexity 33.43 eval: bucket 1 perplexity 26.49 eval: bucket 2 perplexity 31.93 eval: bucket 3 perplexity 27.54 global step 159600 learning rate 0.0897 step-time 0.12 perplexity 20.34 eval: bucket 0 perplexity 18.27 eval: bucket 1 perplexity 16.51 eval: bucket 2 perplexity 29.22 eval: bucket 3 perplexity 53.75 global step 159800 learning rate 0.0897 step-time 0.13 perplexity 21.09 eval: bucket 0 perplexity 16.23 eval: bucket 1 perplexity 19.76 eval: bucket 2 perplexity 22.85 eval: bucket 3 perplexity 39.65 global step 160000 learning rate 0.0897 step-time 0.13 perplexity 21.66 eval: bucket 0 perplexity 16.61 eval: bucket 1 perplexity 23.53 eval: bucket 2 perplexity 27.13 eval: bucket 3 perplexity 44.57 global step 160200 learning rate 0.0888 step-time 0.13 perplexity 21.68 eval: bucket 0 perplexity 15.97 eval: bucket 1 perplexity 18.18 eval: bucket 2 perplexity 32.90 eval: bucket 3 perplexity 23.95 global step 160400 learning rate 0.0879 step-time 0.13 perplexity 20.56 eval: bucket 0 perplexity 16.92 eval: bucket 1 perplexity 26.17 eval: bucket 2 perplexity 23.02 eval: bucket 3 perplexity 32.64 global step 160600 learning rate 0.0879 step-time 0.14 perplexity 21.29 eval: bucket 0 perplexity 25.33 eval: bucket 1 perplexity 22.11 eval: bucket 2 perplexity 27.24 eval: bucket 3 perplexity 29.32 global step 160800 learning rate 0.0879 step-time 0.13 perplexity 20.92 eval: bucket 0 perplexity 18.23 eval: bucket 1 perplexity 25.54 eval: bucket 2 perplexity 35.40 eval: bucket 3 perplexity 35.95 global step 161000 learning rate 0.0879 step-time 0.13 perplexity 20.67 eval: bucket 0 perplexity 28.84 eval: bucket 1 perplexity 22.36 eval: bucket 2 perplexity 40.61 eval: bucket 3 perplexity 25.68 global step 161200 learning rate 0.0879 step-time 0.14 perplexity 21.44 eval: bucket 0 perplexity 26.03 eval: bucket 1 perplexity 23.25 eval: bucket 2 perplexity 17.88 eval: bucket 3 perplexity 37.05 global step 161400 learning rate 0.0870 step-time 0.14 perplexity 21.24 eval: bucket 0 perplexity 23.01 eval: bucket 1 perplexity 20.17 eval: bucket 2 perplexity 27.40 eval: bucket 3 perplexity 30.77 global step 161600 learning rate 0.0870 step-time 0.13 perplexity 20.75 eval: bucket 0 perplexity 26.96 eval: bucket 1 perplexity 23.23 eval: bucket 2 perplexity 45.22 eval: bucket 3 perplexity 35.67 global step 161800 learning rate 0.0870 step-time 0.14 perplexity 21.60 eval: bucket 0 perplexity 15.82 eval: bucket 1 perplexity 27.26 eval: bucket 2 perplexity 35.06 eval: bucket 3 perplexity 29.57 global step 162000 learning rate 0.0861 step-time 0.13 perplexity 21.51 eval: bucket 0 perplexity 22.87 eval: bucket 1 perplexity 22.07 eval: bucket 2 perplexity 24.08 eval: bucket 3 perplexity 32.67 global step 162200 learning rate 0.0861 step-time 0.13 perplexity 20.92 eval: bucket 0 perplexity 25.07 eval: bucket 1 perplexity 28.41 eval: bucket 2 perplexity 29.03 eval: bucket 3 perplexity 29.23 global step 162400 learning rate 0.0861 step-time 0.14 perplexity 20.83 eval: bucket 0 perplexity 26.15 eval: bucket 1 perplexity 27.25 eval: bucket 2 perplexity 40.58 eval: bucket 3 perplexity 33.25 global step 162600 learning rate 0.0861 step-time 0.13 perplexity 20.70 eval: bucket 0 perplexity 27.97 eval: bucket 1 perplexity 24.79 eval: bucket 2 perplexity 34.07 eval: bucket 3 perplexity 43.07 global step 162800 learning rate 0.0861 step-time 0.13 perplexity 20.97 eval: bucket 0 perplexity 20.39 eval: bucket 1 perplexity 18.04 eval: bucket 2 perplexity 22.37 eval: bucket 3 perplexity 34.91 global step 163000 learning rate 0.0853 step-time 0.13 perplexity 21.51 eval: bucket 0 perplexity 27.65 eval: bucket 1 perplexity 21.87 eval: bucket 2 perplexity 31.62 eval: bucket 3 perplexity 32.16 global step 163200 learning rate 0.0844 step-time 0.14 perplexity 21.50 eval: bucket 0 perplexity 18.40 eval: bucket 1 perplexity 21.13 eval: bucket 2 perplexity 19.64 eval: bucket 3 perplexity 34.50 global step 163400 learning rate 0.0844 step-time 0.13 perplexity 20.92 eval: bucket 0 perplexity 20.36 eval: bucket 1 perplexity 24.15 eval: bucket 2 perplexity 21.12 eval: bucket 3 perplexity 29.37 global step 163600 learning rate 0.0844 step-time 0.13 perplexity 20.98 eval: bucket 0 perplexity 19.55 eval: bucket 1 perplexity 21.66 eval: bucket 2 perplexity 21.11 eval: bucket 3 perplexity 43.99 global step 163800 learning rate 0.0844 step-time 0.12 perplexity 21.06 eval: bucket 0 perplexity 22.19 eval: bucket 1 perplexity 21.67 eval: bucket 2 perplexity 25.74 eval: bucket 3 perplexity 44.70 global step 164000 learning rate 0.0844 step-time 0.13 perplexity 20.88 eval: bucket 0 perplexity 26.32 eval: bucket 1 perplexity 28.86 eval: bucket 2 perplexity 33.93 eval: bucket 3 perplexity 27.79 global step 164200 learning rate 0.0844 step-time 0.13 perplexity 21.14 eval: bucket 0 perplexity 17.68 eval: bucket 1 perplexity 27.70 eval: bucket 2 perplexity 30.73 eval: bucket 3 perplexity 46.14 global step 164400 learning rate 0.0836 step-time 0.13 perplexity 21.80 eval: bucket 0 perplexity 14.73 eval: bucket 1 perplexity 28.50 eval: bucket 2 perplexity 19.94 eval: bucket 3 perplexity 40.03 global step 164600 learning rate 0.0827 step-time 0.13 perplexity 20.96 eval: bucket 0 perplexity 19.55 eval: bucket 1 perplexity 19.19 eval: bucket 2 perplexity 34.36 eval: bucket 3 perplexity 38.68 global step 164800 learning rate 0.0827 step-time 0.13 perplexity 21.17 eval: bucket 0 perplexity 24.87 eval: bucket 1 perplexity 35.73 eval: bucket 2 perplexity 28.06 eval: bucket 3 perplexity 31.54 global step 165000 learning rate 0.0827 step-time 0.13 perplexity 20.67 eval: bucket 0 perplexity 15.93 eval: bucket 1 perplexity 13.64 eval: bucket 2 perplexity 17.03 eval: bucket 3 perplexity 40.56 global step 165200 learning rate 0.0827 step-time 0.14 perplexity 20.60 eval: bucket 0 perplexity 23.26 eval: bucket 1 perplexity 35.34 eval: bucket 2 perplexity 41.41 eval: bucket 3 perplexity 34.67 global step 165400 learning rate 0.0827 step-time 0.13 perplexity 20.51 eval: bucket 0 perplexity 21.83 eval: bucket 1 perplexity 25.34 eval: bucket 2 perplexity 32.86 eval: bucket 3 perplexity 51.67 global step 165600 learning rate 0.0827 step-time 0.13 perplexity 20.56 eval: bucket 0 perplexity 36.70 eval: bucket 1 perplexity 21.25 eval: bucket 2 perplexity 29.60 eval: bucket 3 perplexity 31.94 global step 165800 learning rate 0.0827 step-time 0.13 perplexity 20.86 eval: bucket 0 perplexity 28.47 eval: bucket 1 perplexity 26.14 eval: bucket 2 perplexity 25.81 eval: bucket 3 perplexity 32.08 global step 166000 learning rate 0.0819 step-time 0.13 perplexity 20.80 eval: bucket 0 perplexity 21.69 eval: bucket 1 perplexity 17.86 eval: bucket 2 perplexity 35.14 eval: bucket 3 perplexity 25.12 global step 166200 learning rate 0.0819 step-time 0.13 perplexity 20.64 eval: bucket 0 perplexity 22.23 eval: bucket 1 perplexity 27.10 eval: bucket 2 perplexity 24.48 eval: bucket 3 perplexity 33.58 global step 166400 learning rate 0.0819 step-time 0.14 perplexity 21.25 eval: bucket 0 perplexity 17.96 eval: bucket 1 perplexity 28.28 eval: bucket 2 perplexity 24.51 eval: bucket 3 perplexity 34.42 global step 166600 learning rate 0.0811 step-time 0.13 perplexity 20.48 eval: bucket 0 perplexity 18.34 eval: bucket 1 perplexity 28.31 eval: bucket 2 perplexity 25.20 eval: bucket 3 perplexity 30.75 global step 166800 learning rate 0.0811 step-time 0.14 perplexity 20.49 eval: bucket 0 perplexity 20.83 eval: bucket 1 perplexity 21.07 eval: bucket 2 perplexity 23.13 eval: bucket 3 perplexity 23.96 global step 167000 learning rate 0.0811 step-time 0.13 perplexity 20.86 eval: bucket 0 perplexity 20.73 eval: bucket 1 perplexity 26.70 eval: bucket 2 perplexity 19.71 eval: bucket 3 perplexity 27.82 global step 167200 learning rate 0.0811 step-time 0.13 perplexity 20.89 eval: bucket 0 perplexity 18.59 eval: bucket 1 perplexity 24.46 eval: bucket 2 perplexity 22.89 eval: bucket 3 perplexity 25.90 global step 167400 learning rate 0.0803 step-time 0.14 perplexity 20.84 eval: bucket 0 perplexity 21.88 eval: bucket 1 perplexity 24.86 eval: bucket 2 perplexity 31.48 eval: bucket 3 perplexity 20.61 global step 167600 learning rate 0.0803 step-time 0.14 perplexity 21.08 eval: bucket 0 perplexity 20.04 eval: bucket 1 perplexity 23.10 eval: bucket 2 perplexity 23.78 eval: bucket 3 perplexity 36.01 global step 167800 learning rate 0.0795 step-time 0.13 perplexity 21.26 eval: bucket 0 perplexity 21.18 eval: bucket 1 perplexity 23.04 eval: bucket 2 perplexity 35.61 eval: bucket 3 perplexity 31.70 global step 168000 learning rate 0.0787 step-time 0.14 perplexity 21.66 eval: bucket 0 perplexity 25.33 eval: bucket 1 perplexity 39.67 eval: bucket 2 perplexity 39.81 eval: bucket 3 perplexity 49.23 global step 168200 learning rate 0.0779 step-time 0.14 perplexity 20.52 eval: bucket 0 perplexity 15.44 eval: bucket 1 perplexity 29.63 eval: bucket 2 perplexity 19.47 eval: bucket 3 perplexity 22.77 global step 168400 learning rate 0.0779 step-time 0.14 perplexity 21.20 eval: bucket 0 perplexity 15.56 eval: bucket 1 perplexity 26.31 eval: bucket 2 perplexity 26.07 eval: bucket 3 perplexity 32.63 global step 168600 learning rate 0.0779 step-time 0.15 perplexity 21.51 eval: bucket 0 perplexity 18.17 eval: bucket 1 perplexity 22.34 eval: bucket 2 perplexity 28.37 eval: bucket 3 perplexity 31.33 global step 168800 learning rate 0.0779 step-time 0.14 perplexity 21.31 eval: bucket 0 perplexity 14.93 eval: bucket 1 perplexity 32.25 eval: bucket 2 perplexity 28.20 eval: bucket 3 perplexity 23.50 global step 169000 learning rate 0.0779 step-time 0.14 perplexity 20.85 eval: bucket 0 perplexity 18.98 eval: bucket 1 perplexity 35.05 eval: bucket 2 perplexity 30.84 eval: bucket 3 perplexity 32.60 global step 169200 learning rate 0.0779 step-time 0.14 perplexity 21.31 eval: bucket 0 perplexity 26.21 eval: bucket 1 perplexity 17.28 eval: bucket 2 perplexity 26.25 eval: bucket 3 perplexity 37.49 global step 169400 learning rate 0.0779 step-time 0.13 perplexity 21.32 eval: bucket 0 perplexity 12.49 eval: bucket 1 perplexity 31.79 eval: bucket 2 perplexity 26.72 eval: bucket 3 perplexity 26.79 global step 169600 learning rate 0.0771 step-time 0.13 perplexity 20.40 eval: bucket 0 perplexity 21.89 eval: bucket 1 perplexity 26.11 eval: bucket 2 perplexity 32.20 eval: bucket 3 perplexity 37.06 global step 169800 learning rate 0.0771 step-time 0.13 perplexity 21.51 eval: bucket 0 perplexity 16.71 eval: bucket 1 perplexity 18.77 eval: bucket 2 perplexity 25.49 eval: bucket 3 perplexity 23.82 global step 170000 learning rate 0.0763 step-time 0.14 perplexity 20.92 eval: bucket 0 perplexity 19.54 eval: bucket 1 perplexity 18.56 eval: bucket 2 perplexity 25.10 eval: bucket 3 perplexity 33.31 global step 170200 learning rate 0.0763 step-time 0.13 perplexity 20.73 eval: bucket 0 perplexity 17.29 eval: bucket 1 perplexity 20.02 eval: bucket 2 perplexity 27.04 eval: bucket 3 perplexity 33.27 global step 170400 learning rate 0.0763 step-time 0.13 perplexity 21.06 eval: bucket 0 perplexity 21.03 eval: bucket 1 perplexity 22.94 eval: bucket 2 perplexity 42.46 eval: bucket 3 perplexity 41.26 global step 170600 learning rate 0.0763 step-time 0.13 perplexity 20.39 eval: bucket 0 perplexity 14.84 eval: bucket 1 perplexity 24.07 eval: bucket 2 perplexity 26.08 eval: bucket 3 perplexity 21.59 global step 170800 learning rate 0.0763 step-time 0.12 perplexity 20.89 eval: bucket 0 perplexity 31.02 eval: bucket 1 perplexity 19.32 eval: bucket 2 perplexity 34.28 eval: bucket 3 perplexity 31.20 global step 171000 learning rate 0.0763 step-time 0.13 perplexity 20.29 eval: bucket 0 perplexity 34.90 eval: bucket 1 perplexity 22.97 eval: bucket 2 perplexity 26.34 eval: bucket 3 perplexity 35.08 global step 171200 learning rate 0.0763 step-time 0.13 perplexity 20.82 eval: bucket 0 perplexity 16.09 eval: bucket 1 perplexity 25.82 eval: bucket 2 perplexity 29.67 eval: bucket 3 perplexity 51.92 global step 171400 learning rate 0.0763 step-time 0.14 perplexity 20.91 eval: bucket 0 perplexity 14.49 eval: bucket 1 perplexity 33.68 eval: bucket 2 perplexity 40.16 eval: bucket 3 perplexity 30.63 global step 171600 learning rate 0.0756 step-time 0.12 perplexity 20.71 eval: bucket 0 perplexity 19.11 eval: bucket 1 perplexity 23.26 eval: bucket 2 perplexity 27.17 eval: bucket 3 perplexity 36.11 global step 171800 learning rate 0.0756 step-time 0.13 perplexity 20.44 eval: bucket 0 perplexity 13.38 eval: bucket 1 perplexity 26.52 eval: bucket 2 perplexity 29.80 eval: bucket 3 perplexity 34.04 global step 172000 learning rate 0.0756 step-time 0.13 perplexity 20.63 eval: bucket 0 perplexity 19.40 eval: bucket 1 perplexity 25.93 eval: bucket 2 perplexity 19.29 eval: bucket 3 perplexity 26.59 global step 172200 learning rate 0.0756 step-time 0.13 perplexity 20.50 eval: bucket 0 perplexity 16.95 eval: bucket 1 perplexity 16.56 eval: bucket 2 perplexity 27.85 eval: bucket 3 perplexity 33.25 global step 172400 learning rate 0.0756 step-time 0.13 perplexity 20.38 eval: bucket 0 perplexity 14.05 eval: bucket 1 perplexity 24.43 eval: bucket 2 perplexity 25.62 eval: bucket 3 perplexity 33.34 global step 172600 learning rate 0.0756 step-time 0.13 perplexity 20.77 eval: bucket 0 perplexity 18.51 eval: bucket 1 perplexity 27.54 eval: bucket 2 perplexity 26.53 eval: bucket 3 perplexity 34.12 global step 172800 learning rate 0.0748 step-time 0.14 perplexity 20.93 eval: bucket 0 perplexity 17.66 eval: bucket 1 perplexity 15.69 eval: bucket 2 perplexity 22.74 eval: bucket 3 perplexity 26.50 global step 173000 learning rate 0.0741 step-time 0.13 perplexity 21.14 eval: bucket 0 perplexity 23.10 eval: bucket 1 perplexity 26.54 eval: bucket 2 perplexity 26.18 eval: bucket 3 perplexity 25.51 global step 173200 learning rate 0.0733 step-time 0.13 perplexity 20.45 eval: bucket 0 perplexity 18.74 eval: bucket 1 perplexity 24.17 eval: bucket 2 perplexity 31.73 eval: bucket 3 perplexity 33.08 global step 173400 learning rate 0.0733 step-time 0.13 perplexity 20.91 eval: bucket 0 perplexity 22.51 eval: bucket 1 perplexity 15.07 eval: bucket 2 perplexity 16.75 eval: bucket 3 perplexity 25.40 global step 173600 learning rate 0.0733 step-time 0.13 perplexity 20.62 eval: bucket 0 perplexity 22.45 eval: bucket 1 perplexity 19.13 eval: bucket 2 perplexity 28.81 eval: bucket 3 perplexity 29.80 global step 173800 learning rate 0.0733 step-time 0.13 perplexity 20.62 eval: bucket 0 perplexity 25.78 eval: bucket 1 perplexity 26.61 eval: bucket 2 perplexity 22.07 eval: bucket 3 perplexity 29.69 global step 174000 learning rate 0.0733 step-time 0.13 perplexity 20.86 eval: bucket 0 perplexity 24.30 eval: bucket 1 perplexity 37.86 eval: bucket 2 perplexity 35.68 eval: bucket 3 perplexity 34.63 global step 174200 learning rate 0.0733 step-time 0.13 perplexity 20.64 eval: bucket 0 perplexity 16.04 eval: bucket 1 perplexity 24.68 eval: bucket 2 perplexity 23.50 eval: bucket 3 perplexity 32.77 global step 174400 learning rate 0.0733 step-time 0.13 perplexity 20.76 eval: bucket 0 perplexity 18.76 eval: bucket 1 perplexity 24.63 eval: bucket 2 perplexity 17.52 eval: bucket 3 perplexity 38.35 global step 174600 learning rate 0.0733 step-time 0.13 perplexity 20.78 eval: bucket 0 perplexity 20.65 eval: bucket 1 perplexity 32.58 eval: bucket 2 perplexity 23.56 eval: bucket 3 perplexity 36.64 global step 174800 learning rate 0.0733 step-time 0.14 perplexity 20.66 eval: bucket 0 perplexity 32.03 eval: bucket 1 perplexity 26.21 eval: bucket 2 perplexity 21.38 eval: bucket 3 perplexity 38.22 global step 175000 learning rate 0.0733 step-time 0.14 perplexity 20.53 eval: bucket 0 perplexity 25.16 eval: bucket 1 perplexity 16.36 eval: bucket 2 perplexity 26.72 eval: bucket 3 perplexity 35.89 global step 175200 learning rate 0.0733 step-time 0.12 perplexity 19.34 eval: bucket 0 perplexity 20.56 eval: bucket 1 perplexity 30.03 eval: bucket 2 perplexity 22.26 eval: bucket 3 perplexity 39.63 global step 175400 learning rate 0.0733 step-time 0.14 perplexity 21.09 eval: bucket 0 perplexity 20.73 eval: bucket 1 perplexity 20.34 eval: bucket 2 perplexity 39.09 eval: bucket 3 perplexity 30.16 global step 175600 learning rate 0.0726 step-time 0.14 perplexity 21.24 eval: bucket 0 perplexity 19.14 eval: bucket 1 perplexity 19.65 eval: bucket 2 perplexity 24.49 eval: bucket 3 perplexity 36.45 global step 175800 learning rate 0.0719 step-time 0.13 perplexity 21.11 eval: bucket 0 perplexity 22.88 eval: bucket 1 perplexity 14.59 eval: bucket 2 perplexity 27.83 eval: bucket 3 perplexity 24.46 global step 176000 learning rate 0.0719 step-time 0.13 perplexity 20.02 eval: bucket 0 perplexity 18.31 eval: bucket 1 perplexity 25.90 eval: bucket 2 perplexity 42.74 eval: bucket 3 perplexity 35.35 global step 176200 learning rate 0.0719 step-time 0.13 perplexity 20.21 eval: bucket 0 perplexity 19.26 eval: bucket 1 perplexity 15.93 eval: bucket 2 perplexity 32.68 eval: bucket 3 perplexity 28.55 global step 176400 learning rate 0.0719 step-time 0.13 perplexity 19.84 eval: bucket 0 perplexity 22.18 eval: bucket 1 perplexity 16.27 eval: bucket 2 perplexity 32.81 eval: bucket 3 perplexity 30.64 global step 176600 learning rate 0.0719 step-time 0.13 perplexity 20.56 eval: bucket 0 perplexity 19.59 eval: bucket 1 perplexity 15.62 eval: bucket 2 perplexity 25.51 eval: bucket 3 perplexity 31.10 global step 176800 learning rate 0.0712 step-time 0.13 perplexity 20.21 eval: bucket 0 perplexity 21.53 eval: bucket 1 perplexity 20.96 eval: bucket 2 perplexity 27.50 eval: bucket 3 perplexity 36.30 global step 177000 learning rate 0.0712 step-time 0.14 perplexity 21.09 eval: bucket 0 perplexity 26.16 eval: bucket 1 perplexity 16.97 eval: bucket 2 perplexity 20.31 eval: bucket 3 perplexity 30.71 global step 177200 learning rate 0.0704 step-time 0.12 perplexity 19.85 eval: bucket 0 perplexity 13.84 eval: bucket 1 perplexity 27.76 eval: bucket 2 perplexity 29.41 eval: bucket 3 perplexity 35.42 global step 177400 learning rate 0.0704 step-time 0.13 perplexity 20.05 eval: bucket 0 perplexity 17.00 eval: bucket 1 perplexity 22.39 eval: bucket 2 perplexity 28.14 eval: bucket 3 perplexity 25.91 global step 177600 learning rate 0.0704 step-time 0.13 perplexity 20.14 eval: bucket 0 perplexity 26.93 eval: bucket 1 perplexity 21.82 eval: bucket 2 perplexity 29.11 eval: bucket 3 perplexity 27.01 global step 177800 learning rate 0.0704 step-time 0.13 perplexity 21.06 eval: bucket 0 perplexity 19.42 eval: bucket 1 perplexity 24.88 eval: bucket 2 perplexity 29.28 eval: bucket 3 perplexity 34.33 global step 178000 learning rate 0.0697 step-time 0.13 perplexity 20.58 eval: bucket 0 perplexity 19.22 eval: bucket 1 perplexity 16.27 eval: bucket 2 perplexity 21.19 eval: bucket 3 perplexity 27.85 global step 178200 learning rate 0.0697 step-time 0.12 perplexity 20.43 eval: bucket 0 perplexity 36.91 eval: bucket 1 perplexity 32.56 eval: bucket 2 perplexity 21.43 eval: bucket 3 perplexity 38.91 global step 178400 learning rate 0.0697 step-time 0.13 perplexity 20.36 eval: bucket 0 perplexity 26.26 eval: bucket 1 perplexity 24.24 eval: bucket 2 perplexity 26.07 eval: bucket 3 perplexity 23.63 global step 178600 learning rate 0.0697 step-time 0.13 perplexity 20.17 eval: bucket 0 perplexity 16.07 eval: bucket 1 perplexity 19.99 eval: bucket 2 perplexity 16.57 eval: bucket 3 perplexity 31.55 global step 178800 learning rate 0.0697 step-time 0.13 perplexity 19.98 eval: bucket 0 perplexity 31.57 eval: bucket 1 perplexity 34.39 eval: bucket 2 perplexity 41.24 eval: bucket 3 perplexity 48.53 global step 179000 learning rate 0.0697 step-time 0.14 perplexity 21.32 eval: bucket 0 perplexity 27.19 eval: bucket 1 perplexity 26.04 eval: bucket 2 perplexity 23.29 eval: bucket 3 perplexity 39.01 global step 179200 learning rate 0.0690 step-time 0.13 perplexity 20.42 eval: bucket 0 perplexity 23.03 eval: bucket 1 perplexity 20.74 eval: bucket 2 perplexity 29.82 eval: bucket 3 perplexity 29.52 global step 179400 learning rate 0.0690 step-time 0.14 perplexity 21.05 eval: bucket 0 perplexity 22.51 eval: bucket 1 perplexity 34.58 eval: bucket 2 perplexity 26.58 eval: bucket 3 perplexity 19.61 global step 179600 learning rate 0.0690 step-time 0.13 perplexity 20.57 eval: bucket 0 perplexity 17.15 eval: bucket 1 perplexity 20.18 eval: bucket 2 perplexity 29.24 eval: bucket 3 perplexity 43.90 global step 179800 learning rate 0.0690 step-time 0.13 perplexity 20.41 eval: bucket 0 perplexity 22.35 eval: bucket 1 perplexity 25.25 eval: bucket 2 perplexity 26.22 eval: bucket 3 perplexity 49.07 global step 180000 learning rate 0.0690 step-time 0.13 perplexity 20.67 eval: bucket 0 perplexity 17.41 eval: bucket 1 perplexity 17.35 eval: bucket 2 perplexity 22.04 eval: bucket 3 perplexity 21.20 global step 180200 learning rate 0.0690 step-time 0.13 perplexity 20.06 eval: bucket 0 perplexity 14.62 eval: bucket 1 perplexity 26.43 eval: bucket 2 perplexity 18.07 eval: bucket 3 perplexity 31.72 global step 180400 learning rate 0.0690 step-time 0.13 perplexity 21.12 eval: bucket 0 perplexity 31.44 eval: bucket 1 perplexity 19.23 eval: bucket 2 perplexity 36.94 eval: bucket 3 perplexity 32.40 global step 180600 learning rate 0.0684 step-time 0.13 perplexity 20.09 eval: bucket 0 perplexity 14.90 eval: bucket 1 perplexity 22.27 eval: bucket 2 perplexity 30.19 eval: bucket 3 perplexity 26.64 global step 180800 learning rate 0.0684 step-time 0.12 perplexity 20.42 eval: bucket 0 perplexity 13.36 eval: bucket 1 perplexity 25.05 eval: bucket 2 perplexity 25.11 eval: bucket 3 perplexity 27.02 global step 181000 learning rate 0.0684 step-time 0.13 perplexity 20.28 eval: bucket 0 perplexity 31.19 eval: bucket 1 perplexity 23.49 eval: bucket 2 perplexity 23.85 eval: bucket 3 perplexity 22.42 global step 181200 learning rate 0.0684 step-time 0.14 perplexity 20.45 eval: bucket 0 perplexity 19.72 eval: bucket 1 perplexity 33.04 eval: bucket 2 perplexity 20.75 eval: bucket 3 perplexity 30.53 global step 181400 learning rate 0.0677 step-time 0.13 perplexity 20.30 eval: bucket 0 perplexity 16.12 eval: bucket 1 perplexity 17.91 eval: bucket 2 perplexity 30.92 eval: bucket 3 perplexity 41.22 global step 181600 learning rate 0.0677 step-time 0.13 perplexity 20.14 eval: bucket 0 perplexity 15.10 eval: bucket 1 perplexity 15.97 eval: bucket 2 perplexity 27.14 eval: bucket 3 perplexity 29.38 global step 181800 learning rate 0.0677 step-time 0.13 perplexity 20.44 eval: bucket 0 perplexity 21.10 eval: bucket 1 perplexity 14.12 eval: bucket 2 perplexity 25.07 eval: bucket 3 perplexity 27.10 global step 182000 learning rate 0.0677 step-time 0.13 perplexity 20.54 eval: bucket 0 perplexity 22.90 eval: bucket 1 perplexity 29.14 eval: bucket 2 perplexity 37.40 eval: bucket 3 perplexity 45.52 global step 182200 learning rate 0.0670 step-time 0.13 perplexity 20.75 eval: bucket 0 perplexity 18.94 eval: bucket 1 perplexity 32.18 eval: bucket 2 perplexity 32.15 eval: bucket 3 perplexity 34.01 global step 182400 learning rate 0.0663 step-time 0.12 perplexity 20.08 eval: bucket 0 perplexity 15.07 eval: bucket 1 perplexity 24.88 eval: bucket 2 perplexity 23.30 eval: bucket 3 perplexity 23.28 global step 182600 learning rate 0.0663 step-time 0.13 perplexity 20.45 eval: bucket 0 perplexity 17.42 eval: bucket 1 perplexity 26.68 eval: bucket 2 perplexity 27.95 eval: bucket 3 perplexity 29.95 global step 182800 learning rate 0.0663 step-time 0.13 perplexity 20.46 eval: bucket 0 perplexity 15.33 eval: bucket 1 perplexity 17.70 eval: bucket 2 perplexity 27.71 eval: bucket 3 perplexity 28.79 global step 183000 learning rate 0.0663 step-time 0.13 perplexity 20.17 eval: bucket 0 perplexity 12.48 eval: bucket 1 perplexity 25.37 eval: bucket 2 perplexity 24.10 eval: bucket 3 perplexity 39.89 global step 183200 learning rate 0.0663 step-time 0.13 perplexity 20.30 eval: bucket 0 perplexity 37.30 eval: bucket 1 perplexity 22.31 eval: bucket 2 perplexity 18.69 eval: bucket 3 perplexity 36.17 global step 183400 learning rate 0.0663 step-time 0.13 perplexity 20.67 eval: bucket 0 perplexity 14.94 eval: bucket 1 perplexity 14.59 eval: bucket 2 perplexity 30.93 eval: bucket 3 perplexity 29.16 global step 183600 learning rate 0.0657 step-time 0.13 perplexity 20.21 eval: bucket 0 perplexity 31.31 eval: bucket 1 perplexity 19.44 eval: bucket 2 perplexity 20.50 eval: bucket 3 perplexity 36.68 global step 183800 learning rate 0.0657 step-time 0.13 perplexity 20.58 eval: bucket 0 perplexity 16.34 eval: bucket 1 perplexity 35.35 eval: bucket 2 perplexity 30.67 eval: bucket 3 perplexity 38.08 global step 184000 learning rate 0.0657 step-time 0.14 perplexity 20.00 eval: bucket 0 perplexity 17.01 eval: bucket 1 perplexity 27.50 eval: bucket 2 perplexity 28.74 eval: bucket 3 perplexity 39.82 global step 184200 learning rate 0.0657 step-time 0.12 perplexity 20.16 eval: bucket 0 perplexity 21.74 eval: bucket 1 perplexity 20.21 eval: bucket 2 perplexity 33.35 eval: bucket 3 perplexity 29.84 global step 184400 learning rate 0.0657 step-time 0.14 perplexity 20.41 eval: bucket 0 perplexity 22.82 eval: bucket 1 perplexity 19.25 eval: bucket 2 perplexity 22.66 eval: bucket 3 perplexity 32.82 global step 184600 learning rate 0.0657 step-time 0.12 perplexity 20.06 eval: bucket 0 perplexity 16.64 eval: bucket 1 perplexity 35.79 eval: bucket 2 perplexity 24.27 eval: bucket 3 perplexity 30.63 global step 184800 learning rate 0.0657 step-time 0.13 perplexity 20.29 eval: bucket 0 perplexity 14.94 eval: bucket 1 perplexity 13.79 eval: bucket 2 perplexity 33.03 eval: bucket 3 perplexity 24.94 global step 185000 learning rate 0.0657 step-time 0.14 perplexity 20.06 eval: bucket 0 perplexity 21.02 eval: bucket 1 perplexity 36.46 eval: bucket 2 perplexity 27.13 eval: bucket 3 perplexity 24.45 global step 185200 learning rate 0.0657 step-time 0.13 perplexity 20.55 eval: bucket 0 perplexity 17.17 eval: bucket 1 perplexity 18.57 eval: bucket 2 perplexity 29.61 eval: bucket 3 perplexity 30.44 global step 185400 learning rate 0.0650 step-time 0.14 perplexity 19.96 eval: bucket 0 perplexity 20.57 eval: bucket 1 perplexity 23.27 eval: bucket 2 perplexity 22.20 eval: bucket 3 perplexity 41.77 global step 185600 learning rate 0.0650 step-time 0.14 perplexity 20.30 eval: bucket 0 perplexity 22.32 eval: bucket 1 perplexity 15.59 eval: bucket 2 perplexity 35.52 eval: bucket 3 perplexity 30.70 global step 185800 learning rate 0.0650 step-time 0.12 perplexity 20.01 eval: bucket 0 perplexity 23.43 eval: bucket 1 perplexity 23.00 eval: bucket 2 perplexity 24.92 eval: bucket 3 perplexity 50.22 global step 186000 learning rate 0.0650 step-time 0.13 perplexity 19.88 eval: bucket 0 perplexity 18.16 eval: bucket 1 perplexity 29.01 eval: bucket 2 perplexity 21.71 eval: bucket 3 perplexity 35.69 global step 186200 learning rate 0.0650 step-time 0.12 perplexity 20.02 eval: bucket 0 perplexity 21.81 eval: bucket 1 perplexity 34.53 eval: bucket 2 perplexity 21.46 eval: bucket 3 perplexity 33.71 global step 186400 learning rate 0.0650 step-time 0.13 perplexity 20.43 eval: bucket 0 perplexity 17.81 eval: bucket 1 perplexity 37.85 eval: bucket 2 perplexity 26.43 eval: bucket 3 perplexity 30.33 global step 186600 learning rate 0.0644 step-time 0.13 perplexity 20.28 eval: bucket 0 perplexity 19.33 eval: bucket 1 perplexity 22.07 eval: bucket 2 perplexity 37.68 eval: bucket 3 perplexity 29.92 global step 186800 learning rate 0.0644 step-time 0.13 perplexity 20.66 eval: bucket 0 perplexity 20.12 eval: bucket 1 perplexity 20.73 eval: bucket 2 perplexity 20.71 eval: bucket 3 perplexity 27.81 global step 187000 learning rate 0.0637 step-time 0.13 perplexity 19.86 eval: bucket 0 perplexity 30.22 eval: bucket 1 perplexity 18.28 eval: bucket 2 perplexity 27.35 eval: bucket 3 perplexity 37.67 global step 187200 learning rate 0.0637 step-time 0.12 perplexity 20.14 eval: bucket 0 perplexity 17.84 eval: bucket 1 perplexity 21.52 eval: bucket 2 perplexity 20.67 eval: bucket 3 perplexity 39.90 global step 187400 learning rate 0.0637 step-time 0.14 perplexity 19.83 eval: bucket 0 perplexity 16.99 eval: bucket 1 perplexity 24.15 eval: bucket 2 perplexity 27.30 eval: bucket 3 perplexity 33.73 global step 187600 learning rate 0.0637 step-time 0.12 perplexity 19.32 eval: bucket 0 perplexity 20.20 eval: bucket 1 perplexity 20.24 eval: bucket 2 perplexity 29.47 eval: bucket 3 perplexity 28.45 global step 187800 learning rate 0.0637 step-time 0.13 perplexity 20.50 eval: bucket 0 perplexity 24.84 eval: bucket 1 perplexity 31.64 eval: bucket 2 perplexity 30.21 eval: bucket 3 perplexity 36.56 global step 188000 learning rate 0.0631 step-time 0.13 perplexity 19.86 eval: bucket 0 perplexity 21.26 eval: bucket 1 perplexity 16.57 eval: bucket 2 perplexity 46.17 eval: bucket 3 perplexity 31.22 global step 188200 learning rate 0.0631 step-time 0.13 perplexity 20.53 eval: bucket 0 perplexity 23.47 eval: bucket 1 perplexity 16.56 eval: bucket 2 perplexity 24.18 eval: bucket 3 perplexity 41.20 global step 188400 learning rate 0.0624 step-time 0.14 perplexity 20.00 eval: bucket 0 perplexity 14.70 eval: bucket 1 perplexity 30.77 eval: bucket 2 perplexity 26.60 eval: bucket 3 perplexity 32.44 global step 188600 learning rate 0.0624 step-time 0.12 perplexity 19.59 eval: bucket 0 perplexity 16.29 eval: bucket 1 perplexity 16.20 eval: bucket 2 perplexity 25.87 eval: bucket 3 perplexity 51.31 global step 188800 learning rate 0.0624 step-time 0.14 perplexity 20.31 eval: bucket 0 perplexity 18.59 eval: bucket 1 perplexity 23.63 eval: bucket 2 perplexity 24.93 eval: bucket 3 perplexity 42.95 global step 189000 learning rate 0.0624 step-time 0.12 perplexity 20.31 eval: bucket 0 perplexity 18.41 eval: bucket 1 perplexity 21.09 eval: bucket 2 perplexity 25.73 eval: bucket 3 perplexity 25.38 global step 189200 learning rate 0.0618 step-time 0.13 perplexity 20.44 eval: bucket 0 perplexity 16.39 eval: bucket 1 perplexity 19.60 eval: bucket 2 perplexity 25.90 eval: bucket 3 perplexity 32.85 global step 189400 learning rate 0.0612 step-time 0.13 perplexity 20.45 eval: bucket 0 perplexity 19.00 eval: bucket 1 perplexity 21.15 eval: bucket 2 perplexity 27.70 eval: bucket 3 perplexity 37.71 global step 189600 learning rate 0.0606 step-time 0.13 perplexity 20.51 eval: bucket 0 perplexity 17.04 eval: bucket 1 perplexity 17.25 eval: bucket 2 perplexity 26.89 eval: bucket 3 perplexity 30.97 global step 189800 learning rate 0.0600 step-time 0.13 perplexity 20.71 eval: bucket 0 perplexity 19.14 eval: bucket 1 perplexity 22.23 eval: bucket 2 perplexity 42.87 eval: bucket 3 perplexity 35.22 global step 190000 learning rate 0.0594 step-time 0.14 perplexity 20.43 eval: bucket 0 perplexity 26.17 eval: bucket 1 perplexity 30.21 eval: bucket 2 perplexity 29.67 eval: bucket 3 perplexity 20.69 global step 190200 learning rate 0.0594 step-time 0.13 perplexity 19.86 eval: bucket 0 perplexity 19.25 eval: bucket 1 perplexity 22.58 eval: bucket 2 perplexity 32.97 eval: bucket 3 perplexity 26.62 global step 190400 learning rate 0.0594 step-time 0.13 perplexity 21.16 eval: bucket 0 perplexity 21.89 eval: bucket 1 perplexity 24.90 eval: bucket 2 perplexity 25.97 eval: bucket 3 perplexity 26.79 global step 190600 learning rate 0.0588 step-time 0.13 perplexity 20.16 eval: bucket 0 perplexity 18.28 eval: bucket 1 perplexity 13.85 eval: bucket 2 perplexity 20.15 eval: bucket 3 perplexity 32.04 global step 190800 learning rate 0.0588 step-time 0.13 perplexity 20.40 eval: bucket 0 perplexity 20.72 eval: bucket 1 perplexity 19.34 eval: bucket 2 perplexity 30.61 eval: bucket 3 perplexity 28.86 global step 191000 learning rate 0.0588 step-time 0.13 perplexity 20.20 eval: bucket 0 perplexity 22.31 eval: bucket 1 perplexity 17.83 eval: bucket 2 perplexity 24.53 eval: bucket 3 perplexity 33.87 global step 191200 learning rate 0.0588 step-time 0.13 perplexity 19.77 eval: bucket 0 perplexity 19.61 eval: bucket 1 perplexity 15.41 eval: bucket 2 perplexity 22.76 eval: bucket 3 perplexity 31.40 global step 191400 learning rate 0.0588 step-time 0.14 perplexity 20.57 eval: bucket 0 perplexity 19.99 eval: bucket 1 perplexity 21.81 eval: bucket 2 perplexity 15.45 eval: bucket 3 perplexity 27.22 global step 191600 learning rate 0.0582 step-time 0.12 perplexity 19.99 eval: bucket 0 perplexity 14.04 eval: bucket 1 perplexity 24.79 eval: bucket 2 perplexity 23.24 eval: bucket 3 perplexity 28.99 global step 191800 learning rate 0.0582 step-time 0.13 perplexity 20.22 eval: bucket 0 perplexity 25.10 eval: bucket 1 perplexity 18.29 eval: bucket 2 perplexity 23.16 eval: bucket 3 perplexity 34.77 global step 192000 learning rate 0.0582 step-time 0.13 perplexity 19.88 eval: bucket 0 perplexity 13.33 eval: bucket 1 perplexity 17.97 eval: bucket 2 perplexity 34.57 eval: bucket 3 perplexity 35.10 global step 192200 learning rate 0.0582 step-time 0.13 perplexity 19.95 eval: bucket 0 perplexity 17.49 eval: bucket 1 perplexity 23.31 eval: bucket 2 perplexity 44.45 eval: bucket 3 perplexity 18.00 global step 192400 learning rate 0.0582 step-time 0.12 perplexity 19.84 eval: bucket 0 perplexity 17.97 eval: bucket 1 perplexity 20.22 eval: bucket 2 perplexity 27.24 eval: bucket 3 perplexity 38.90 global step 192600 learning rate 0.0582 step-time 0.14 perplexity 20.69 eval: bucket 0 perplexity 18.69 eval: bucket 1 perplexity 20.93 eval: bucket 2 perplexity 28.11 eval: bucket 3 perplexity 32.04 global step 192800 learning rate 0.0576 step-time 0.13 perplexity 20.70 eval: bucket 0 perplexity 32.54 eval: bucket 1 perplexity 22.54 eval: bucket 2 perplexity 28.21 eval: bucket 3 perplexity 30.74 global step 193000 learning rate 0.0570 step-time 0.12 perplexity 19.90 eval: bucket 0 perplexity 32.41 eval: bucket 1 perplexity 15.73 eval: bucket 2 perplexity 27.54 eval: bucket 3 perplexity 30.19 global step 193200 learning rate 0.0570 step-time 0.14 perplexity 20.46 eval: bucket 0 perplexity 20.38 eval: bucket 1 perplexity 27.82 eval: bucket 2 perplexity 21.62 eval: bucket 3 perplexity 28.90 global step 193400 learning rate 0.0570 step-time 0.13 perplexity 19.96 eval: bucket 0 perplexity 24.73 eval: bucket 1 perplexity 27.99 eval: bucket 2 perplexity 25.99 eval: bucket 3 perplexity 32.22 global step 193600 learning rate 0.0570 step-time 0.13 perplexity 19.29 eval: bucket 0 perplexity 14.51 eval: bucket 1 perplexity 28.37 eval: bucket 2 perplexity 27.48 eval: bucket 3 perplexity 29.89 global step 193800 learning rate 0.0570 step-time 0.13 perplexity 20.10 eval: bucket 0 perplexity 15.68 eval: bucket 1 perplexity 19.47 eval: bucket 2 perplexity 21.52 eval: bucket 3 perplexity 25.67 global step 194000 learning rate 0.0570 step-time 0.12 perplexity 19.30 eval: bucket 0 perplexity 15.66 eval: bucket 1 perplexity 24.11 eval: bucket 2 perplexity 33.34 eval: bucket 3 perplexity 29.43 global step 194200 learning rate 0.0570 step-time 0.14 perplexity 20.58 eval: bucket 0 perplexity 18.69 eval: bucket 1 perplexity 26.35 eval: bucket 2 perplexity 26.43 eval: bucket 3 perplexity 33.89 global step 194400 learning rate 0.0565 step-time 0.14 perplexity 20.48 eval: bucket 0 perplexity 30.99 eval: bucket 1 perplexity 28.11 eval: bucket 2 perplexity 33.79 eval: bucket 3 perplexity 34.95 global step 194600 learning rate 0.0565 step-time 0.13 perplexity 20.01 eval: bucket 0 perplexity 23.21 eval: bucket 1 perplexity 27.67 eval: bucket 2 perplexity 22.70 eval: bucket 3 perplexity 30.60 global step 194800 learning rate 0.0565 step-time 0.14 perplexity 20.29 eval: bucket 0 perplexity 24.21 eval: bucket 1 perplexity 19.94 eval: bucket 2 perplexity 19.84 eval: bucket 3 perplexity 28.51 global step 195000 learning rate 0.0565 step-time 0.14 perplexity 20.25 eval: bucket 0 perplexity 18.43 eval: bucket 1 perplexity 16.61 eval: bucket 2 perplexity 37.18 eval: bucket 3 perplexity 40.38 global step 195200 learning rate 0.0565 step-time 0.13 perplexity 20.28 eval: bucket 0 perplexity 18.09 eval: bucket 1 perplexity 26.41 eval: bucket 2 perplexity 24.76 eval: bucket 3 perplexity 37.01 global step 195400 learning rate 0.0565 step-time 0.14 perplexity 20.33 eval: bucket 0 perplexity 25.65 eval: bucket 1 perplexity 23.62 eval: bucket 2 perplexity 30.40 eval: bucket 3 perplexity 30.82 global step 195600 learning rate 0.0559 step-time 0.14 perplexity 19.69 eval: bucket 0 perplexity 15.95 eval: bucket 1 perplexity 16.35 eval: bucket 2 perplexity 26.87 eval: bucket 3 perplexity 24.70 global step 195800 learning rate 0.0559 step-time 0.14 perplexity 20.45 eval: bucket 0 perplexity 22.63 eval: bucket 1 perplexity 26.62 eval: bucket 2 perplexity 20.05 eval: bucket 3 perplexity 34.18 global step 196000 learning rate 0.0553 step-time 0.14 perplexity 19.94 eval: bucket 0 perplexity 12.52 eval: bucket 1 perplexity 29.65 eval: bucket 2 perplexity 27.26 eval: bucket 3 perplexity 33.63 global step 196200 learning rate 0.0553 step-time 0.13 perplexity 19.94 eval: bucket 0 perplexity 19.15 eval: bucket 1 perplexity 18.23 eval: bucket 2 perplexity 20.89 eval: bucket 3 perplexity 31.45 global step 196400 learning rate 0.0553 step-time 0.14 perplexity 19.61 eval: bucket 0 perplexity 20.91 eval: bucket 1 perplexity 29.99 eval: bucket 2 perplexity 29.97 eval: bucket 3 perplexity 18.97 global step 196600 learning rate 0.0553 step-time 0.13 perplexity 19.65 eval: bucket 0 perplexity 12.91 eval: bucket 1 perplexity 16.13 eval: bucket 2 perplexity 27.57 eval: bucket 3 perplexity 30.75 global step 196800 learning rate 0.0553 step-time 0.14 perplexity 19.56 eval: bucket 0 perplexity 18.81 eval: bucket 1 perplexity 20.99 eval: bucket 2 perplexity 29.76 eval: bucket 3 perplexity 28.49 global step 197000 learning rate 0.0553 step-time 0.13 perplexity 20.21 eval: bucket 0 perplexity 14.44 eval: bucket 1 perplexity 27.48 eval: bucket 2 perplexity 18.55 eval: bucket 3 perplexity 42.30 global step 197200 learning rate 0.0548 step-time 0.12 perplexity 19.83 eval: bucket 0 perplexity 14.17 eval: bucket 1 perplexity 34.58 eval: bucket 2 perplexity 37.84 eval: bucket 3 perplexity 31.21 global step 197400 learning rate 0.0548 step-time 0.14 perplexity 20.45 eval: bucket 0 perplexity 25.44 eval: bucket 1 perplexity 31.17 eval: bucket 2 perplexity 40.34 eval: bucket 3 perplexity 23.27 global step 197600 learning rate 0.0542 step-time 0.13 perplexity 19.69 eval: bucket 0 perplexity 18.01 eval: bucket 1 perplexity 37.77 eval: bucket 2 perplexity 28.14 eval: bucket 3 perplexity 40.39 global step 197800 learning rate 0.0542 step-time 0.13 perplexity 19.89 eval: bucket 0 perplexity 20.00 eval: bucket 1 perplexity 26.13 eval: bucket 2 perplexity 23.51 eval: bucket 3 perplexity 36.19 global step 198000 learning rate 0.0542 step-time 0.14 perplexity 20.26 eval: bucket 0 perplexity 19.86 eval: bucket 1 perplexity 16.54 eval: bucket 2 perplexity 16.59 eval: bucket 3 perplexity 30.52 global step 198200 learning rate 0.0542 step-time 0.13 perplexity 19.81 eval: bucket 0 perplexity 19.20 eval: bucket 1 perplexity 19.52 eval: bucket 2 perplexity 18.27 eval: bucket 3 perplexity 33.52 global step 198400 learning rate 0.0542 step-time 0.14 perplexity 19.83 eval: bucket 0 perplexity 15.64 eval: bucket 1 perplexity 19.89 eval: bucket 2 perplexity 25.89 eval: bucket 3 perplexity 40.83 global step 198600 learning rate 0.0542 step-time 0.13 perplexity 20.22 eval: bucket 0 perplexity 21.17 eval: bucket 1 perplexity 22.54 eval: bucket 2 perplexity 17.11 eval: bucket 3 perplexity 26.33 global step 198800 learning rate 0.0542 step-time 0.13 perplexity 20.36 eval: bucket 0 perplexity 14.96 eval: bucket 1 perplexity 28.08 eval: bucket 2 perplexity 21.75 eval: bucket 3 perplexity 48.57 global step 199000 learning rate 0.0537 step-time 0.14 perplexity 20.20 eval: bucket 0 perplexity 25.33 eval: bucket 1 perplexity 15.74 eval: bucket 2 perplexity 33.45 eval: bucket 3 perplexity 30.33 global step 199200 learning rate 0.0537 step-time 0.13 perplexity 19.59 eval: bucket 0 perplexity 23.17 eval: bucket 1 perplexity 26.98 eval: bucket 2 perplexity 29.33 eval: bucket 3 perplexity 31.79 global step 199400 learning rate 0.0537 step-time 0.13 perplexity 19.99 eval: bucket 0 perplexity 21.73 eval: bucket 1 perplexity 24.63 eval: bucket 2 perplexity 28.42 eval: bucket 3 perplexity 36.33 global step 199600 learning rate 0.0537 step-time 0.13 perplexity 19.94 eval: bucket 0 perplexity 14.58 eval: bucket 1 perplexity 30.19 eval: bucket 2 perplexity 29.02 eval: bucket 3 perplexity 31.37 global step 199800 learning rate 0.0537 step-time 0.13 perplexity 19.63 eval: bucket 0 perplexity 17.65 eval: bucket 1 perplexity 26.51 eval: bucket 2 perplexity 25.37 eval: bucket 3 perplexity 29.02 global step 200000 learning rate 0.0537 step-time 0.13 perplexity 19.91 eval: bucket 0 perplexity 18.69 eval: bucket 1 perplexity 19.48 eval: bucket 2 perplexity 36.21 eval: bucket 3 perplexity 33.94 global step 200200 learning rate 0.0537 step-time 0.14 perplexity 20.20 eval: bucket 0 perplexity 20.17 eval: bucket 1 perplexity 16.77 eval: bucket 2 perplexity 26.96 eval: bucket 3 perplexity 32.04 global step 200400 learning rate 0.0532 step-time 0.13 perplexity 19.32 eval: bucket 0 perplexity 21.35 eval: bucket 1 perplexity 22.69 eval: bucket 2 perplexity 21.66 eval: bucket 3 perplexity 30.60 global step 200600 learning rate 0.0532 step-time 0.13 perplexity 20.09 eval: bucket 0 perplexity 19.94 eval: bucket 1 perplexity 28.39 eval: bucket 2 perplexity 23.97 eval: bucket 3 perplexity 31.01 global step 200800 learning rate 0.0532 step-time 0.14 perplexity 20.47 eval: bucket 0 perplexity 17.22 eval: bucket 1 perplexity 22.21 eval: bucket 2 perplexity 42.08 eval: bucket 3 perplexity 37.93 global step 201000 learning rate 0.0526 step-time 0.13 perplexity 20.03 eval: bucket 0 perplexity 15.43 eval: bucket 1 perplexity 22.09 eval: bucket 2 perplexity 30.48 eval: bucket 3 perplexity 29.76 global step 201200 learning rate 0.0526 step-time 0.13 perplexity 19.98 eval: bucket 0 perplexity 20.33 eval: bucket 1 perplexity 21.43 eval: bucket 2 perplexity 23.85 eval: bucket 3 perplexity 28.45 global step 201400 learning rate 0.0526 step-time 0.13 perplexity 19.52 eval: bucket 0 perplexity 20.52 eval: bucket 1 perplexity 23.50 eval: bucket 2 perplexity 23.34 eval: bucket 3 perplexity 36.95 global step 201600 learning rate 0.0526 step-time 0.12 perplexity 19.60 eval: bucket 0 perplexity 17.65 eval: bucket 1 perplexity 26.24 eval: bucket 2 perplexity 24.65 eval: bucket 3 perplexity 26.91 global step 201800 learning rate 0.0526 step-time 0.12 perplexity 19.53 eval: bucket 0 perplexity 18.55 eval: bucket 1 perplexity 19.50 eval: bucket 2 perplexity 19.01 eval: bucket 3 perplexity 41.58 global step 202000 learning rate 0.0526 step-time 0.13 perplexity 20.03 eval: bucket 0 perplexity 19.70 eval: bucket 1 perplexity 26.02 eval: bucket 2 perplexity 25.27 eval: bucket 3 perplexity 26.52 global step 202200 learning rate 0.0521 step-time 0.13 perplexity 19.54 eval: bucket 0 perplexity 23.33 eval: bucket 1 perplexity 15.66 eval: bucket 2 perplexity 33.19 eval: bucket 3 perplexity 42.91 global step 202400 learning rate 0.0521 step-time 0.13 perplexity 20.08 eval: bucket 0 perplexity 16.62 eval: bucket 1 perplexity 19.15 eval: bucket 2 perplexity 24.97 eval: bucket 3 perplexity 25.12 global step 202600 learning rate 0.0516 step-time 0.13 perplexity 20.54 eval: bucket 0 perplexity 21.22 eval: bucket 1 perplexity 30.13 eval: bucket 2 perplexity 24.03 eval: bucket 3 perplexity 35.40 global step 202800 learning rate 0.0511 step-time 0.14 perplexity 20.01 eval: bucket 0 perplexity 26.24 eval: bucket 1 perplexity 20.47 eval: bucket 2 perplexity 22.75 eval: bucket 3 perplexity 15.98 global step 203000 learning rate 0.0511 step-time 0.13 perplexity 19.70 eval: bucket 0 perplexity 18.62 eval: bucket 1 perplexity 20.40 eval: bucket 2 perplexity 30.81 eval: bucket 3 perplexity 24.55 global step 203200 learning rate 0.0511 step-time 0.13 perplexity 19.41 eval: bucket 0 perplexity 19.08 eval: bucket 1 perplexity 23.46 eval: bucket 2 perplexity 26.39 eval: bucket 3 perplexity 25.08 global step 203400 learning rate 0.0511 step-time 0.14 perplexity 20.16 eval: bucket 0 perplexity 17.37 eval: bucket 1 perplexity 20.07 eval: bucket 2 perplexity 22.33 eval: bucket 3 perplexity 30.71 global step 203600 learning rate 0.0506 step-time 0.13 perplexity 20.19 eval: bucket 0 perplexity 28.75 eval: bucket 1 perplexity 27.77 eval: bucket 2 perplexity 25.01 eval: bucket 3 perplexity 38.35 global step 203800 learning rate 0.0501 step-time 0.13 perplexity 20.15 eval: bucket 0 perplexity 22.78 eval: bucket 1 perplexity 16.51 eval: bucket 2 perplexity 27.29 eval: bucket 3 perplexity 32.50 global step 204000 learning rate 0.0501 step-time 0.13 perplexity 19.46 eval: bucket 0 perplexity 11.20 eval: bucket 1 perplexity 13.40 eval: bucket 2 perplexity 29.50 eval: bucket 3 perplexity 42.91 global step 204200 learning rate 0.0501 step-time 0.13 perplexity 19.96 eval: bucket 0 perplexity 18.38 eval: bucket 1 perplexity 38.03 eval: bucket 2 perplexity 42.33 eval: bucket 3 perplexity 31.96 global step 204400 learning rate 0.0501 step-time 0.13 perplexity 20.07 eval: bucket 0 perplexity 23.82 eval: bucket 1 perplexity 18.79 eval: bucket 2 perplexity 34.18 eval: bucket 3 perplexity 27.41 global step 204600 learning rate 0.0501 step-time 0.13 perplexity 19.95 eval: bucket 0 perplexity 30.29 eval: bucket 1 perplexity 23.78 eval: bucket 2 perplexity 24.21 eval: bucket 3 perplexity 33.46 global step 204800 learning rate 0.0501 step-time 0.14 perplexity 19.55 eval: bucket 0 perplexity 9.97 eval: bucket 1 perplexity 30.75 eval: bucket 2 perplexity 27.64 eval: bucket 3 perplexity 30.97 global step 205000 learning rate 0.0501 step-time 0.14 perplexity 19.81 eval: bucket 0 perplexity 18.26 eval: bucket 1 perplexity 34.89 eval: bucket 2 perplexity 25.62 eval: bucket 3 perplexity 25.08 global step 205200 learning rate 0.0501 step-time 0.13 perplexity 19.92 eval: bucket 0 perplexity 17.28 eval: bucket 1 perplexity 17.94 eval: bucket 2 perplexity 16.50 eval: bucket 3 perplexity 33.36 global step 205400 learning rate 0.0501 step-time 0.13 perplexity 19.87 eval: bucket 0 perplexity 17.28 eval: bucket 1 perplexity 24.67 eval: bucket 2 perplexity 27.13 eval: bucket 3 perplexity 27.23 global step 205600 learning rate 0.0501 step-time 0.13 perplexity 19.17 eval: bucket 0 perplexity 22.28 eval: bucket 1 perplexity 24.65 eval: bucket 2 perplexity 24.66 eval: bucket 3 perplexity 23.77 global step 205800 learning rate 0.0501 step-time 0.13 perplexity 20.02 eval: bucket 0 perplexity 26.33 eval: bucket 1 perplexity 21.72 eval: bucket 2 perplexity 24.61 eval: bucket 3 perplexity 41.33 global step 206000 learning rate 0.0496 step-time 0.13 perplexity 19.72 eval: bucket 0 perplexity 25.49 eval: bucket 1 perplexity 29.73 eval: bucket 2 perplexity 19.72 eval: bucket 3 perplexity 34.30 global step 206200 learning rate 0.0496 step-time 0.14 perplexity 19.59 eval: bucket 0 perplexity 16.76 eval: bucket 1 perplexity 18.70 eval: bucket 2 perplexity 33.75 eval: bucket 3 perplexity 35.99 global step 206400 learning rate 0.0496 step-time 0.12 perplexity 19.73 eval: bucket 0 perplexity 15.28 eval: bucket 1 perplexity 19.10 eval: bucket 2 perplexity 31.33 eval: bucket 3 perplexity 57.17 global step 206600 learning rate 0.0496 step-time 0.13 perplexity 19.37 eval: bucket 0 perplexity 23.15 eval: bucket 1 perplexity 15.43 eval: bucket 2 perplexity 26.38 eval: bucket 3 perplexity 21.56 global step 206800 learning rate 0.0496 step-time 0.13 perplexity 19.21 eval: bucket 0 perplexity 17.43 eval: bucket 1 perplexity 21.76 eval: bucket 2 perplexity 25.81 eval: bucket 3 perplexity 37.68 global step 207000 learning rate 0.0496 step-time 0.13 perplexity 19.60 eval: bucket 0 perplexity 14.92 eval: bucket 1 perplexity 18.13 eval: bucket 2 perplexity 26.52 eval: bucket 3 perplexity 41.10 global step 207200 learning rate 0.0496 step-time 0.13 perplexity 19.97 eval: bucket 0 perplexity 18.40 eval: bucket 1 perplexity 22.85 eval: bucket 2 perplexity 36.84 eval: bucket 3 perplexity 29.08 global step 207400 learning rate 0.0491 step-time 0.13 perplexity 19.89 eval: bucket 0 perplexity 16.69 eval: bucket 1 perplexity 27.09 eval: bucket 2 perplexity 21.70 eval: bucket 3 perplexity 49.22 global step 207600 learning rate 0.0491 step-time 0.13 perplexity 20.03 eval: bucket 0 perplexity 21.64 eval: bucket 1 perplexity 21.94 eval: bucket 2 perplexity 25.86 eval: bucket 3 perplexity 23.27 global step 207800 learning rate 0.0486 step-time 0.13 perplexity 19.71 eval: bucket 0 perplexity 17.16 eval: bucket 1 perplexity 26.70 eval: bucket 2 perplexity 32.44 eval: bucket 3 perplexity 23.89 global step 208000 learning rate 0.0486 step-time 0.13 perplexity 20.03 eval: bucket 0 perplexity 25.18 eval: bucket 1 perplexity 34.44 eval: bucket 2 perplexity 24.40 eval: bucket 3 perplexity 31.47 global step 208200 learning rate 0.0486 step-time 0.12 perplexity 19.33 eval: bucket 0 perplexity 18.27 eval: bucket 1 perplexity 17.75 eval: bucket 2 perplexity 23.28 eval: bucket 3 perplexity 39.57 global step 208400 learning rate 0.0486 step-time 0.14 perplexity 19.81 eval: bucket 0 perplexity 23.34 eval: bucket 1 perplexity 21.86 eval: bucket 2 perplexity 34.62 eval: bucket 3 perplexity 33.36 global step 208600 learning rate 0.0486 step-time 0.13 perplexity 19.51 eval: bucket 0 perplexity 21.01 eval: bucket 1 perplexity 20.45 eval: bucket 2 perplexity 24.28 eval: bucket 3 perplexity 43.32 global step 208800 learning rate 0.0486 step-time 0.13 perplexity 19.44 eval: bucket 0 perplexity 24.01 eval: bucket 1 perplexity 18.33 eval: bucket 2 perplexity 22.83 eval: bucket 3 perplexity 35.08 global step 209000 learning rate 0.0486 step-time 0.13 perplexity 20.00 eval: bucket 0 perplexity 18.42 eval: bucket 1 perplexity 15.88 eval: bucket 2 perplexity 28.61 eval: bucket 3 perplexity 39.21 global step 209200 learning rate 0.0481 step-time 0.13 perplexity 19.86 eval: bucket 0 perplexity 18.89 eval: bucket 1 perplexity 15.68 eval: bucket 2 perplexity 21.38 eval: bucket 3 perplexity 22.29 global step 209400 learning rate 0.0481 step-time 0.13 perplexity 19.71 eval: bucket 0 perplexity 21.78 eval: bucket 1 perplexity 19.89 eval: bucket 2 perplexity 23.15 eval: bucket 3 perplexity 28.18 global step 209600 learning rate 0.0481 step-time 0.13 perplexity 19.85 eval: bucket 0 perplexity 23.55 eval: bucket 1 perplexity 14.66 eval: bucket 2 perplexity 22.70 eval: bucket 3 perplexity 37.46 global step 209800 learning rate 0.0481 step-time 0.13 perplexity 19.70 eval: bucket 0 perplexity 16.99 eval: bucket 1 perplexity 20.67 eval: bucket 2 perplexity 25.42 eval: bucket 3 perplexity 25.06 global step 210000 learning rate 0.0481 step-time 0.13 perplexity 19.37 eval: bucket 0 perplexity 20.53 eval: bucket 1 perplexity 23.74 eval: bucket 2 perplexity 24.26 eval: bucket 3 perplexity 39.37 global step 210200 learning rate 0.0481 step-time 0.14 perplexity 19.73 eval: bucket 0 perplexity 22.20 eval: bucket 1 perplexity 22.54 eval: bucket 2 perplexity 33.01 eval: bucket 3 perplexity 29.26 global step 210400 learning rate 0.0481 step-time 0.12 perplexity 19.21 eval: bucket 0 perplexity 21.25 eval: bucket 1 perplexity 26.37 eval: bucket 2 perplexity 37.55 eval: bucket 3 perplexity 36.40 global step 210600 learning rate 0.0481 step-time 0.13 perplexity 19.97 eval: bucket 0 perplexity 18.68 eval: bucket 1 perplexity 20.07 eval: bucket 2 perplexity 22.91 eval: bucket 3 perplexity 35.40 global step 210800 learning rate 0.0476 step-time 0.13 perplexity 19.75 eval: bucket 0 perplexity 18.62 eval: bucket 1 perplexity 24.27 eval: bucket 2 perplexity 39.30 eval: bucket 3 perplexity 25.52 global step 211000 learning rate 0.0476 step-time 0.13 perplexity 19.90 eval: bucket 0 perplexity 20.88 eval: bucket 1 perplexity 24.29 eval: bucket 2 perplexity 32.64 eval: bucket 3 perplexity 35.93 global step 211200 learning rate 0.0476 step-time 0.12 perplexity 19.84 eval: bucket 0 perplexity 25.01 eval: bucket 1 perplexity 25.46 eval: bucket 2 perplexity 17.77 eval: bucket 3 perplexity 42.99 global step 211400 learning rate 0.0476 step-time 0.13 perplexity 20.16 eval: bucket 0 perplexity 19.31 eval: bucket 1 perplexity 20.17 eval: bucket 2 perplexity 20.71 eval: bucket 3 perplexity 32.13 global step 211600 learning rate 0.0471 step-time 0.13 perplexity 19.81 eval: bucket 0 perplexity 20.86 eval: bucket 1 perplexity 22.33 eval: bucket 2 perplexity 25.66 eval: bucket 3 perplexity 33.68 global step 211800 learning rate 0.0471 step-time 0.13 perplexity 19.71 eval: bucket 0 perplexity 15.39 eval: bucket 1 perplexity 19.73 eval: bucket 2 perplexity 19.12 eval: bucket 3 perplexity 34.44 global step 212000 learning rate 0.0471 step-time 0.14 perplexity 19.61 eval: bucket 0 perplexity 25.64 eval: bucket 1 perplexity 29.79 eval: bucket 2 perplexity 33.95 eval: bucket 3 perplexity 23.45 global step 212200 learning rate 0.0471 step-time 0.12 perplexity 19.29 eval: bucket 0 perplexity 25.84 eval: bucket 1 perplexity 26.93 eval: bucket 2 perplexity 19.27 eval: bucket 3 perplexity 30.57 global step 212400 learning rate 0.0471 step-time 0.13 perplexity 19.65 eval: bucket 0 perplexity 20.18 eval: bucket 1 perplexity 15.21 eval: bucket 2 perplexity 20.30 eval: bucket 3 perplexity 26.55 global step 212600 learning rate 0.0471 step-time 0.14 perplexity 19.51 eval: bucket 0 perplexity 20.08 eval: bucket 1 perplexity 26.07 eval: bucket 2 perplexity 21.41 eval: bucket 3 perplexity 43.85 global step 212800 learning rate 0.0471 step-time 0.13 perplexity 19.62 eval: bucket 0 perplexity 13.85 eval: bucket 1 perplexity 15.96 eval: bucket 2 perplexity 19.95 eval: bucket 3 perplexity 25.61 global step 213000 learning rate 0.0471 step-time 0.13 perplexity 19.82 eval: bucket 0 perplexity 26.00 eval: bucket 1 perplexity 16.27 eval: bucket 2 perplexity 25.96 eval: bucket 3 perplexity 46.82 global step 213200 learning rate 0.0467 step-time 0.13 perplexity 19.60 eval: bucket 0 perplexity 20.54 eval: bucket 1 perplexity 17.35 eval: bucket 2 perplexity 33.97 eval: bucket 3 perplexity 29.03 global step 213400 learning rate 0.0467 step-time 0.13 perplexity 19.48 eval: bucket 0 perplexity 23.79 eval: bucket 1 perplexity 23.17 eval: bucket 2 perplexity 26.69 eval: bucket 3 perplexity 36.01 global step 213600 learning rate 0.0467 step-time 0.13 perplexity 19.25 eval: bucket 0 perplexity 14.76 eval: bucket 1 perplexity 15.15 eval: bucket 2 perplexity 33.90 eval: bucket 3 perplexity 47.20 global step 213800 learning rate 0.0467 step-time 0.14 perplexity 20.29 eval: bucket 0 perplexity 31.95 eval: bucket 1 perplexity 19.75 eval: bucket 2 perplexity 23.56 eval: bucket 3 perplexity 27.60 global step 214000 learning rate 0.0462 step-time 0.13 perplexity 19.25 eval: bucket 0 perplexity 17.06 eval: bucket 1 perplexity 26.17 eval: bucket 2 perplexity 25.69 eval: bucket 3 perplexity 19.56 global step 214200 learning rate 0.0462 step-time 0.13 perplexity 19.76 eval: bucket 0 perplexity 19.45 eval: bucket 1 perplexity 17.43 eval: bucket 2 perplexity 17.87 eval: bucket 3 perplexity 27.84 global step 214400 learning rate 0.0462 step-time 0.13 perplexity 19.37 eval: bucket 0 perplexity 29.45 eval: bucket 1 perplexity 25.81 eval: bucket 2 perplexity 27.65 eval: bucket 3 perplexity 34.46 global step 214600 learning rate 0.0462 step-time 0.14 perplexity 19.90 eval: bucket 0 perplexity 29.19 eval: bucket 1 perplexity 21.84 eval: bucket 2 perplexity 22.29 eval: bucket 3 perplexity 33.01 global step 214800 learning rate 0.0457 step-time 0.13 perplexity 19.43 eval: bucket 0 perplexity 31.42 eval: bucket 1 perplexity 22.13 eval: bucket 2 perplexity 23.50 eval: bucket 3 perplexity 22.39 global step 215000 learning rate 0.0457 step-time 0.13 perplexity 19.84 eval: bucket 0 perplexity 21.49 eval: bucket 1 perplexity 15.28 eval: bucket 2 perplexity 23.84 eval: bucket 3 perplexity 31.03 global step 215200 learning rate 0.0457 step-time 0.13 perplexity 19.80 eval: bucket 0 perplexity 20.78 eval: bucket 1 perplexity 19.59 eval: bucket 2 perplexity 29.81 eval: bucket 3 perplexity 26.49 global step 215400 learning rate 0.0457 step-time 0.14 perplexity 19.96 eval: bucket 0 perplexity 16.84 eval: bucket 1 perplexity 18.48 eval: bucket 2 perplexity 29.48 eval: bucket 3 perplexity 25.35 global step 215600 learning rate 0.0453 step-time 0.14 perplexity 20.00 eval: bucket 0 perplexity 17.44 eval: bucket 1 perplexity 19.26 eval: bucket 2 perplexity 26.87 eval: bucket 3 perplexity 31.33 global step 215800 learning rate 0.0448 step-time 0.13 perplexity 19.12 eval: bucket 0 perplexity 16.23 eval: bucket 1 perplexity 18.37 eval: bucket 2 perplexity 31.29 eval: bucket 3 perplexity 30.99 global step 216000 learning rate 0.0448 step-time 0.13 perplexity 19.31 eval: bucket 0 perplexity 21.05 eval: bucket 1 perplexity 32.46 eval: bucket 2 perplexity 28.61 eval: bucket 3 perplexity 32.38 global step 216200 learning rate 0.0448 step-time 0.14 perplexity 20.14 eval: bucket 0 perplexity 18.99 eval: bucket 1 perplexity 25.39 eval: bucket 2 perplexity 36.47 eval: bucket 3 perplexity 25.24 global step 216400 learning rate 0.0444 step-time 0.13 perplexity 19.17 eval: bucket 0 perplexity 21.05 eval: bucket 1 perplexity 25.13 eval: bucket 2 perplexity 26.81 eval: bucket 3 perplexity 33.80 global step 216600 learning rate 0.0444 step-time 0.13 perplexity 19.67 eval: bucket 0 perplexity 21.69 eval: bucket 1 perplexity 17.68 eval: bucket 2 perplexity 28.49 eval: bucket 3 perplexity 31.04 global step 216800 learning rate 0.0444 step-time 0.14 perplexity 20.15 eval: bucket 0 perplexity 20.72 eval: bucket 1 perplexity 23.75 eval: bucket 2 perplexity 32.51 eval: bucket 3 perplexity 34.32 global step 217000 learning rate 0.0439 step-time 0.14 perplexity 19.30 eval: bucket 0 perplexity 23.43 eval: bucket 1 perplexity 20.51 eval: bucket 2 perplexity 19.21 eval: bucket 3 perplexity 28.99 global step 217200 learning rate 0.0439 step-time 0.13 perplexity 19.34 eval: bucket 0 perplexity 19.05 eval: bucket 1 perplexity 17.51 eval: bucket 2 perplexity 20.64 eval: bucket 3 perplexity 29.30 global step 217400 learning rate 0.0439 step-time 0.13 perplexity 19.96 eval: bucket 0 perplexity 28.78 eval: bucket 1 perplexity 20.53 eval: bucket 2 perplexity 24.02 eval: bucket 3 perplexity 28.83 global step 217600 learning rate 0.0439 step-time 0.14 perplexity 19.67 eval: bucket 0 perplexity 32.92 eval: bucket 1 perplexity 25.88 eval: bucket 2 perplexity 40.43 eval: bucket 3 perplexity 27.74 global step 217800 learning rate 0.0439 step-time 0.13 perplexity 19.23 eval: bucket 0 perplexity 19.62 eval: bucket 1 perplexity 26.73 eval: bucket 2 perplexity 52.22 eval: bucket 3 perplexity 33.66 global step 218000 learning rate 0.0439 step-time 0.12 perplexity 19.39 eval: bucket 0 perplexity 29.75 eval: bucket 1 perplexity 19.89 eval: bucket 2 perplexity 25.68 eval: bucket 3 perplexity 27.62 global step 218200 learning rate 0.0439 step-time 0.14 perplexity 20.20 eval: bucket 0 perplexity 14.10 eval: bucket 1 perplexity 20.63 eval: bucket 2 perplexity 25.69 eval: bucket 3 perplexity 34.37 global step 218400 learning rate 0.0435 step-time 0.13 perplexity 19.33 eval: bucket 0 perplexity 16.29 eval: bucket 1 perplexity 19.97 eval: bucket 2 perplexity 23.12 eval: bucket 3 perplexity 42.57 global step 218600 learning rate 0.0435 step-time 0.13 perplexity 18.65 eval: bucket 0 perplexity 21.96 eval: bucket 1 perplexity 27.00 eval: bucket 2 perplexity 24.14 eval: bucket 3 perplexity 26.62 global step 218800 learning rate 0.0435 step-time 0.13 perplexity 19.67 eval: bucket 0 perplexity 13.96 eval: bucket 1 perplexity 14.33 eval: bucket 2 perplexity 20.98 eval: bucket 3 perplexity 36.56 global step 219000 learning rate 0.0435 step-time 0.14 perplexity 19.52 eval: bucket 0 perplexity 21.61 eval: bucket 1 perplexity 21.41 eval: bucket 2 perplexity 14.58 eval: bucket 3 perplexity 34.17 global step 219200 learning rate 0.0435 step-time 0.14 perplexity 19.32 eval: bucket 0 perplexity 20.47 eval: bucket 1 perplexity 37.83 eval: bucket 2 perplexity 25.36 eval: bucket 3 perplexity 33.73 global step 219400 learning rate 0.0435 step-time 0.13 perplexity 19.49 eval: bucket 0 perplexity 17.63 eval: bucket 1 perplexity 20.92 eval: bucket 2 perplexity 34.03 eval: bucket 3 perplexity 21.01 global step 219600 learning rate 0.0435 step-time 0.13 perplexity 19.71 eval: bucket 0 perplexity 14.54 eval: bucket 1 perplexity 30.07 eval: bucket 2 perplexity 31.78 eval: bucket 3 perplexity 31.28 global step 219800 learning rate 0.0430 step-time 0.14 perplexity 19.64 eval: bucket 0 perplexity 10.81 eval: bucket 1 perplexity 17.10 eval: bucket 2 perplexity 26.62 eval: bucket 3 perplexity 35.25 global step 220000 learning rate 0.0430 step-time 0.13 perplexity 18.99 eval: bucket 0 perplexity 18.10 eval: bucket 1 perplexity 21.81 eval: bucket 2 perplexity 33.47 eval: bucket 3 perplexity 22.78 global step 220200 learning rate 0.0430 step-time 0.13 perplexity 19.37 eval: bucket 0 perplexity 18.93 eval: bucket 1 perplexity 23.30 eval: bucket 2 perplexity 28.28 eval: bucket 3 perplexity 23.74 global step 220400 learning rate 0.0430 step-time 0.13 perplexity 19.95 eval: bucket 0 perplexity 16.53 eval: bucket 1 perplexity 26.04 eval: bucket 2 perplexity 33.69 eval: bucket 3 perplexity 32.18 global step 220600 learning rate 0.0426 step-time 0.13 perplexity 19.33 eval: bucket 0 perplexity 30.42 eval: bucket 1 perplexity 20.58 eval: bucket 2 perplexity 21.89 eval: bucket 3 perplexity 40.31 global step 220800 learning rate 0.0426 step-time 0.13 perplexity 19.01 eval: bucket 0 perplexity 29.73 eval: bucket 1 perplexity 17.51 eval: bucket 2 perplexity 30.74 eval: bucket 3 perplexity 25.82 global step 221000 learning rate 0.0426 step-time 0.13 perplexity 20.10 eval: bucket 0 perplexity 17.23 eval: bucket 1 perplexity 18.20 eval: bucket 2 perplexity 35.50 eval: bucket 3 perplexity 25.33 global step 221200 learning rate 0.0422 step-time 0.13 perplexity 19.49 eval: bucket 0 perplexity 13.42 eval: bucket 1 perplexity 20.33 eval: bucket 2 perplexity 35.33 eval: bucket 3 perplexity 38.65 global step 221400 learning rate 0.0422 step-time 0.14 perplexity 19.52 eval: bucket 0 perplexity 26.37 eval: bucket 1 perplexity 17.39 eval: bucket 2 perplexity 25.96 eval: bucket 3 perplexity 27.14 global step 221600 learning rate 0.0422 step-time 0.14 perplexity 19.00 eval: bucket 0 perplexity 25.28 eval: bucket 1 perplexity 21.98 eval: bucket 2 perplexity 30.83 eval: bucket 3 perplexity 34.53 global step 221800 learning rate 0.0422 step-time 0.12 perplexity 19.74 eval: bucket 0 perplexity 18.13 eval: bucket 1 perplexity 21.10 eval: bucket 2 perplexity 27.99 eval: bucket 3 perplexity 44.77 global step 222000 learning rate 0.0418 step-time 0.13 perplexity 19.27 eval: bucket 0 perplexity 18.80 eval: bucket 1 perplexity 15.18 eval: bucket 2 perplexity 29.09 eval: bucket 3 perplexity 32.25 global step 222200 learning rate 0.0418 step-time 0.13 perplexity 19.31 eval: bucket 0 perplexity 23.40 eval: bucket 1 perplexity 15.92 eval: bucket 2 perplexity 25.03 eval: bucket 3 perplexity 42.39 global step 222400 learning rate 0.0418 step-time 0.14 perplexity 19.57 eval: bucket 0 perplexity 15.90 eval: bucket 1 perplexity 18.12 eval: bucket 2 perplexity 40.10 eval: bucket 3 perplexity 23.55 global step 222600 learning rate 0.0418 step-time 0.13 perplexity 19.71 eval: bucket 0 perplexity 18.27 eval: bucket 1 perplexity 18.03 eval: bucket 2 perplexity 25.90 eval: bucket 3 perplexity 35.33 global step 222800 learning rate 0.0414 step-time 0.13 perplexity 19.25 eval: bucket 0 perplexity 17.29 eval: bucket 1 perplexity 17.88 eval: bucket 2 perplexity 23.49 eval: bucket 3 perplexity 28.43 global step 223000 learning rate 0.0414 step-time 0.13 perplexity 19.52 eval: bucket 0 perplexity 22.85 eval: bucket 1 perplexity 29.93 eval: bucket 2 perplexity 24.84 eval: bucket 3 perplexity 28.52 global step 223200 learning rate 0.0414 step-time 0.13 perplexity 19.53 eval: bucket 0 perplexity 16.99 eval: bucket 1 perplexity 17.89 eval: bucket 2 perplexity 28.48 eval: bucket 3 perplexity 25.03 global step 223400 learning rate 0.0414 step-time 0.14 perplexity 20.03 eval: bucket 0 perplexity 18.66 eval: bucket 1 perplexity 20.71 eval: bucket 2 perplexity 31.75 eval: bucket 3 perplexity 33.31 global step 223600 learning rate 0.0409 step-time 0.13 perplexity 19.42 eval: bucket 0 perplexity 27.10 eval: bucket 1 perplexity 22.02 eval: bucket 2 perplexity 21.87 eval: bucket 3 perplexity 27.92 global step 223800 learning rate 0.0409 step-time 0.13 perplexity 19.22 eval: bucket 0 perplexity 23.93 eval: bucket 1 perplexity 23.48 eval: bucket 2 perplexity 30.62 eval: bucket 3 perplexity 27.19 global step 224000 learning rate 0.0409 step-time 0.13 perplexity 19.96 eval: bucket 0 perplexity 24.85 eval: bucket 1 perplexity 18.65 eval: bucket 2 perplexity 21.86 eval: bucket 3 perplexity 26.19 global step 224200 learning rate 0.0409 step-time 0.14 perplexity 19.62 eval: bucket 0 perplexity 22.41 eval: bucket 1 perplexity 18.48 eval: bucket 2 perplexity 20.50 eval: bucket 3 perplexity 32.34 global step 224400 learning rate 0.0409 step-time 0.13 perplexity 19.56 eval: bucket 0 perplexity 36.95 eval: bucket 1 perplexity 21.69 eval: bucket 2 perplexity 34.48 eval: bucket 3 perplexity 40.06 global step 224600 learning rate 0.0409 step-time 0.13 perplexity 19.72 eval: bucket 0 perplexity 22.96 eval: bucket 1 perplexity 25.03 eval: bucket 2 perplexity 26.86 eval: bucket 3 perplexity 44.52 global step 224800 learning rate 0.0409 step-time 0.12 perplexity 18.86 eval: bucket 0 perplexity 24.19 eval: bucket 1 perplexity 20.78 eval: bucket 2 perplexity 27.40 eval: bucket 3 perplexity 34.61 global step 225000 learning rate 0.0409 step-time 0.13 perplexity 18.86 eval: bucket 0 perplexity 18.68 eval: bucket 1 perplexity 24.23 eval: bucket 2 perplexity 18.91 eval: bucket 3 perplexity 41.43 global step 225200 learning rate 0.0409 step-time 0.13 perplexity 19.57 eval: bucket 0 perplexity 12.85 eval: bucket 1 perplexity 25.50 eval: bucket 2 perplexity 25.10 eval: bucket 3 perplexity 36.41 global step 225400 learning rate 0.0409 step-time 0.13 perplexity 18.94 eval: bucket 0 perplexity 18.95 eval: bucket 1 perplexity 20.71 eval: bucket 2 perplexity 19.68 eval: bucket 3 perplexity 37.26 global step 225600 learning rate 0.0409 step-time 0.13 perplexity 19.96 eval: bucket 0 perplexity 17.99 eval: bucket 1 perplexity 19.51 eval: bucket 2 perplexity 25.97 eval: bucket 3 perplexity 26.25 global step 225800 learning rate 0.0405 step-time 0.14 perplexity 19.81 eval: bucket 0 perplexity 22.87 eval: bucket 1 perplexity 23.57 eval: bucket 2 perplexity 30.03 eval: bucket 3 perplexity 26.11 global step 226000 learning rate 0.0405 step-time 0.13 perplexity 19.16 eval: bucket 0 perplexity 16.50 eval: bucket 1 perplexity 16.72 eval: bucket 2 perplexity 27.24 eval: bucket 3 perplexity 35.50 global step 226200 learning rate 0.0405 step-time 0.13 perplexity 19.02 eval: bucket 0 perplexity 19.35 eval: bucket 1 perplexity 21.90 eval: bucket 2 perplexity 50.08 eval: bucket 3 perplexity 32.06 global step 226400 learning rate 0.0405 step-time 0.13 perplexity 19.77 eval: bucket 0 perplexity 22.90 eval: bucket 1 perplexity 19.23 eval: bucket 2 perplexity 29.35 eval: bucket 3 perplexity 29.95 global step 226600 learning rate 0.0405 step-time 0.13 perplexity 18.85 eval: bucket 0 perplexity 16.25 eval: bucket 1 perplexity 26.65 eval: bucket 2 perplexity 17.84 eval: bucket 3 perplexity 34.01 global step 226800 learning rate 0.0405 step-time 0.13 perplexity 19.86 eval: bucket 0 perplexity 25.24 eval: bucket 1 perplexity 21.08 eval: bucket 2 perplexity 24.38 eval: bucket 3 perplexity 48.84 global step 227000 learning rate 0.0401 step-time 0.13 perplexity 19.30 eval: bucket 0 perplexity 17.11 eval: bucket 1 perplexity 25.36 eval: bucket 2 perplexity 26.94 eval: bucket 3 perplexity 20.31 global step 227200 learning rate 0.0401 step-time 0.12 perplexity 19.57 eval: bucket 0 perplexity 16.09 eval: bucket 1 perplexity 21.32 eval: bucket 2 perplexity 13.97 eval: bucket 3 perplexity 42.02 global step 227400 learning rate 0.0401 step-time 0.13 perplexity 19.25 eval: bucket 0 perplexity 13.45 eval: bucket 1 perplexity 20.53 eval: bucket 2 perplexity 26.05 eval: bucket 3 perplexity 32.05 global step 227600 learning rate 0.0401 step-time 0.13 perplexity 18.77 eval: bucket 0 perplexity 19.38 eval: bucket 1 perplexity 26.91 eval: bucket 2 perplexity 30.38 eval: bucket 3 perplexity 32.15 global step 227800 learning rate 0.0401 step-time 0.13 perplexity 19.67 eval: bucket 0 perplexity 16.21 eval: bucket 1 perplexity 18.25 eval: bucket 2 perplexity 35.24 eval: bucket 3 perplexity 38.58 global step 228000 learning rate 0.0397 step-time 0.13 perplexity 19.55 eval: bucket 0 perplexity 16.47 eval: bucket 1 perplexity 26.28 eval: bucket 2 perplexity 25.39 eval: bucket 3 perplexity 28.18 global step 228200 learning rate 0.0397 step-time 0.14 perplexity 19.33 eval: bucket 0 perplexity 22.13 eval: bucket 1 perplexity 19.39 eval: bucket 2 perplexity 23.87 eval: bucket 3 perplexity 41.07 global step 228400 learning rate 0.0397 step-time 0.13 perplexity 19.51 eval: bucket 0 perplexity 16.26 eval: bucket 1 perplexity 19.10 eval: bucket 2 perplexity 27.66 eval: bucket 3 perplexity 28.85 global step 228600 learning rate 0.0397 step-time 0.13 perplexity 20.30 eval: bucket 0 perplexity 20.97 eval: bucket 1 perplexity 22.38 eval: bucket 2 perplexity 24.23 eval: bucket 3 perplexity 25.37 global step 228800 learning rate 0.0393 step-time 0.13 perplexity 19.87 eval: bucket 0 perplexity 15.05 eval: bucket 1 perplexity 27.09 eval: bucket 2 perplexity 23.47 eval: bucket 3 perplexity 31.70 global step 229000 learning rate 0.0393 step-time 0.13 perplexity 19.25 eval: bucket 0 perplexity 22.82 eval: bucket 1 perplexity 25.09 eval: bucket 2 perplexity 25.57 eval: bucket 3 perplexity 34.85 global step 229200 learning rate 0.0393 step-time 0.13 perplexity 19.19 eval: bucket 0 perplexity 19.51 eval: bucket 1 perplexity 37.79 eval: bucket 2 perplexity 27.65 eval: bucket 3 perplexity 29.24 global step 229400 learning rate 0.0393 step-time 0.13 perplexity 19.33 eval: bucket 0 perplexity 20.55 eval: bucket 1 perplexity 22.62 eval: bucket 2 perplexity 22.74 eval: bucket 3 perplexity 39.80 global step 229600 learning rate 0.0393 step-time 0.13 perplexity 19.24 eval: bucket 0 perplexity 17.19 eval: bucket 1 perplexity 18.86 eval: bucket 2 perplexity 31.43 eval: bucket 3 perplexity 40.74 global step 229800 learning rate 0.0393 step-time 0.13 perplexity 19.36 eval: bucket 0 perplexity 12.75 eval: bucket 1 perplexity 22.09 eval: bucket 2 perplexity 21.70 eval: bucket 3 perplexity 33.79 global step 230000 learning rate 0.0389 step-time 0.14 perplexity 19.51 eval: bucket 0 perplexity 17.27 eval: bucket 1 perplexity 14.33 eval: bucket 2 perplexity 28.14 eval: bucket 3 perplexity 34.53 global step 230200 learning rate 0.0385 step-time 0.15 perplexity 20.21 eval: bucket 0 perplexity 18.21 eval: bucket 1 perplexity 19.65 eval: bucket 2 perplexity 24.54 eval: bucket 3 perplexity 29.50 global step 230400 learning rate 0.0382 step-time 0.14 perplexity 19.83 eval: bucket 0 perplexity 18.56 eval: bucket 1 perplexity 15.63 eval: bucket 2 perplexity 35.56 eval: bucket 3 perplexity 24.79 global step 230600 learning rate 0.0382 step-time 0.14 perplexity 19.94 eval: bucket 0 perplexity 21.01 eval: bucket 1 perplexity 25.79 eval: bucket 2 perplexity 32.04 eval: bucket 3 perplexity 20.58 global step 230800 learning rate 0.0382 step-time 0.13 perplexity 19.14 eval: bucket 0 perplexity 20.04 eval: bucket 1 perplexity 24.90 eval: bucket 2 perplexity 26.41 eval: bucket 3 perplexity 32.04 global step 231000 learning rate 0.0382 step-time 0.13 perplexity 19.42 eval: bucket 0 perplexity 19.66 eval: bucket 1 perplexity 15.60 eval: bucket 2 perplexity 17.51 eval: bucket 3 perplexity 36.97 global step 231200 learning rate 0.0382 step-time 0.14 perplexity 19.31 eval: bucket 0 perplexity 24.35 eval: bucket 1 perplexity 27.26 eval: bucket 2 perplexity 28.83 eval: bucket 3 perplexity 29.94 global step 231400 learning rate 0.0382 step-time 0.14 perplexity 19.51 eval: bucket 0 perplexity 17.88 eval: bucket 1 perplexity 16.16 eval: bucket 2 perplexity 19.72 eval: bucket 3 perplexity 24.14 global step 231600 learning rate 0.0378 step-time 0.13 perplexity 18.94 eval: bucket 0 perplexity 20.03 eval: bucket 1 perplexity 24.10 eval: bucket 2 perplexity 23.31 eval: bucket 3 perplexity 32.26 global step 231800 learning rate 0.0378 step-time 0.13 perplexity 19.46 eval: bucket 0 perplexity 35.47 eval: bucket 1 perplexity 27.58 eval: bucket 2 perplexity 32.73 eval: bucket 3 perplexity 29.96 global step 232000 learning rate 0.0378 step-time 0.13 perplexity 19.43 eval: bucket 0 perplexity 19.50 eval: bucket 1 perplexity 18.78 eval: bucket 2 perplexity 39.00 eval: bucket 3 perplexity 39.22 global step 232200 learning rate 0.0378 step-time 0.13 perplexity 19.24 eval: bucket 0 perplexity 15.11 eval: bucket 1 perplexity 19.00 eval: bucket 2 perplexity 32.83 eval: bucket 3 perplexity 24.42 global step 232400 learning rate 0.0378 step-time 0.13 perplexity 18.82 eval: bucket 0 perplexity 18.00 eval: bucket 1 perplexity 26.65 eval: bucket 2 perplexity 22.81 eval: bucket 3 perplexity 37.82 global step 232600 learning rate 0.0378 step-time 0.14 perplexity 20.05 eval: bucket 0 perplexity 14.23 eval: bucket 1 perplexity 17.48 eval: bucket 2 perplexity 28.49 eval: bucket 3 perplexity 35.00 global step 232800 learning rate 0.0374 step-time 0.13 perplexity 19.21 eval: bucket 0 perplexity 33.80 eval: bucket 1 perplexity 26.58 eval: bucket 2 perplexity 35.82 eval: bucket 3 perplexity 31.88 global step 233000 learning rate 0.0374 step-time 0.13 perplexity 19.13 eval: bucket 0 perplexity 19.02 eval: bucket 1 perplexity 17.25 eval: bucket 2 perplexity 18.93 eval: bucket 3 perplexity 27.93 global step 233200 learning rate 0.0374 step-time 0.13 perplexity 19.11 eval: bucket 0 perplexity 18.34 eval: bucket 1 perplexity 30.50 eval: bucket 2 perplexity 23.13 eval: bucket 3 perplexity 30.15 global step 233400 learning rate 0.0374 step-time 0.14 perplexity 19.28 eval: bucket 0 perplexity 17.22 eval: bucket 1 perplexity 24.93 eval: bucket 2 perplexity 21.44 eval: bucket 3 perplexity 38.11 global step 233600 learning rate 0.0370 step-time 0.13 perplexity 19.34 eval: bucket 0 perplexity 14.65 eval: bucket 1 perplexity 23.72 eval: bucket 2 perplexity 26.94 eval: bucket 3 perplexity 35.84 global step 233800 learning rate 0.0367 step-time 0.13 perplexity 19.47 eval: bucket 0 perplexity 12.91 eval: bucket 1 perplexity 19.98 eval: bucket 2 perplexity 21.09 eval: bucket 3 perplexity 36.54 global step 234000 learning rate 0.0363 step-time 0.13 perplexity 19.05 eval: bucket 0 perplexity 21.16 eval: bucket 1 perplexity 16.57 eval: bucket 2 perplexity 22.37 eval: bucket 3 perplexity 30.65 global step 234200 learning rate 0.0363 step-time 0.14 perplexity 19.61 eval: bucket 0 perplexity 25.16 eval: bucket 1 perplexity 17.76 eval: bucket 2 perplexity 23.73 eval: bucket 3 perplexity 19.44 global step 234400 learning rate 0.0359 step-time 0.14 perplexity 19.67 eval: bucket 0 perplexity 14.87 eval: bucket 1 perplexity 16.01 eval: bucket 2 perplexity 20.39 eval: bucket 3 perplexity 36.09 global step 234600 learning rate 0.0356 step-time 0.14 perplexity 19.50 eval: bucket 0 perplexity 14.82 eval: bucket 1 perplexity 24.97 eval: bucket 2 perplexity 41.14 eval: bucket 3 perplexity 23.19 global step 234800 learning rate 0.0356 step-time 0.14 perplexity 19.48 eval: bucket 0 perplexity 11.99 eval: bucket 1 perplexity 26.10 eval: bucket 2 perplexity 23.19 eval: bucket 3 perplexity 23.62 global step 235000 learning rate 0.0356 step-time 0.13 perplexity 19.65 eval: bucket 0 perplexity 17.72 eval: bucket 1 perplexity 26.29 eval: bucket 2 perplexity 21.12 eval: bucket 3 perplexity 25.06 global step 235200 learning rate 0.0356 step-time 0.13 perplexity 19.20 eval: bucket 0 perplexity 13.89 eval: bucket 1 perplexity 21.38 eval: bucket 2 perplexity 23.23 eval: bucket 3 perplexity 29.18 global step 235400 learning rate 0.0356 step-time 0.13 perplexity 19.42 eval: bucket 0 perplexity 30.67 eval: bucket 1 perplexity 22.98 eval: bucket 2 perplexity 20.71 eval: bucket 3 perplexity 30.85 global step 235600 learning rate 0.0356 step-time 0.15 perplexity 19.51 eval: bucket 0 perplexity 15.57 eval: bucket 1 perplexity 27.99 eval: bucket 2 perplexity 27.26 eval: bucket 3 perplexity 25.46 global step 235800 learning rate 0.0356 step-time 0.13 perplexity 19.04 eval: bucket 0 perplexity 25.19 eval: bucket 1 perplexity 30.11 eval: bucket 2 perplexity 25.31 eval: bucket 3 perplexity 24.48 global step 236000 learning rate 0.0356 step-time 0.14 perplexity 19.41 eval: bucket 0 perplexity 16.08 eval: bucket 1 perplexity 13.59 eval: bucket 2 perplexity 25.22 eval: bucket 3 perplexity 28.27 global step 236200 learning rate 0.0356 step-time 0.13 perplexity 18.77 eval: bucket 0 perplexity 19.70 eval: bucket 1 perplexity 24.55 eval: bucket 2 perplexity 19.62 eval: bucket 3 perplexity 32.48 global step 236400 learning rate 0.0356 step-time 0.13 perplexity 18.52 eval: bucket 0 perplexity 20.07 eval: bucket 1 perplexity 23.85 eval: bucket 2 perplexity 21.95 eval: bucket 3 perplexity 31.07 global step 236600 learning rate 0.0356 step-time 0.13 perplexity 18.67 eval: bucket 0 perplexity 17.96 eval: bucket 1 perplexity 20.08 eval: bucket 2 perplexity 34.39 eval: bucket 3 perplexity 29.61 global step 236800 learning rate 0.0356 step-time 0.13 perplexity 19.24 eval: bucket 0 perplexity 27.13 eval: bucket 1 perplexity 22.20 eval: bucket 2 perplexity 28.22 eval: bucket 3 perplexity 35.45 global step 237000 learning rate 0.0352 step-time 0.13 perplexity 18.89 eval: bucket 0 perplexity 10.12 eval: bucket 1 perplexity 24.28 eval: bucket 2 perplexity 25.52 eval: bucket 3 perplexity 35.74 global step 237200 learning rate 0.0352 step-time 0.13 perplexity 18.62 eval: bucket 0 perplexity 16.89 eval: bucket 1 perplexity 16.02 eval: bucket 2 perplexity 22.02 eval: bucket 3 perplexity 34.47 global step 237400 learning rate 0.0352 step-time 0.14 perplexity 19.52 eval: bucket 0 perplexity 19.73 eval: bucket 1 perplexity 23.11 eval: bucket 2 perplexity 33.38 eval: bucket 3 perplexity 21.78 global step 237600 learning rate 0.0349 step-time 0.13 perplexity 19.50 eval: bucket 0 perplexity 14.19 eval: bucket 1 perplexity 18.49 eval: bucket 2 perplexity 21.67 eval: bucket 3 perplexity 33.75 global step 237800 learning rate 0.0349 step-time 0.14 perplexity 19.97 eval: bucket 0 perplexity 14.78 eval: bucket 1 perplexity 20.40 eval: bucket 2 perplexity 26.22 eval: bucket 3 perplexity 40.48 global step 238000 learning rate 0.0345 step-time 0.13 perplexity 18.69 eval: bucket 0 perplexity 16.79 eval: bucket 1 perplexity 18.07 eval: bucket 2 perplexity 24.16 eval: bucket 3 perplexity 27.10 global step 238200 learning rate 0.0345 step-time 0.13 perplexity 18.69 eval: bucket 0 perplexity 15.94 eval: bucket 1 perplexity 21.90 eval: bucket 2 perplexity 23.15 eval: bucket 3 perplexity 38.09 global step 238400 learning rate 0.0345 step-time 0.14 perplexity 19.49 eval: bucket 0 perplexity 17.85 eval: bucket 1 perplexity 21.05 eval: bucket 2 perplexity 26.03 eval: bucket 3 perplexity 29.48 global step 238600 learning rate 0.0345 step-time 0.13 perplexity 19.27 eval: bucket 0 perplexity 23.15 eval: bucket 1 perplexity 31.59 eval: bucket 2 perplexity 23.78 eval: bucket 3 perplexity 40.03 global step 238800 learning rate 0.0345 step-time 0.13 perplexity 19.29 eval: bucket 0 perplexity 21.53 eval: bucket 1 perplexity 22.79 eval: bucket 2 perplexity 24.16 eval: bucket 3 perplexity 31.36 global step 239000 learning rate 0.0345 step-time 0.14 perplexity 19.60 eval: bucket 0 perplexity 24.00 eval: bucket 1 perplexity 20.27 eval: bucket 2 perplexity 20.30 eval: bucket 3 perplexity 32.57 global step 239200 learning rate 0.0342 step-time 0.13 perplexity 19.07 eval: bucket 0 perplexity 20.20 eval: bucket 1 perplexity 21.69 eval: bucket 2 perplexity 22.51 eval: bucket 3 perplexity 31.35 global step 239400 learning rate 0.0342 step-time 0.14 perplexity 19.61 eval: bucket 0 perplexity 14.63 eval: bucket 1 perplexity 22.41 eval: bucket 2 perplexity 27.58 eval: bucket 3 perplexity 39.37 global step 239600 learning rate 0.0338 step-time 0.13 perplexity 19.58 eval: bucket 0 perplexity 20.29 eval: bucket 1 perplexity 21.81 eval: bucket 2 perplexity 32.86 eval: bucket 3 perplexity 39.88 global step 239800 learning rate 0.0338 step-time 0.12 perplexity 19.31 eval: bucket 0 perplexity 18.40 eval: bucket 1 perplexity 35.42 eval: bucket 2 perplexity 33.50 eval: bucket 3 perplexity 27.95 global step 240000 learning rate 0.0338 step-time 0.13 perplexity 18.36 eval: bucket 0 perplexity 21.06 eval: bucket 1 perplexity 19.37 eval: bucket 2 perplexity 40.23 eval: bucket 3 perplexity 34.95 global step 240200 learning rate 0.0338 step-time 0.14 perplexity 18.84 eval: bucket 0 perplexity 18.70 eval: bucket 1 perplexity 26.00 eval: bucket 2 perplexity 27.75 eval: bucket 3 perplexity 33.41 global step 240400 learning rate 0.0338 step-time 0.14 perplexity 18.86 eval: bucket 0 perplexity 15.96 eval: bucket 1 perplexity 23.77 eval: bucket 2 perplexity 34.52 eval: bucket 3 perplexity 26.93 global step 240600 learning rate 0.0338 step-time 0.13 perplexity 18.75 eval: bucket 0 perplexity 18.87 eval: bucket 1 perplexity 25.75 eval: bucket 2 perplexity 26.06 eval: bucket 3 perplexity 22.21 global step 240800 learning rate 0.0338 step-time 0.15 perplexity 20.00 eval: bucket 0 perplexity 21.01 eval: bucket 1 perplexity 14.91 eval: bucket 2 perplexity 21.96 eval: bucket 3 perplexity 22.96 global step 241000 learning rate 0.0335 step-time 0.13 perplexity 19.42 eval: bucket 0 perplexity 13.40 eval: bucket 1 perplexity 22.26 eval: bucket 2 perplexity 33.05 eval: bucket 3 perplexity 30.06 global step 241200 learning rate 0.0335 step-time 0.13 perplexity 19.02 eval: bucket 0 perplexity 16.75 eval: bucket 1 perplexity 20.84 eval: bucket 2 perplexity 19.64 eval: bucket 3 perplexity 44.37 global step 241400 learning rate 0.0335 step-time 0.14 perplexity 19.42 eval: bucket 0 perplexity 21.51 eval: bucket 1 perplexity 22.34 eval: bucket 2 perplexity 22.58 eval: bucket 3 perplexity 33.71 global step 241600 learning rate 0.0335 step-time 0.13 perplexity 19.46 eval: bucket 0 perplexity 18.52 eval: bucket 1 perplexity 24.24 eval: bucket 2 perplexity 24.09 eval: bucket 3 perplexity 20.61 global step 241800 learning rate 0.0331 step-time 0.14 perplexity 19.75 eval: bucket 0 perplexity 21.35 eval: bucket 1 perplexity 22.64 eval: bucket 2 perplexity 22.22 eval: bucket 3 perplexity 28.30 global step 242000 learning rate 0.0328 step-time 0.14 perplexity 19.81 eval: bucket 0 perplexity 21.58 eval: bucket 1 perplexity 25.21 eval: bucket 2 perplexity 20.14 eval: bucket 3 perplexity 35.17 global step 242200 learning rate 0.0325 step-time 0.13 perplexity 18.99 eval: bucket 0 perplexity 23.63 eval: bucket 1 perplexity 14.46 eval: bucket 2 perplexity 20.77 eval: bucket 3 perplexity 29.41 global step 242400 learning rate 0.0325 step-time 0.13 perplexity 19.16 eval: bucket 0 perplexity 25.84 eval: bucket 1 perplexity 23.46 eval: bucket 2 perplexity 21.33 eval: bucket 3 perplexity 38.78 global step 242600 learning rate 0.0325 step-time 0.13 perplexity 19.30 eval: bucket 0 perplexity 19.54 eval: bucket 1 perplexity 24.08 eval: bucket 2 perplexity 21.54 eval: bucket 3 perplexity 41.77 global step 242800 learning rate 0.0325 step-time 0.13 perplexity 19.40 eval: bucket 0 perplexity 21.05 eval: bucket 1 perplexity 34.68 eval: bucket 2 perplexity 32.54 eval: bucket 3 perplexity 28.63 global step 243000 learning rate 0.0322 step-time 0.13 perplexity 18.69 eval: bucket 0 perplexity 9.50 eval: bucket 1 perplexity 13.82 eval: bucket 2 perplexity 28.13 eval: bucket 3 perplexity 34.73 global step 243200 learning rate 0.0322 step-time 0.13 perplexity 18.90 eval: bucket 0 perplexity 18.42 eval: bucket 1 perplexity 22.04 eval: bucket 2 perplexity 16.44 eval: bucket 3 perplexity 32.60 global step 243400 learning rate 0.0322 step-time 0.14 perplexity 19.24 eval: bucket 0 perplexity 16.97 eval: bucket 1 perplexity 25.43 eval: bucket 2 perplexity 22.56 eval: bucket 3 perplexity 33.67 global step 243600 learning rate 0.0322 step-time 0.13 perplexity 19.03 eval: bucket 0 perplexity 19.19 eval: bucket 1 perplexity 23.24 eval: bucket 2 perplexity 22.12 eval: bucket 3 perplexity 27.22 global step 243800 learning rate 0.0322 step-time 0.13 perplexity 19.34 eval: bucket 0 perplexity 23.03 eval: bucket 1 perplexity 18.86 eval: bucket 2 perplexity 29.52 eval: bucket 3 perplexity 39.94 global step 244000 learning rate 0.0318 step-time 0.13 perplexity 19.43 eval: bucket 0 perplexity 25.36 eval: bucket 1 perplexity 24.34 eval: bucket 2 perplexity 15.34 eval: bucket 3 perplexity 26.72 global step 244200 learning rate 0.0315 step-time 0.14 perplexity 19.36 eval: bucket 0 perplexity 22.58 eval: bucket 1 perplexity 18.97 eval: bucket 2 perplexity 30.48 eval: bucket 3 perplexity 29.06 global step 244400 learning rate 0.0315 step-time 0.12 perplexity 18.28 eval: bucket 0 perplexity 13.21 eval: bucket 1 perplexity 25.99 eval: bucket 2 perplexity 16.92 eval: bucket 3 perplexity 25.71 global step 244600 learning rate 0.0315 step-time 0.13 perplexity 18.86 eval: bucket 0 perplexity 17.19 eval: bucket 1 perplexity 20.19 eval: bucket 2 perplexity 20.60 eval: bucket 3 perplexity 33.42 global step 244800 learning rate 0.0315 step-time 0.13 perplexity 18.71 eval: bucket 0 perplexity 16.25 eval: bucket 1 perplexity 14.74 eval: bucket 2 perplexity 28.73 eval: bucket 3 perplexity 19.59 global step 245000 learning rate 0.0315 step-time 0.13 perplexity 18.71 eval: bucket 0 perplexity 15.64 eval: bucket 1 perplexity 21.55 eval: bucket 2 perplexity 18.01 eval: bucket 3 perplexity 26.25 global step 245200 learning rate 0.0315 step-time 0.14 perplexity 18.80 eval: bucket 0 perplexity 17.61 eval: bucket 1 perplexity 19.62 eval: bucket 2 perplexity 29.37 eval: bucket 3 perplexity 25.13 global step 245400 learning rate 0.0315 step-time 0.13 perplexity 19.70 eval: bucket 0 perplexity 20.35 eval: bucket 1 perplexity 31.39 eval: bucket 2 perplexity 23.54 eval: bucket 3 perplexity 23.05 global step 245600 learning rate 0.0312 step-time 0.15 perplexity 19.62 eval: bucket 0 perplexity 30.00 eval: bucket 1 perplexity 30.35 eval: bucket 2 perplexity 21.76 eval: bucket 3 perplexity 25.50 global step 245800 learning rate 0.0312 step-time 0.14 perplexity 19.24 eval: bucket 0 perplexity 12.98 eval: bucket 1 perplexity 23.58 eval: bucket 2 perplexity 20.12 eval: bucket 3 perplexity 31.22 global step 246000 learning rate 0.0312 step-time 0.13 perplexity 19.61 eval: bucket 0 perplexity 15.92 eval: bucket 1 perplexity 26.22 eval: bucket 2 perplexity 23.99 eval: bucket 3 perplexity 20.37 global step 246200 learning rate 0.0312 step-time 0.13 perplexity 18.64 eval: bucket 0 perplexity 14.26 eval: bucket 1 perplexity 27.76 eval: bucket 2 perplexity 21.54 eval: bucket 3 perplexity 38.40 global step 246400 learning rate 0.0312 step-time 0.13 perplexity 19.43 eval: bucket 0 perplexity 20.11 eval: bucket 1 perplexity 15.17 eval: bucket 2 perplexity 30.30 eval: bucket 3 perplexity 25.66 global step 246600 learning rate 0.0312 step-time 0.13 perplexity 18.88 eval: bucket 0 perplexity 19.94 eval: bucket 1 perplexity 22.48 eval: bucket 2 perplexity 35.83 eval: bucket 3 perplexity 25.64 global step 246800 learning rate 0.0312 step-time 0.13 perplexity 19.44 eval: bucket 0 perplexity 32.73 eval: bucket 1 perplexity 24.72 eval: bucket 2 perplexity 29.47 eval: bucket 3 perplexity 34.02 global step 247000 learning rate 0.0309 step-time 0.13 perplexity 18.92 eval: bucket 0 perplexity 18.10 eval: bucket 1 perplexity 21.83 eval: bucket 2 perplexity 23.14 eval: bucket 3 perplexity 59.63 global step 247200 learning rate 0.0309 step-time 0.13 perplexity 18.84 eval: bucket 0 perplexity 13.48 eval: bucket 1 perplexity 18.99 eval: bucket 2 perplexity 38.68 eval: bucket 3 perplexity 40.32 global step 247400 learning rate 0.0309 step-time 0.13 perplexity 19.04 eval: bucket 0 perplexity 15.15 eval: bucket 1 perplexity 20.94 eval: bucket 2 perplexity 25.98 eval: bucket 3 perplexity 33.45 global step 247600 learning rate 0.0309 step-time 0.14 perplexity 19.11 eval: bucket 0 perplexity 14.50 eval: bucket 1 perplexity 28.70 eval: bucket 2 perplexity 27.13 eval: bucket 3 perplexity 36.49 global step 247800 learning rate 0.0306 step-time 0.13 perplexity 18.86 eval: bucket 0 perplexity 15.60 eval: bucket 1 perplexity 16.83 eval: bucket 2 perplexity 25.64 eval: bucket 3 perplexity 35.55 global step 248000 learning rate 0.0306 step-time 0.12 perplexity 18.52 eval: bucket 0 perplexity 18.76 eval: bucket 1 perplexity 21.98 eval: bucket 2 perplexity 21.54 eval: bucket 3 perplexity 38.22 global step 248200 learning rate 0.0306 step-time 0.13 perplexity 19.10 eval: bucket 0 perplexity 32.25 eval: bucket 1 perplexity 18.91 eval: bucket 2 perplexity 20.49 eval: bucket 3 perplexity 29.17 global step 248400 learning rate 0.0306 step-time 0.13 perplexity 18.38 eval: bucket 0 perplexity 31.78 eval: bucket 1 perplexity 14.91 eval: bucket 2 perplexity 21.97 eval: bucket 3 perplexity 27.52 global step 248600 learning rate 0.0306 step-time 0.14 perplexity 18.59 eval: bucket 0 perplexity 19.83 eval: bucket 1 perplexity 21.48 eval: bucket 2 perplexity 20.35 eval: bucket 3 perplexity 32.21 global step 248800 learning rate 0.0306 step-time 0.13 perplexity 18.64 eval: bucket 0 perplexity 13.53 eval: bucket 1 perplexity 22.92 eval: bucket 2 perplexity 27.82 eval: bucket 3 perplexity 30.89 global step 249000 learning rate 0.0306 step-time 0.13 perplexity 19.05 eval: bucket 0 perplexity 28.67 eval: bucket 1 perplexity 22.01 eval: bucket 2 perplexity 34.11 eval: bucket 3 perplexity 34.43 global step 249200 learning rate 0.0303 step-time 0.14 perplexity 18.71 eval: bucket 0 perplexity 13.85 eval: bucket 1 perplexity 12.93 eval: bucket 2 perplexity 17.63 eval: bucket 3 perplexity 29.72 global step 249400 learning rate 0.0303 step-time 0.13 perplexity 19.23 eval: bucket 0 perplexity 30.97 eval: bucket 1 perplexity 14.15 eval: bucket 2 perplexity 29.63 eval: bucket 3 perplexity 36.90 global step 249600 learning rate 0.0300 step-time 0.14 perplexity 19.19 eval: bucket 0 perplexity 16.58 eval: bucket 1 perplexity 16.37 eval: bucket 2 perplexity 31.21 eval: bucket 3 perplexity 32.22 global step 249800 learning rate 0.0300 step-time 0.13 perplexity 18.94 eval: bucket 0 perplexity 9.35 eval: bucket 1 perplexity 19.89 eval: bucket 2 perplexity 39.09 eval: bucket 3 perplexity 27.95 global step 250000 learning rate 0.0300 step-time 0.13 perplexity 19.10 eval: bucket 0 perplexity 16.73 eval: bucket 1 perplexity 22.68 eval: bucket 2 perplexity 22.64 eval: bucket 3 perplexity 29.85 global step 250200 learning rate 0.0300 step-time 0.13 perplexity 18.40 eval: bucket 0 perplexity 15.38 eval: bucket 1 perplexity 21.63 eval: bucket 2 perplexity 30.16 eval: bucket 3 perplexity 34.34 global step 250400 learning rate 0.0300 step-time 0.13 perplexity 18.79 eval: bucket 0 perplexity 16.39 eval: bucket 1 perplexity 20.51 eval: bucket 2 perplexity 26.17 eval: bucket 3 perplexity 37.76 global step 250600 learning rate 0.0300 step-time 0.13 perplexity 18.93 eval: bucket 0 perplexity 22.02 eval: bucket 1 perplexity 17.25 eval: bucket 2 perplexity 22.69 eval: bucket 3 perplexity 27.08 global step 250800 learning rate 0.0300 step-time 0.13 perplexity 19.09 eval: bucket 0 perplexity 23.46 eval: bucket 1 perplexity 17.90 eval: bucket 2 perplexity 16.16 eval: bucket 3 perplexity 27.80 global step 251000 learning rate 0.0297 step-time 0.14 perplexity 19.31 eval: bucket 0 perplexity 15.81 eval: bucket 1 perplexity 21.53 eval: bucket 2 perplexity 25.31 eval: bucket 3 perplexity 31.94 global step 251200 learning rate 0.0294 step-time 0.13 perplexity 18.67 eval: bucket 0 perplexity 20.41 eval: bucket 1 perplexity 20.69 eval: bucket 2 perplexity 20.34 eval: bucket 3 perplexity 19.09 global step 251400 learning rate 0.0294 step-time 0.14 perplexity 19.60 eval: bucket 0 perplexity 14.92 eval: bucket 1 perplexity 16.82 eval: bucket 2 perplexity 22.97 eval: bucket 3 perplexity 37.24 global step 251600 learning rate 0.0291 step-time 0.14 perplexity 19.22 eval: bucket 0 perplexity 21.49 eval: bucket 1 perplexity 19.29 eval: bucket 2 perplexity 26.30 eval: bucket 3 perplexity 35.96 global step 251800 learning rate 0.0291 step-time 0.13 perplexity 18.63 eval: bucket 0 perplexity 18.76 eval: bucket 1 perplexity 22.07 eval: bucket 2 perplexity 31.58 eval: bucket 3 perplexity 38.67 global step 252000 learning rate 0.0291 step-time 0.14 perplexity 20.03 eval: bucket 0 perplexity 23.31 eval: bucket 1 perplexity 20.69 eval: bucket 2 perplexity 28.36 eval: bucket 3 perplexity 34.93 global step 252200 learning rate 0.0288 step-time 0.13 perplexity 19.06 eval: bucket 0 perplexity 20.10 eval: bucket 1 perplexity 25.68 eval: bucket 2 perplexity 30.57 eval: bucket 3 perplexity 38.30 global step 252400 learning rate 0.0288 step-time 0.13 perplexity 19.04 eval: bucket 0 perplexity 14.10 eval: bucket 1 perplexity 44.20 eval: bucket 2 perplexity 16.16 eval: bucket 3 perplexity 32.81 global step 252600 learning rate 0.0288 step-time 0.14 perplexity 18.74 eval: bucket 0 perplexity 25.74 eval: bucket 1 perplexity 24.22 eval: bucket 2 perplexity 27.08 eval: bucket 3 perplexity 33.63 global step 252800 learning rate 0.0288 step-time 0.13 perplexity 18.76 eval: bucket 0 perplexity 21.14 eval: bucket 1 perplexity 25.93 eval: bucket 2 perplexity 21.24 eval: bucket 3 perplexity 25.08 global step 253000 learning rate 0.0288 step-time 0.13 perplexity 18.47 eval: bucket 0 perplexity 19.86 eval: bucket 1 perplexity 16.50 eval: bucket 2 perplexity 28.61 eval: bucket 3 perplexity 37.69 global step 253200 learning rate 0.0288 step-time 0.13 perplexity 19.48 eval: bucket 0 perplexity 26.03 eval: bucket 1 perplexity 24.43 eval: bucket 2 perplexity 26.17 eval: bucket 3 perplexity 32.59 global step 253400 learning rate 0.0285 step-time 0.13 perplexity 18.73 eval: bucket 0 perplexity 18.28 eval: bucket 1 perplexity 17.61 eval: bucket 2 perplexity 23.21 eval: bucket 3 perplexity 34.67 global step 253600 learning rate 0.0285 step-time 0.13 perplexity 18.90 eval: bucket 0 perplexity 21.71 eval: bucket 1 perplexity 22.03 eval: bucket 2 perplexity 29.34 eval: bucket 3 perplexity 40.88 global step 253800 learning rate 0.0285 step-time 0.14 perplexity 19.83 eval: bucket 0 perplexity 14.20 eval: bucket 1 perplexity 17.07 eval: bucket 2 perplexity 24.74 eval: bucket 3 perplexity 22.68 global step 254000 learning rate 0.0282 step-time 0.13 perplexity 19.16 eval: bucket 0 perplexity 18.59 eval: bucket 1 perplexity 18.82 eval: bucket 2 perplexity 20.57 eval: bucket 3 perplexity 23.19 global step 254200 learning rate 0.0282 step-time 0.13 perplexity 19.04 eval: bucket 0 perplexity 19.72 eval: bucket 1 perplexity 27.05 eval: bucket 2 perplexity 22.19 eval: bucket 3 perplexity 41.21 global step 254400 learning rate 0.0282 step-time 0.13 perplexity 19.00 eval: bucket 0 perplexity 22.80 eval: bucket 1 perplexity 16.66 eval: bucket 2 perplexity 20.94 eval: bucket 3 perplexity 23.44 global step 254600 learning rate 0.0282 step-time 0.13 perplexity 18.51 eval: bucket 0 perplexity 19.06 eval: bucket 1 perplexity 25.12 eval: bucket 2 perplexity 32.05 eval: bucket 3 perplexity 22.28 global step 254800 learning rate 0.0282 step-time 0.13 perplexity 18.53 eval: bucket 0 perplexity 21.16 eval: bucket 1 perplexity 19.15 eval: bucket 2 perplexity 22.22 eval: bucket 3 perplexity 32.75 global step 255000 learning rate 0.0282 step-time 0.13 perplexity 19.32 eval: bucket 0 perplexity 17.90 eval: bucket 1 perplexity 19.21 eval: bucket 2 perplexity 32.83 eval: bucket 3 perplexity 39.06 global step 255200 learning rate 0.0279 step-time 0.14 perplexity 19.33 eval: bucket 0 perplexity 18.06 eval: bucket 1 perplexity 17.09 eval: bucket 2 perplexity 24.90 eval: bucket 3 perplexity 29.12 global step 255400 learning rate 0.0277 step-time 0.13 perplexity 19.09 eval: bucket 0 perplexity 21.30 eval: bucket 1 perplexity 27.38 eval: bucket 2 perplexity 29.61 eval: bucket 3 perplexity 33.97 global step 255600 learning rate 0.0277 step-time 0.13 perplexity 18.63 eval: bucket 0 perplexity 24.06 eval: bucket 1 perplexity 21.91 eval: bucket 2 perplexity 23.30 eval: bucket 3 perplexity 35.15 global step 255800 learning rate 0.0277 step-time 0.15 perplexity 18.72 eval: bucket 0 perplexity 19.61 eval: bucket 1 perplexity 22.42 eval: bucket 2 perplexity 23.58 eval: bucket 3 perplexity 27.36 global step 256000 learning rate 0.0277 step-time 0.13 perplexity 18.94 eval: bucket 0 perplexity 31.66 eval: bucket 1 perplexity 20.41 eval: bucket 2 perplexity 14.93 eval: bucket 3 perplexity 29.45 global step 256200 learning rate 0.0277 step-time 0.13 perplexity 19.38 eval: bucket 0 perplexity 15.21 eval: bucket 1 perplexity 21.25 eval: bucket 2 perplexity 25.26 eval: bucket 3 perplexity 25.86 global step 256400 learning rate 0.0274 step-time 0.13 perplexity 18.67 eval: bucket 0 perplexity 23.58 eval: bucket 1 perplexity 23.98 eval: bucket 2 perplexity 25.99 eval: bucket 3 perplexity 22.46 global step 256600 learning rate 0.0274 step-time 0.14 perplexity 18.71 eval: bucket 0 perplexity 17.39 eval: bucket 1 perplexity 15.88 eval: bucket 2 perplexity 23.79 eval: bucket 3 perplexity 22.58 global step 256800 learning rate 0.0274 step-time 0.15 perplexity 19.47 eval: bucket 0 perplexity 28.09 eval: bucket 1 perplexity 21.35 eval: bucket 2 perplexity 23.27 eval: bucket 3 perplexity 30.23 global step 257000 learning rate 0.0271 step-time 0.14 perplexity 19.18 eval: bucket 0 perplexity 18.08 eval: bucket 1 perplexity 15.85 eval: bucket 2 perplexity 26.45 eval: bucket 3 perplexity 35.35 global step 257200 learning rate 0.0271 step-time 0.13 perplexity 18.69 eval: bucket 0 perplexity 18.36 eval: bucket 1 perplexity 16.08 eval: bucket 2 perplexity 32.38 eval: bucket 3 perplexity 34.42 global step 257400 learning rate 0.0271 step-time 0.13 perplexity 18.81 eval: bucket 0 perplexity 14.95 eval: bucket 1 perplexity 28.97 eval: bucket 2 perplexity 30.60 eval: bucket 3 perplexity 36.33 global step 257600 learning rate 0.0271 step-time 0.14 perplexity 19.32 eval: bucket 0 perplexity 19.47 eval: bucket 1 perplexity 22.31 eval: bucket 2 perplexity 36.65 eval: bucket 3 perplexity 21.59 global step 257800 learning rate 0.0268 step-time 0.13 perplexity 19.13 eval: bucket 0 perplexity 18.83 eval: bucket 1 perplexity 25.79 eval: bucket 2 perplexity 23.25 eval: bucket 3 perplexity 34.94 global step 258000 learning rate 0.0268 step-time 0.13 perplexity 18.97 eval: bucket 0 perplexity 18.11 eval: bucket 1 perplexity 26.81 eval: bucket 2 perplexity 17.87 eval: bucket 3 perplexity 28.93 global step 258200 learning rate 0.0268 step-time 0.13 perplexity 19.20 eval: bucket 0 perplexity 16.73 eval: bucket 1 perplexity 24.02 eval: bucket 2 perplexity 28.34 eval: bucket 3 perplexity 32.78 global step 258400 learning rate 0.0268 step-time 0.13 perplexity 19.20 eval: bucket 0 perplexity 19.46 eval: bucket 1 perplexity 38.05 eval: bucket 2 perplexity 17.86 eval: bucket 3 perplexity 31.19 global step 258600 learning rate 0.0268 step-time 0.14 perplexity 19.36 eval: bucket 0 perplexity 12.80 eval: bucket 1 perplexity 31.77 eval: bucket 2 perplexity 16.52 eval: bucket 3 perplexity 21.73 global step 258800 learning rate 0.0266 step-time 0.13 perplexity 18.87 eval: bucket 0 perplexity 19.12 eval: bucket 1 perplexity 33.86 eval: bucket 2 perplexity 24.19 eval: bucket 3 perplexity 26.75 global step 259000 learning rate 0.0266 step-time 0.13 perplexity 18.56 eval: bucket 0 perplexity 24.66 eval: bucket 1 perplexity 24.14 eval: bucket 2 perplexity 28.62 eval: bucket 3 perplexity 49.79 global step 259200 learning rate 0.0266 step-time 0.12 perplexity 19.07 eval: bucket 0 perplexity 19.26 eval: bucket 1 perplexity 15.94 eval: bucket 2 perplexity 38.19 eval: bucket 3 perplexity 26.45 global step 259400 learning rate 0.0266 step-time 0.13 perplexity 18.88 eval: bucket 0 perplexity 21.78 eval: bucket 1 perplexity 12.77 eval: bucket 2 perplexity 34.22 eval: bucket 3 perplexity 25.05 global step 259600 learning rate 0.0266 step-time 0.14 perplexity 18.44 eval: bucket 0 perplexity 15.16 eval: bucket 1 perplexity 19.34 eval: bucket 2 perplexity 17.71 eval: bucket 3 perplexity 27.76 global step 259800 learning rate 0.0266 step-time 0.14 perplexity 19.26 eval: bucket 0 perplexity 25.03 eval: bucket 1 perplexity 19.62 eval: bucket 2 perplexity 14.78 eval: bucket 3 perplexity 36.57 global step 260000 learning rate 0.0263 step-time 0.14 perplexity 18.86 eval: bucket 0 perplexity 11.74 eval: bucket 1 perplexity 19.21 eval: bucket 2 perplexity 24.84 eval: bucket 3 perplexity 28.15 global step 260200 learning rate 0.0263 step-time 0.13 perplexity 18.80 eval: bucket 0 perplexity 20.25 eval: bucket 1 perplexity 17.05 eval: bucket 2 perplexity 29.69 eval: bucket 3 perplexity 31.16 global step 260400 learning rate 0.0263 step-time 0.13 perplexity 18.76 eval: bucket 0 perplexity 14.22 eval: bucket 1 perplexity 24.51 eval: bucket 2 perplexity 26.31 eval: bucket 3 perplexity 36.18 global step 260600 learning rate 0.0263 step-time 0.14 perplexity 18.46 eval: bucket 0 perplexity 15.15 eval: bucket 1 perplexity 17.51 eval: bucket 2 perplexity 21.60 eval: bucket 3 perplexity 25.07 global step 260800 learning rate 0.0263 step-time 0.13 perplexity 19.02 eval: bucket 0 perplexity 18.71 eval: bucket 1 perplexity 24.35 eval: bucket 2 perplexity 26.42 eval: bucket 3 perplexity 22.95 global step 261000 learning rate 0.0260 step-time 0.13 perplexity 18.79 eval: bucket 0 perplexity 18.79 eval: bucket 1 perplexity 30.17 eval: bucket 2 perplexity 30.96 eval: bucket 3 perplexity 34.57 global step 261200 learning rate 0.0260 step-time 0.14 perplexity 20.01 eval: bucket 0 perplexity 33.11 eval: bucket 1 perplexity 17.51 eval: bucket 2 perplexity 28.85 eval: bucket 3 perplexity 33.04 global step 261400 learning rate 0.0258 step-time 0.13 perplexity 19.37 eval: bucket 0 perplexity 19.59 eval: bucket 1 perplexity 28.43 eval: bucket 2 perplexity 22.68 eval: bucket 3 perplexity 31.66 global step 261600 learning rate 0.0258 step-time 0.14 perplexity 19.44 eval: bucket 0 perplexity 16.28 eval: bucket 1 perplexity 18.61 eval: bucket 2 perplexity 29.44 eval: bucket 3 perplexity 27.36 global step 261800 learning rate 0.0258 step-time 0.13 perplexity 18.54 eval: bucket 0 perplexity 13.75 eval: bucket 1 perplexity 20.53 eval: bucket 2 perplexity 28.11 eval: bucket 3 perplexity 30.15 global step 262000 learning rate 0.0258 step-time 0.13 perplexity 19.01 eval: bucket 0 perplexity 16.07 eval: bucket 1 perplexity 24.70 eval: bucket 2 perplexity 27.52 eval: bucket 3 perplexity 33.87 global step 262200 learning rate 0.0258 step-time 0.14 perplexity 19.57 eval: bucket 0 perplexity 19.97 eval: bucket 1 perplexity 34.41 eval: bucket 2 perplexity 18.49 eval: bucket 3 perplexity 26.50 global step 262400 learning rate 0.0255 step-time 0.13 perplexity 18.35 eval: bucket 0 perplexity 22.40 eval: bucket 1 perplexity 20.39 eval: bucket 2 perplexity 29.85 eval: bucket 3 perplexity 16.47 global step 262600 learning rate 0.0255 step-time 0.13 perplexity 18.76 eval: bucket 0 perplexity 23.96 eval: bucket 1 perplexity 19.49 eval: bucket 2 perplexity 21.49 eval: bucket 3 perplexity 29.68 global step 262800 learning rate 0.0255 step-time 0.12 perplexity 19.00 eval: bucket 0 perplexity 18.48 eval: bucket 1 perplexity 18.66 eval: bucket 2 perplexity 24.21 eval: bucket 3 perplexity 36.02 global step 263000 learning rate 0.0255 step-time 0.15 perplexity 18.75 eval: bucket 0 perplexity 21.71 eval: bucket 1 perplexity 26.76 eval: bucket 2 perplexity 20.19 eval: bucket 3 perplexity 30.65 global step 263200 learning rate 0.0255 step-time 0.13 perplexity 18.61 eval: bucket 0 perplexity 18.47 eval: bucket 1 perplexity 12.69 eval: bucket 2 perplexity 21.60 eval: bucket 3 perplexity 20.99 global step 263400 learning rate 0.0255 step-time 0.12 perplexity 18.23 eval: bucket 0 perplexity 19.43 eval: bucket 1 perplexity 25.24 eval: bucket 2 perplexity 30.42 eval: bucket 3 perplexity 29.08 global step 263600 learning rate 0.0255 step-time 0.13 perplexity 18.17 eval: bucket 0 perplexity 22.40 eval: bucket 1 perplexity 20.57 eval: bucket 2 perplexity 26.91 eval: bucket 3 perplexity 31.58 global step 263800 learning rate 0.0255 step-time 0.13 perplexity 18.95 eval: bucket 0 perplexity 16.48 eval: bucket 1 perplexity 21.03 eval: bucket 2 perplexity 23.34 eval: bucket 3 perplexity 31.16 global step 264000 learning rate 0.0253 step-time 0.13 perplexity 19.52 eval: bucket 0 perplexity 15.62 eval: bucket 1 perplexity 11.88 eval: bucket 2 perplexity 30.73 eval: bucket 3 perplexity 29.71 global step 264200 learning rate 0.0250 step-time 0.13 perplexity 19.09 eval: bucket 0 perplexity 23.50 eval: bucket 1 perplexity 28.89 eval: bucket 2 perplexity 29.27 eval: bucket 3 perplexity 23.91 global step 264400 learning rate 0.0250 step-time 0.13 perplexity 19.30 eval: bucket 0 perplexity 13.54 eval: bucket 1 perplexity 24.69 eval: bucket 2 perplexity 28.91 eval: bucket 3 perplexity 25.38 global step 264600 learning rate 0.0250 step-time 0.14 perplexity 19.31 eval: bucket 0 perplexity 18.08 eval: bucket 1 perplexity 22.40 eval: bucket 2 perplexity 29.77 eval: bucket 3 perplexity 31.24 global step 264800 learning rate 0.0250 step-time 0.13 perplexity 18.43 eval: bucket 0 perplexity 25.96 eval: bucket 1 perplexity 19.31 eval: bucket 2 perplexity 22.22 eval: bucket 3 perplexity 37.94 global step 265000 learning rate 0.0250 step-time 0.13 perplexity 18.26 eval: bucket 0 perplexity 27.05 eval: bucket 1 perplexity 11.36 eval: bucket 2 perplexity 24.50 eval: bucket 3 perplexity 35.63 global step 265200 learning rate 0.0250 step-time 0.13 perplexity 17.92 eval: bucket 0 perplexity 25.34 eval: bucket 1 perplexity 25.64 eval: bucket 2 perplexity 33.70 eval: bucket 3 perplexity 23.00 global step 265400 learning rate 0.0250 step-time 0.13 perplexity 18.83 eval: bucket 0 perplexity 17.70 eval: bucket 1 perplexity 27.72 eval: bucket 2 perplexity 28.85 eval: bucket 3 perplexity 35.90 global step 265600 learning rate 0.0248 step-time 0.12 perplexity 18.38 eval: bucket 0 perplexity 20.00 eval: bucket 1 perplexity 20.93 eval: bucket 2 perplexity 35.93 eval: bucket 3 perplexity 31.55 global step 265800 learning rate 0.0248 step-time 0.13 perplexity 18.60 eval: bucket 0 perplexity 14.71 eval: bucket 1 perplexity 24.54 eval: bucket 2 perplexity 34.56 eval: bucket 3 perplexity 28.75 global step 266000 learning rate 0.0248 step-time 0.13 perplexity 18.09 eval: bucket 0 perplexity 16.17 eval: bucket 1 perplexity 36.04 eval: bucket 2 perplexity 23.83 eval: bucket 3 perplexity 40.45 global step 266200 learning rate 0.0248 step-time 0.13 perplexity 18.43 eval: bucket 0 perplexity 22.63 eval: bucket 1 perplexity 21.89 eval: bucket 2 perplexity 22.47 eval: bucket 3 perplexity 40.97 global step 266400 learning rate 0.0248 step-time 0.12 perplexity 18.80 eval: bucket 0 perplexity 18.44 eval: bucket 1 perplexity 23.04 eval: bucket 2 perplexity 25.65 eval: bucket 3 perplexity 31.01 global step 266600 learning rate 0.0245 step-time 0.12 perplexity 18.61 eval: bucket 0 perplexity 26.45 eval: bucket 1 perplexity 25.87 eval: bucket 2 perplexity 20.50 eval: bucket 3 perplexity 36.84 global step 266800 learning rate 0.0245 step-time 0.14 perplexity 19.16 eval: bucket 0 perplexity 26.44 eval: bucket 1 perplexity 16.98 eval: bucket 2 perplexity 16.14 eval: bucket 3 perplexity 28.87 global step 267000 learning rate 0.0243 step-time 0.14 perplexity 18.72 eval: bucket 0 perplexity 21.21 eval: bucket 1 perplexity 31.30 eval: bucket 2 perplexity 29.14 eval: bucket 3 perplexity 35.01 global step 267200 learning rate 0.0243 step-time 0.13 perplexity 18.89 eval: bucket 0 perplexity 15.86 eval: bucket 1 perplexity 24.93 eval: bucket 2 perplexity 30.47 eval: bucket 3 perplexity 43.66 global step 267400 learning rate 0.0243 step-time 0.14 perplexity 19.04 eval: bucket 0 perplexity 17.45 eval: bucket 1 perplexity 21.17 eval: bucket 2 perplexity 17.58 eval: bucket 3 perplexity 35.91 global step 267600 learning rate 0.0243 step-time 0.14 perplexity 19.28 eval: bucket 0 perplexity 27.39 eval: bucket 1 perplexity 21.55 eval: bucket 2 perplexity 32.05 eval: bucket 3 perplexity 32.75 global step 267800 learning rate 0.0240 step-time 0.13 perplexity 18.76 eval: bucket 0 perplexity 15.75 eval: bucket 1 perplexity 17.72 eval: bucket 2 perplexity 29.03 eval: bucket 3 perplexity 31.25 global step 268000 learning rate 0.0240 step-time 0.14 perplexity 18.93 eval: bucket 0 perplexity 14.33 eval: bucket 1 perplexity 21.81 eval: bucket 2 perplexity 29.36 eval: bucket 3 perplexity 27.33 global step 268200 learning rate 0.0240 step-time 0.13 perplexity 18.74 eval: bucket 0 perplexity 15.01 eval: bucket 1 perplexity 20.74 eval: bucket 2 perplexity 26.00 eval: bucket 3 perplexity 33.24 global step 268400 learning rate 0.0240 step-time 0.13 perplexity 18.82 eval: bucket 0 perplexity 21.49 eval: bucket 1 perplexity 20.25 eval: bucket 2 perplexity 23.61 eval: bucket 3 perplexity 19.78 global step 268600 learning rate 0.0240 step-time 0.13 perplexity 18.47 eval: bucket 0 perplexity 19.53 eval: bucket 1 perplexity 18.54 eval: bucket 2 perplexity 24.68 eval: bucket 3 perplexity 24.65 global step 268800 learning rate 0.0240 step-time 0.13 perplexity 18.86 eval: bucket 0 perplexity 22.52 eval: bucket 1 perplexity 16.02 eval: bucket 2 perplexity 20.82 eval: bucket 3 perplexity 25.21 global step 269000 learning rate 0.0238 step-time 0.13 perplexity 18.86 eval: bucket 0 perplexity 16.15 eval: bucket 1 perplexity 25.37 eval: bucket 2 perplexity 24.57 eval: bucket 3 perplexity 44.18 global step 269200 learning rate 0.0236 step-time 0.13 perplexity 18.30 eval: bucket 0 perplexity 23.24 eval: bucket 1 perplexity 23.77 eval: bucket 2 perplexity 14.76 eval: bucket 3 perplexity 23.42 global step 269400 learning rate 0.0236 step-time 0.14 perplexity 18.69 eval: bucket 0 perplexity 15.49 eval: bucket 1 perplexity 17.35 eval: bucket 2 perplexity 23.02 eval: bucket 3 perplexity 31.67 global step 269600 learning rate 0.0236 step-time 0.13 perplexity 18.41 eval: bucket 0 perplexity 10.47 eval: bucket 1 perplexity 21.50 eval: bucket 2 perplexity 23.45 eval: bucket 3 perplexity 34.86 global step 269800 learning rate 0.0236 step-time 0.13 perplexity 18.90 eval: bucket 0 perplexity 17.50 eval: bucket 1 perplexity 21.93 eval: bucket 2 perplexity 18.53 eval: bucket 3 perplexity 23.27 global step 270000 learning rate 0.0233 step-time 0.14 perplexity 18.50 eval: bucket 0 perplexity 18.02 eval: bucket 1 perplexity 20.31 eval: bucket 2 perplexity 27.71 eval: bucket 3 perplexity 35.10 global step 270200 learning rate 0.0233 step-time 0.13 perplexity 18.32 eval: bucket 0 perplexity 17.87 eval: bucket 1 perplexity 22.93 eval: bucket 2 perplexity 24.16 eval: bucket 3 perplexity 25.22 global step 270400 learning rate 0.0233 step-time 0.12 perplexity 18.76 eval: bucket 0 perplexity 25.31 eval: bucket 1 perplexity 37.48 eval: bucket 2 perplexity 19.14 eval: bucket 3 perplexity 38.68 global step 270600 learning rate 0.0233 step-time 0.14 perplexity 18.58 eval: bucket 0 perplexity 25.47 eval: bucket 1 perplexity 36.84 eval: bucket 2 perplexity 24.09 eval: bucket 3 perplexity 37.58 global step 270800 learning rate 0.0233 step-time 0.14 perplexity 19.16 eval: bucket 0 perplexity 26.55 eval: bucket 1 perplexity 17.87 eval: bucket 2 perplexity 19.59 eval: bucket 3 perplexity 30.82 global step 271000 learning rate 0.0231 step-time 0.13 perplexity 18.61 eval: bucket 0 perplexity 18.34 eval: bucket 1 perplexity 29.16 eval: bucket 2 perplexity 31.70 eval: bucket 3 perplexity 29.66 global step 271200 learning rate 0.0231 step-time 0.13 perplexity 18.70 eval: bucket 0 perplexity 14.65 eval: bucket 1 perplexity 18.25 eval: bucket 2 perplexity 24.32 eval: bucket 3 perplexity 29.04 global step 271400 learning rate 0.0231 step-time 0.13 perplexity 18.30 eval: bucket 0 perplexity 19.48 eval: bucket 1 perplexity 27.91 eval: bucket 2 perplexity 29.38 eval: bucket 3 perplexity 31.02 global step 271600 learning rate 0.0231 step-time 0.13 perplexity 18.95 eval: bucket 0 perplexity 11.17 eval: bucket 1 perplexity 17.90 eval: bucket 2 perplexity 29.13 eval: bucket 3 perplexity 33.56 global step 271800 learning rate 0.0229 step-time 0.13 perplexity 18.61 eval: bucket 0 perplexity 11.15 eval: bucket 1 perplexity 18.96 eval: bucket 2 perplexity 29.24 eval: bucket 3 perplexity 37.41 global step 272000 learning rate 0.0229 step-time 0.13 perplexity 19.10 eval: bucket 0 perplexity 34.45 eval: bucket 1 perplexity 30.80 eval: bucket 2 perplexity 22.64 eval: bucket 3 perplexity 22.79 global step 272200 learning rate 0.0226 step-time 0.12 perplexity 19.05 eval: bucket 0 perplexity 17.63 eval: bucket 1 perplexity 21.90 eval: bucket 2 perplexity 20.57 eval: bucket 3 perplexity 36.13 global step 272400 learning rate 0.0226 step-time 0.13 perplexity 18.87 eval: bucket 0 perplexity 16.69 eval: bucket 1 perplexity 15.87 eval: bucket 2 perplexity 25.34 eval: bucket 3 perplexity 38.24 global step 272600 learning rate 0.0226 step-time 0.13 perplexity 18.60 eval: bucket 0 perplexity 25.09 eval: bucket 1 perplexity 19.73 eval: bucket 2 perplexity 21.99 eval: bucket 3 perplexity 33.31 global step 272800 learning rate 0.0226 step-time 0.13 perplexity 18.83 eval: bucket 0 perplexity 11.86 eval: bucket 1 perplexity 25.92 eval: bucket 2 perplexity 35.96 eval: bucket 3 perplexity 33.16 global step 273000 learning rate 0.0226 step-time 0.13 perplexity 18.67 eval: bucket 0 perplexity 22.33 eval: bucket 1 perplexity 22.85 eval: bucket 2 perplexity 25.93 eval: bucket 3 perplexity 27.64 global step 273200 learning rate 0.0226 step-time 0.13 perplexity 18.29 eval: bucket 0 perplexity 18.11 eval: bucket 1 perplexity 18.21 eval: bucket 2 perplexity 27.18 eval: bucket 3 perplexity 26.02 global step 273400 learning rate 0.0226 step-time 0.14 perplexity 18.75 eval: bucket 0 perplexity 15.26 eval: bucket 1 perplexity 17.11 eval: bucket 2 perplexity 26.61 eval: bucket 3 perplexity 29.13 global step 273600 learning rate 0.0226 step-time 0.13 perplexity 18.37 eval: bucket 0 perplexity 17.37 eval: bucket 1 perplexity 13.82 eval: bucket 2 perplexity 32.61 eval: bucket 3 perplexity 26.11 global step 273800 learning rate 0.0226 step-time 0.12 perplexity 18.35 eval: bucket 0 perplexity 24.07 eval: bucket 1 perplexity 24.55 eval: bucket 2 perplexity 24.02 eval: bucket 3 perplexity 37.76 global step 274000 learning rate 0.0226 step-time 0.13 perplexity 18.13 eval: bucket 0 perplexity 21.95 eval: bucket 1 perplexity 19.85 eval: bucket 2 perplexity 22.27 eval: bucket 3 perplexity 27.69 global step 274200 learning rate 0.0226 step-time 0.13 perplexity 19.11 eval: bucket 0 perplexity 18.06 eval: bucket 1 perplexity 25.44 eval: bucket 2 perplexity 35.54 eval: bucket 3 perplexity 34.95 global step 274400 learning rate 0.0224 step-time 0.13 perplexity 18.92 eval: bucket 0 perplexity 16.79 eval: bucket 1 perplexity 21.45 eval: bucket 2 perplexity 29.04 eval: bucket 3 perplexity 32.98 global step 274600 learning rate 0.0224 step-time 0.13 perplexity 18.84 eval: bucket 0 perplexity 21.86 eval: bucket 1 perplexity 51.63 eval: bucket 2 perplexity 32.25 eval: bucket 3 perplexity 35.72 global step 274800 learning rate 0.0224 step-time 0.14 perplexity 18.45 eval: bucket 0 perplexity 19.92 eval: bucket 1 perplexity 30.13 eval: bucket 2 perplexity 30.43 eval: bucket 3 perplexity 27.07 global step 275000 learning rate 0.0224 step-time 0.13 perplexity 19.09 eval: bucket 0 perplexity 20.61 eval: bucket 1 perplexity 24.20 eval: bucket 2 perplexity 31.66 eval: bucket 3 perplexity 34.88 global step 275200 learning rate 0.0222 step-time 0.14 perplexity 18.21 eval: bucket 0 perplexity 17.47 eval: bucket 1 perplexity 19.60 eval: bucket 2 perplexity 21.66 eval: bucket 3 perplexity 25.45 global step 275400 learning rate 0.0222 step-time 0.13 perplexity 18.61 eval: bucket 0 perplexity 28.82 eval: bucket 1 perplexity 12.19 eval: bucket 2 perplexity 23.35 eval: bucket 3 perplexity 31.62 global step 275600 learning rate 0.0222 step-time 0.13 perplexity 18.35 eval: bucket 0 perplexity 13.43 eval: bucket 1 perplexity 23.43 eval: bucket 2 perplexity 27.50 eval: bucket 3 perplexity 28.85 global step 275800 learning rate 0.0222 step-time 0.13 perplexity 18.47 eval: bucket 0 perplexity 27.33 eval: bucket 1 perplexity 34.07 eval: bucket 2 perplexity 25.24 eval: bucket 3 perplexity 23.83 global step 276000 learning rate 0.0222 step-time 0.13 perplexity 18.28 eval: bucket 0 perplexity 19.09 eval: bucket 1 perplexity 17.66 eval: bucket 2 perplexity 25.82 eval: bucket 3 perplexity 25.52 global step 276200 learning rate 0.0222 step-time 0.13 perplexity 18.79 eval: bucket 0 perplexity 20.59 eval: bucket 1 perplexity 20.81 eval: bucket 2 perplexity 25.84 eval: bucket 3 perplexity 25.54 global step 276400 learning rate 0.0220 step-time 0.12 perplexity 18.36 eval: bucket 0 perplexity 14.15 eval: bucket 1 perplexity 26.38 eval: bucket 2 perplexity 20.02 eval: bucket 3 perplexity 27.33 global step 276600 learning rate 0.0220 step-time 0.13 perplexity 18.76 eval: bucket 0 perplexity 16.89 eval: bucket 1 perplexity 32.43 eval: bucket 2 perplexity 18.82 eval: bucket 3 perplexity 25.93 global step 276800 learning rate 0.0220 step-time 0.13 perplexity 18.91 eval: bucket 0 perplexity 27.58 eval: bucket 1 perplexity 26.41 eval: bucket 2 perplexity 22.52 eval: bucket 3 perplexity 37.13 global step 277000 learning rate 0.0217 step-time 0.14 perplexity 19.17 eval: bucket 0 perplexity 18.39 eval: bucket 1 perplexity 22.59 eval: bucket 2 perplexity 17.95 eval: bucket 3 perplexity 25.05 global step 277200 learning rate 0.0215 step-time 0.13 perplexity 18.56 eval: bucket 0 perplexity 28.39 eval: bucket 1 perplexity 27.63 eval: bucket 2 perplexity 18.24 eval: bucket 3 perplexity 34.41 global step 277400 learning rate 0.0215 step-time 0.14 perplexity 18.73 eval: bucket 0 perplexity 15.43 eval: bucket 1 perplexity 20.87 eval: bucket 2 perplexity 18.52 eval: bucket 3 perplexity 29.51 global step 277600 learning rate 0.0215 step-time 0.13 perplexity 18.63 eval: bucket 0 perplexity 26.29 eval: bucket 1 perplexity 24.76 eval: bucket 2 perplexity 14.27 eval: bucket 3 perplexity 23.35 global step 277800 learning rate 0.0215 step-time 0.13 perplexity 18.36 eval: bucket 0 perplexity 16.58 eval: bucket 1 perplexity 17.24 eval: bucket 2 perplexity 26.96 eval: bucket 3 perplexity 36.54 global step 278000 learning rate 0.0215 step-time 0.12 perplexity 18.01 eval: bucket 0 perplexity 21.49 eval: bucket 1 perplexity 23.46 eval: bucket 2 perplexity 16.95 eval: bucket 3 perplexity 23.87 global step 278200 learning rate 0.0215 step-time 0.13 perplexity 18.31 eval: bucket 0 perplexity 25.76 eval: bucket 1 perplexity 15.72 eval: bucket 2 perplexity 24.84 eval: bucket 3 perplexity 30.53 global step 278400 learning rate 0.0215 step-time 0.14 perplexity 18.78 eval: bucket 0 perplexity 21.76 eval: bucket 1 perplexity 19.26 eval: bucket 2 perplexity 22.26 eval: bucket 3 perplexity 32.66 global step 278600 learning rate 0.0213 step-time 0.13 perplexity 18.69 eval: bucket 0 perplexity 16.56 eval: bucket 1 perplexity 18.77 eval: bucket 2 perplexity 32.49 eval: bucket 3 perplexity 33.11 global step 278800 learning rate 0.0213 step-time 0.13 perplexity 18.57 eval: bucket 0 perplexity 18.67 eval: bucket 1 perplexity 33.20 eval: bucket 2 perplexity 39.48 eval: bucket 3 perplexity 31.31 global step 279000 learning rate 0.0213 step-time 0.13 perplexity 18.51 eval: bucket 0 perplexity 21.10 eval: bucket 1 perplexity 20.10 eval: bucket 2 perplexity 23.31 eval: bucket 3 perplexity 25.52 global step 279200 learning rate 0.0213 step-time 0.13 perplexity 18.57 eval: bucket 0 perplexity 25.34 eval: bucket 1 perplexity 18.79 eval: bucket 2 perplexity 18.60 eval: bucket 3 perplexity 24.47 global step 279400 learning rate 0.0213 step-time 0.13 perplexity 18.79 eval: bucket 0 perplexity 19.39 eval: bucket 1 perplexity 17.77 eval: bucket 2 perplexity 30.72 eval: bucket 3 perplexity 23.29 global step 279600 learning rate 0.0211 step-time 0.13 perplexity 19.17 eval: bucket 0 perplexity 20.87 eval: bucket 1 perplexity 25.97 eval: bucket 2 perplexity 35.65 eval: bucket 3 perplexity 32.61 global step 279800 learning rate 0.0209 step-time 0.13 perplexity 18.70 eval: bucket 0 perplexity 27.05 eval: bucket 1 perplexity 18.26 eval: bucket 2 perplexity 23.67 eval: bucket 3 perplexity 39.05 global step 280000 learning rate 0.0209 step-time 0.13 perplexity 18.48 eval: bucket 0 perplexity 17.45 eval: bucket 1 perplexity 31.62 eval: bucket 2 perplexity 27.96 eval: bucket 3 perplexity 25.23 global step 280200 learning rate 0.0209 step-time 0.13 perplexity 18.24 eval: bucket 0 perplexity 23.75 eval: bucket 1 perplexity 24.29 eval: bucket 2 perplexity 26.71 eval: bucket 3 perplexity 26.36 global step 280400 learning rate 0.0209 step-time 0.13 perplexity 18.42 eval: bucket 0 perplexity 15.70 eval: bucket 1 perplexity 29.84 eval: bucket 2 perplexity 31.65 eval: bucket 3 perplexity 20.23 global step 280600 learning rate 0.0209 step-time 0.14 perplexity 18.89 eval: bucket 0 perplexity 20.37 eval: bucket 1 perplexity 20.97 eval: bucket 2 perplexity 29.29 eval: bucket 3 perplexity 41.33 global step 280800 learning rate 0.0207 step-time 0.13 perplexity 18.73 eval: bucket 0 perplexity 26.35 eval: bucket 1 perplexity 25.58 eval: bucket 2 perplexity 22.23 eval: bucket 3 perplexity 25.30 global step 281000 learning rate 0.0207 step-time 0.13 perplexity 18.59 eval: bucket 0 perplexity 15.74 eval: bucket 1 perplexity 23.20 eval: bucket 2 perplexity 29.03 eval: bucket 3 perplexity 24.65 global step 281200 learning rate 0.0207 step-time 0.13 perplexity 19.07 eval: bucket 0 perplexity 20.27 eval: bucket 1 perplexity 19.54 eval: bucket 2 perplexity 25.53 eval: bucket 3 perplexity 37.32 global step 281400 learning rate 0.0205 step-time 0.13 perplexity 18.67 eval: bucket 0 perplexity 20.12 eval: bucket 1 perplexity 20.65 eval: bucket 2 perplexity 38.27 eval: bucket 3 perplexity 31.41 global step 281600 learning rate 0.0205 step-time 0.13 perplexity 18.45 eval: bucket 0 perplexity 26.46 eval: bucket 1 perplexity 20.31 eval: bucket 2 perplexity 26.51 eval: bucket 3 perplexity 29.01 global step 281800 learning rate 0.0205 step-time 0.13 perplexity 18.64 eval: bucket 0 perplexity 21.06 eval: bucket 1 perplexity 34.44 eval: bucket 2 perplexity 24.68 eval: bucket 3 perplexity 27.30 global step 282000 learning rate 0.0205 step-time 0.13 perplexity 18.79 eval: bucket 0 perplexity 13.89 eval: bucket 1 perplexity 18.27 eval: bucket 2 perplexity 28.15 eval: bucket 3 perplexity 33.47 global step 282200 learning rate 0.0203 step-time 0.14 perplexity 18.52 eval: bucket 0 perplexity 17.38 eval: bucket 1 perplexity 17.19 eval: bucket 2 perplexity 23.59 eval: bucket 3 perplexity 28.82 global step 282400 learning rate 0.0203 step-time 0.13 perplexity 19.02 eval: bucket 0 perplexity 20.10 eval: bucket 1 perplexity 17.67 eval: bucket 2 perplexity 26.06 eval: bucket 3 perplexity 32.76 global step 282600 learning rate 0.0201 step-time 0.13 perplexity 19.18 eval: bucket 0 perplexity 18.88 eval: bucket 1 perplexity 31.18 eval: bucket 2 perplexity 19.16 eval: bucket 3 perplexity 29.55 global step 282800 learning rate 0.0199 step-time 0.13 perplexity 19.04 eval: bucket 0 perplexity 24.51 eval: bucket 1 perplexity 20.07 eval: bucket 2 perplexity 20.83 eval: bucket 3 perplexity 46.20 global step 283000 learning rate 0.0199 step-time 0.13 perplexity 18.67 eval: bucket 0 perplexity 26.01 eval: bucket 1 perplexity 20.22 eval: bucket 2 perplexity 22.39 eval: bucket 3 perplexity 26.43 global step 283200 learning rate 0.0199 step-time 0.12 perplexity 18.56 eval: bucket 0 perplexity 16.79 eval: bucket 1 perplexity 28.83 eval: bucket 2 perplexity 28.41 eval: bucket 3 perplexity 31.12 global step 283400 learning rate 0.0199 step-time 0.13 perplexity 18.64 eval: bucket 0 perplexity 20.31 eval: bucket 1 perplexity 16.54 eval: bucket 2 perplexity 33.50 eval: bucket 3 perplexity 35.07 global step 283600 learning rate 0.0199 step-time 0.13 perplexity 18.44 eval: bucket 0 perplexity 15.40 eval: bucket 1 perplexity 33.65 eval: bucket 2 perplexity 20.42 eval: bucket 3 perplexity 28.88 global step 283800 learning rate 0.0199 step-time 0.13 perplexity 18.52 eval: bucket 0 perplexity 17.04 eval: bucket 1 perplexity 20.78 eval: bucket 2 perplexity 23.50 eval: bucket 3 perplexity 44.55 global step 284000 learning rate 0.0199 step-time 0.13 perplexity 18.25 eval: bucket 0 perplexity 16.95 eval: bucket 1 perplexity 20.55 eval: bucket 2 perplexity 50.38 eval: bucket 3 perplexity 22.12 global step 284200 learning rate 0.0199 step-time 0.13 perplexity 18.20 eval: bucket 0 perplexity 14.23 eval: bucket 1 perplexity 23.95 eval: bucket 2 perplexity 30.38 eval: bucket 3 perplexity 22.91 global step 284400 learning rate 0.0199 step-time 0.13 perplexity 18.84 eval: bucket 0 perplexity 15.17 eval: bucket 1 perplexity 20.85 eval: bucket 2 perplexity 18.37 eval: bucket 3 perplexity 40.82 global step 284600 learning rate 0.0197 step-time 0.12 perplexity 18.09 eval: bucket 0 perplexity 24.06 eval: bucket 1 perplexity 24.74 eval: bucket 2 perplexity 28.59 eval: bucket 3 perplexity 35.11 global step 284800 learning rate 0.0197 step-time 0.13 perplexity 18.20 eval: bucket 0 perplexity 15.77 eval: bucket 1 perplexity 31.84 eval: bucket 2 perplexity 22.99 eval: bucket 3 perplexity 26.25 global step 285000 learning rate 0.0197 step-time 0.14 perplexity 18.44 eval: bucket 0 perplexity 20.66 eval: bucket 1 perplexity 18.69 eval: bucket 2 perplexity 19.11 eval: bucket 3 perplexity 23.90 global step 285200 learning rate 0.0197 step-time 0.14 perplexity 18.90 eval: bucket 0 perplexity 13.06 eval: bucket 1 perplexity 23.76 eval: bucket 2 perplexity 25.65 eval: bucket 3 perplexity 27.20 global step 285400 learning rate 0.0195 step-time 0.13 perplexity 18.29 eval: bucket 0 perplexity 22.51 eval: bucket 1 perplexity 17.93 eval: bucket 2 perplexity 27.74 eval: bucket 3 perplexity 24.83 global step 285600 learning rate 0.0195 step-time 0.14 perplexity 18.63 eval: bucket 0 perplexity 16.50 eval: bucket 1 perplexity 22.01 eval: bucket 2 perplexity 32.20 eval: bucket 3 perplexity 32.36 global step 285800 learning rate 0.0195 step-time 0.13 perplexity 18.15 eval: bucket 0 perplexity 22.53 eval: bucket 1 perplexity 19.02 eval: bucket 2 perplexity 35.91 eval: bucket 3 perplexity 35.12 global step 286000 learning rate 0.0195 step-time 0.14 perplexity 18.59 eval: bucket 0 perplexity 25.16 eval: bucket 1 perplexity 18.57 eval: bucket 2 perplexity 25.28 eval: bucket 3 perplexity 30.01 global step 286200 learning rate 0.0195 step-time 0.13 perplexity 18.82 eval: bucket 0 perplexity 18.13 eval: bucket 1 perplexity 26.28 eval: bucket 2 perplexity 18.82 eval: bucket 3 perplexity 32.42 global step 286400 learning rate 0.0193 step-time 0.13 perplexity 18.03 eval: bucket 0 perplexity 11.73 eval: bucket 1 perplexity 19.44 eval: bucket 2 perplexity 19.98 eval: bucket 3 perplexity 27.05 global step 286600 learning rate 0.0193 step-time 0.13 perplexity 18.39 eval: bucket 0 perplexity 24.49 eval: bucket 1 perplexity 24.09 eval: bucket 2 perplexity 15.69 eval: bucket 3 perplexity 28.60 global step 286800 learning rate 0.0193 step-time 0.13 perplexity 17.79 eval: bucket 0 perplexity 22.19 eval: bucket 1 perplexity 19.66 eval: bucket 2 perplexity 30.28 eval: bucket 3 perplexity 30.93 global step 287000 learning rate 0.0193 step-time 0.13 perplexity 18.72 eval: bucket 0 perplexity 15.27 eval: bucket 1 perplexity 20.93 eval: bucket 2 perplexity 20.96 eval: bucket 3 perplexity 42.43 global step 287200 learning rate 0.0191 step-time 0.13 perplexity 18.89 eval: bucket 0 perplexity 15.87 eval: bucket 1 perplexity 22.60 eval: bucket 2 perplexity 21.04 eval: bucket 3 perplexity 29.35 global step 287400 learning rate 0.0189 step-time 0.12 perplexity 18.46 eval: bucket 0 perplexity 22.78 eval: bucket 1 perplexity 21.87 eval: bucket 2 perplexity 30.38 eval: bucket 3 perplexity 27.80 global step 287600 learning rate 0.0189 step-time 0.13 perplexity 17.67 eval: bucket 0 perplexity 23.01 eval: bucket 1 perplexity 19.61 eval: bucket 2 perplexity 44.12 eval: bucket 3 perplexity 48.54 global step 287800 learning rate 0.0189 step-time 0.13 perplexity 18.08 eval: bucket 0 perplexity 16.79 eval: bucket 1 perplexity 35.70 eval: bucket 2 perplexity 21.59 eval: bucket 3 perplexity 33.16 global step 288000 learning rate 0.0189 step-time 0.14 perplexity 18.87 eval: bucket 0 perplexity 25.70 eval: bucket 1 perplexity 29.31 eval: bucket 2 perplexity 29.95 eval: bucket 3 perplexity 45.08 global step 288200 learning rate 0.0187 step-time 0.13 perplexity 18.60 eval: bucket 0 perplexity 17.72 eval: bucket 1 perplexity 22.81 eval: bucket 2 perplexity 20.70 eval: bucket 3 perplexity 26.50 global step 288400 learning rate 0.0187 step-time 0.13 perplexity 18.60 eval: bucket 0 perplexity 14.94 eval: bucket 1 perplexity 28.27 eval: bucket 2 perplexity 30.09 eval: bucket 3 perplexity 21.11 global step 288600 learning rate 0.0187 step-time 0.13 perplexity 18.39 eval: bucket 0 perplexity 15.05 eval: bucket 1 perplexity 16.92 eval: bucket 2 perplexity 26.70 eval: bucket 3 perplexity 36.97 global step 288800 learning rate 0.0187 step-time 0.13 perplexity 17.87 eval: bucket 0 perplexity 28.73 eval: bucket 1 perplexity 17.31 eval: bucket 2 perplexity 26.00 eval: bucket 3 perplexity 31.86 global step 289000 learning rate 0.0187 step-time 0.13 perplexity 18.94 eval: bucket 0 perplexity 15.27 eval: bucket 1 perplexity 31.04 eval: bucket 2 perplexity 20.67 eval: bucket 3 perplexity 32.98 global step 289200 learning rate 0.0185 step-time 0.13 perplexity 18.64 eval: bucket 0 perplexity 24.11 eval: bucket 1 perplexity 25.65 eval: bucket 2 perplexity 34.74 eval: bucket 3 perplexity 26.73 global step 289400 learning rate 0.0185 step-time 0.13 perplexity 18.31 eval: bucket 0 perplexity 16.60 eval: bucket 1 perplexity 23.24 eval: bucket 2 perplexity 27.43 eval: bucket 3 perplexity 28.96 global step 289600 learning rate 0.0185 step-time 0.12 perplexity 18.23 eval: bucket 0 perplexity 12.75 eval: bucket 1 perplexity 24.71 eval: bucket 2 perplexity 28.29 eval: bucket 3 perplexity 25.61 global step 289800 learning rate 0.0185 step-time 0.14 perplexity 19.21 eval: bucket 0 perplexity 19.21 eval: bucket 1 perplexity 29.48 eval: bucket 2 perplexity 17.25 eval: bucket 3 perplexity 33.79 global step 290000 learning rate 0.0183 step-time 0.13 perplexity 18.57 eval: bucket 0 perplexity 20.52 eval: bucket 1 perplexity 20.77 eval: bucket 2 perplexity 22.35 eval: bucket 3 perplexity 29.66 global step 290200 learning rate 0.0183 step-time 0.13 perplexity 18.78 eval: bucket 0 perplexity 15.50 eval: bucket 1 perplexity 23.27 eval: bucket 2 perplexity 21.73 eval: bucket 3 perplexity 26.42 global step 290400 learning rate 0.0183 step-time 0.13 perplexity 18.53 eval: bucket 0 perplexity 10.26 eval: bucket 1 perplexity 20.34 eval: bucket 2 perplexity 39.56 eval: bucket 3 perplexity 33.59 global step 290600 learning rate 0.0183 step-time 0.13 perplexity 18.53 eval: bucket 0 perplexity 14.08 eval: bucket 1 perplexity 19.47 eval: bucket 2 perplexity 25.88 eval: bucket 3 perplexity 17.97 global step 290800 learning rate 0.0183 step-time 0.13 perplexity 18.22 eval: bucket 0 perplexity 18.67 eval: bucket 1 perplexity 18.45 eval: bucket 2 perplexity 13.66 eval: bucket 3 perplexity 32.55 global step 291000 learning rate 0.0183 step-time 0.13 perplexity 18.60 eval: bucket 0 perplexity 14.84 eval: bucket 1 perplexity 27.97 eval: bucket 2 perplexity 19.94 eval: bucket 3 perplexity 20.73 global step 291200 learning rate 0.0181 step-time 0.14 perplexity 18.56 eval: bucket 0 perplexity 16.22 eval: bucket 1 perplexity 17.13 eval: bucket 2 perplexity 23.15 eval: bucket 3 perplexity 31.19 global step 291400 learning rate 0.0181 step-time 0.12 perplexity 18.35 eval: bucket 0 perplexity 19.58 eval: bucket 1 perplexity 17.83 eval: bucket 2 perplexity 28.00 eval: bucket 3 perplexity 32.03 global step 291600 learning rate 0.0181 step-time 0.13 perplexity 18.41 eval: bucket 0 perplexity 15.62 eval: bucket 1 perplexity 13.73 eval: bucket 2 perplexity 15.63 eval: bucket 3 perplexity 28.98 global step 291800 learning rate 0.0181 step-time 0.13 perplexity 18.01 eval: bucket 0 perplexity 20.11 eval: bucket 1 perplexity 19.93 eval: bucket 2 perplexity 28.74 eval: bucket 3 perplexity 30.92 global step 292000 learning rate 0.0181 step-time 0.13 perplexity 18.87 eval: bucket 0 perplexity 25.89 eval: bucket 1 perplexity 28.24 eval: bucket 2 perplexity 18.71 eval: bucket 3 perplexity 21.99 global step 292200 learning rate 0.0180 step-time 0.13 perplexity 18.46 eval: bucket 0 perplexity 26.77 eval: bucket 1 perplexity 14.39 eval: bucket 2 perplexity 23.08 eval: bucket 3 perplexity 26.47 global step 292400 learning rate 0.0180 step-time 0.13 perplexity 18.87 eval: bucket 0 perplexity 19.29 eval: bucket 1 perplexity 27.54 eval: bucket 2 perplexity 23.39 eval: bucket 3 perplexity 25.65 global step 292600 learning rate 0.0180 step-time 0.12 perplexity 19.14 eval: bucket 0 perplexity 17.25 eval: bucket 1 perplexity 24.08 eval: bucket 2 perplexity 27.21 eval: bucket 3 perplexity 23.99 global step 292800 learning rate 0.0178 step-time 0.13 perplexity 18.69 eval: bucket 0 perplexity 16.50 eval: bucket 1 perplexity 19.55 eval: bucket 2 perplexity 28.32 eval: bucket 3 perplexity 30.68 global step 293000 learning rate 0.0178 step-time 0.14 perplexity 18.42 eval: bucket 0 perplexity 19.31 eval: bucket 1 perplexity 18.59 eval: bucket 2 perplexity 23.55 eval: bucket 3 perplexity 22.65 global step 293200 learning rate 0.0178 step-time 0.13 perplexity 18.89 eval: bucket 0 perplexity 18.15 eval: bucket 1 perplexity 23.77 eval: bucket 2 perplexity 31.59 eval: bucket 3 perplexity 30.31 global step 293400 learning rate 0.0178 step-time 0.14 perplexity 17.94 eval: bucket 0 perplexity 16.07 eval: bucket 1 perplexity 24.84 eval: bucket 2 perplexity 23.60 eval: bucket 3 perplexity 25.31 global step 293600 learning rate 0.0178 step-time 0.13 perplexity 18.35 eval: bucket 0 perplexity 22.29 eval: bucket 1 perplexity 25.02 eval: bucket 2 perplexity 22.06 eval: bucket 3 perplexity 27.70 global step 293800 learning rate 0.0178 step-time 0.14 perplexity 18.73 eval: bucket 0 perplexity 22.61 eval: bucket 1 perplexity 26.78 eval: bucket 2 perplexity 28.02 eval: bucket 3 perplexity 24.49 global step 294000 learning rate 0.0178 step-time 0.13 perplexity 18.31 eval: bucket 0 perplexity 21.78 eval: bucket 1 perplexity 22.27 eval: bucket 2 perplexity 24.11 eval: bucket 3 perplexity 23.34 global step 294200 learning rate 0.0178 step-time 0.13 perplexity 18.41 eval: bucket 0 perplexity 21.47 eval: bucket 1 perplexity 19.26 eval: bucket 2 perplexity 31.03 eval: bucket 3 perplexity 26.26 global step 294400 learning rate 0.0178 step-time 0.14 perplexity 18.74 eval: bucket 0 perplexity 14.22 eval: bucket 1 perplexity 26.44 eval: bucket 2 perplexity 21.59 eval: bucket 3 perplexity 31.66 global step 294600 learning rate 0.0176 step-time 0.14 perplexity 18.29 eval: bucket 0 perplexity 20.83 eval: bucket 1 perplexity 18.50 eval: bucket 2 perplexity 25.57 eval: bucket 3 perplexity 29.79 global step 294800 learning rate 0.0176 step-time 0.14 perplexity 18.97 eval: bucket 0 perplexity 25.47 eval: bucket 1 perplexity 20.79 eval: bucket 2 perplexity 24.15 eval: bucket 3 perplexity 36.69 global step 295000 learning rate 0.0174 step-time 0.14 perplexity 18.58 eval: bucket 0 perplexity 13.29 eval: bucket 1 perplexity 19.49 eval: bucket 2 perplexity 25.94 eval: bucket 3 perplexity 31.53 global step 295200 learning rate 0.0174 step-time 0.13 perplexity 18.67 eval: bucket 0 perplexity 16.01 eval: bucket 1 perplexity 21.01 eval: bucket 2 perplexity 29.73 eval: bucket 3 perplexity 37.37 global step 295400 learning rate 0.0174 step-time 0.13 perplexity 18.32 eval: bucket 0 perplexity 21.99 eval: bucket 1 perplexity 21.30 eval: bucket 2 perplexity 22.78 eval: bucket 3 perplexity 21.12 global step 295600 learning rate 0.0174 step-time 0.12 perplexity 18.35 eval: bucket 0 perplexity 13.61 eval: bucket 1 perplexity 19.10 eval: bucket 2 perplexity 26.89 eval: bucket 3 perplexity 37.65 global step 295800 learning rate 0.0174 step-time 0.13 perplexity 18.52 eval: bucket 0 perplexity 23.85 eval: bucket 1 perplexity 17.36 eval: bucket 2 perplexity 28.47 eval: bucket 3 perplexity 14.76 global step 296000 learning rate 0.0174 step-time 0.13 perplexity 18.67 eval: bucket 0 perplexity 14.23 eval: bucket 1 perplexity 28.49 eval: bucket 2 perplexity 17.34 eval: bucket 3 perplexity 38.85 global step 296200 learning rate 0.0172 step-time 0.13 perplexity 18.28 eval: bucket 0 perplexity 22.33 eval: bucket 1 perplexity 16.29 eval: bucket 2 perplexity 24.93 eval: bucket 3 perplexity 22.62 global step 296400 learning rate 0.0172 step-time 0.13 perplexity 19.00 eval: bucket 0 perplexity 18.60 eval: bucket 1 perplexity 17.96 eval: bucket 2 perplexity 24.46 eval: bucket 3 perplexity 32.67 global step 296600 learning rate 0.0171 step-time 0.14 perplexity 19.01 eval: bucket 0 perplexity 15.65 eval: bucket 1 perplexity 23.12 eval: bucket 2 perplexity 38.13 eval: bucket 3 perplexity 29.11 global step 296800 learning rate 0.0169 step-time 0.13 perplexity 18.41 eval: bucket 0 perplexity 22.96 eval: bucket 1 perplexity 22.75 eval: bucket 2 perplexity 21.10 eval: bucket 3 perplexity 44.98 global step 297000 learning rate 0.0169 step-time 0.13 perplexity 18.57 eval: bucket 0 perplexity 14.72 eval: bucket 1 perplexity 23.03 eval: bucket 2 perplexity 25.75 eval: bucket 3 perplexity 23.81 global step 297200 learning rate 0.0169 step-time 0.14 perplexity 18.09 eval: bucket 0 perplexity 16.37 eval: bucket 1 perplexity 23.48 eval: bucket 2 perplexity 20.23 eval: bucket 3 perplexity 28.04 global step 297400 learning rate 0.0169 step-time 0.13 perplexity 18.55 eval: bucket 0 perplexity 20.84 eval: bucket 1 perplexity 16.47 eval: bucket 2 perplexity 17.12 eval: bucket 3 perplexity 33.37 global step 297600 learning rate 0.0169 step-time 0.14 perplexity 18.74 eval: bucket 0 perplexity 23.96 eval: bucket 1 perplexity 20.01 eval: bucket 2 perplexity 26.91 eval: bucket 3 perplexity 44.61 global step 297800 learning rate 0.0167 step-time 0.13 perplexity 17.94 eval: bucket 0 perplexity 29.97 eval: bucket 1 perplexity 21.55 eval: bucket 2 perplexity 16.60 eval: bucket 3 perplexity 21.88 global step 298000 learning rate 0.0167 step-time 0.13 perplexity 18.51 eval: bucket 0 perplexity 15.96 eval: bucket 1 perplexity 27.47 eval: bucket 2 perplexity 20.62 eval: bucket 3 perplexity 34.13 global step 298200 learning rate 0.0167 step-time 0.14 perplexity 19.25 eval: bucket 0 perplexity 14.99 eval: bucket 1 perplexity 16.39 eval: bucket 2 perplexity 26.21 eval: bucket 3 perplexity 26.16 global step 298400 learning rate 0.0166 step-time 0.13 perplexity 18.20 eval: bucket 0 perplexity 19.73 eval: bucket 1 perplexity 34.58 eval: bucket 2 perplexity 23.97 eval: bucket 3 perplexity 43.76 global step 298600 learning rate 0.0166 step-time 0.14 perplexity 18.80 eval: bucket 0 perplexity 20.95 eval: bucket 1 perplexity 17.22 eval: bucket 2 perplexity 23.39 eval: bucket 3 perplexity 41.35 global step 298800 learning rate 0.0166 step-time 0.13 perplexity 18.59 eval: bucket 0 perplexity 18.41 eval: bucket 1 perplexity 18.65 eval: bucket 2 perplexity 26.23 eval: bucket 3 perplexity 35.17 global step 299000 learning rate 0.0166 step-time 0.13 perplexity 18.25 eval: bucket 0 perplexity 16.80 eval: bucket 1 perplexity 19.72 eval: bucket 2 perplexity 32.49 eval: bucket 3 perplexity 32.80 global step 299200 learning rate 0.0166 step-time 0.14 perplexity 18.53 eval: bucket 0 perplexity 22.81 eval: bucket 1 perplexity 19.52 eval: bucket 2 perplexity 26.88 eval: bucket 3 perplexity 21.02 global step 299400 learning rate 0.0166 step-time 0.13 perplexity 18.26 eval: bucket 0 perplexity 19.98 eval: bucket 1 perplexity 34.95 eval: bucket 2 perplexity 32.21 eval: bucket 3 perplexity 39.91 global step 299600 learning rate 0.0166 step-time 0.12 perplexity 18.34 eval: bucket 0 perplexity 15.93 eval: bucket 1 perplexity 15.20 eval: bucket 2 perplexity 22.67 eval: bucket 3 perplexity 31.52 global step 299800 learning rate 0.0166 step-time 0.13 perplexity 17.93 eval: bucket 0 perplexity 21.71 eval: bucket 1 perplexity 32.63 eval: bucket 2 perplexity 34.81 eval: bucket 3 perplexity 31.04 global step 300000 learning rate 0.0166 step-time 0.13 perplexity 18.51 eval: bucket 0 perplexity 16.01 eval: bucket 1 perplexity 22.53 eval: bucket 2 perplexity 26.85 eval: bucket 3 perplexity 20.86 global step 300200 learning rate 0.0164 step-time 0.13 perplexity 18.29 eval: bucket 0 perplexity 17.51 eval: bucket 1 perplexity 20.79 eval: bucket 2 perplexity 18.46 eval: bucket 3 perplexity 27.14 global step 300400 learning rate 0.0164 step-time 0.13 perplexity 18.45 eval: bucket 0 perplexity 13.92 eval: bucket 1 perplexity 25.76 eval: bucket 2 perplexity 18.57 eval: bucket 3 perplexity 29.83 global step 300600 learning rate 0.0164 step-time 0.13 perplexity 18.32 eval: bucket 0 perplexity 17.64 eval: bucket 1 perplexity 29.71 eval: bucket 2 perplexity 22.12 eval: bucket 3 perplexity 27.58 global step 300800 learning rate 0.0164 step-time 0.13 perplexity 18.22 eval: bucket 0 perplexity 13.80 eval: bucket 1 perplexity 15.81 eval: bucket 2 perplexity 22.18 eval: bucket 3 perplexity 24.50 global step 301000 learning rate 0.0164 step-time 0.13 perplexity 18.24 eval: bucket 0 perplexity 19.37 eval: bucket 1 perplexity 26.00 eval: bucket 2 perplexity 26.32 eval: bucket 3 perplexity 29.57 global step 301200 learning rate 0.0164 step-time 0.13 perplexity 18.48 eval: bucket 0 perplexity 15.61 eval: bucket 1 perplexity 24.21 eval: bucket 2 perplexity 27.32 eval: bucket 3 perplexity 32.51 global step 301400 learning rate 0.0162 step-time 0.14 perplexity 19.00 eval: bucket 0 perplexity 24.18 eval: bucket 1 perplexity 23.86 eval: bucket 2 perplexity 19.45 eval: bucket 3 perplexity 27.29 global step 301600 learning rate 0.0161 step-time 0.13 perplexity 18.02 eval: bucket 0 perplexity 15.26 eval: bucket 1 perplexity 15.97 eval: bucket 2 perplexity 31.72 eval: bucket 3 perplexity 25.53 global step 301800 learning rate 0.0161 step-time 0.13 perplexity 18.35 eval: bucket 0 perplexity 23.68 eval: bucket 1 perplexity 29.99 eval: bucket 2 perplexity 23.84 eval: bucket 3 perplexity 24.77 global step 302000 learning rate 0.0161 step-time 0.14 perplexity 18.84 eval: bucket 0 perplexity 19.88 eval: bucket 1 perplexity 19.05 eval: bucket 2 perplexity 32.15 eval: bucket 3 perplexity 41.73 global step 302200 learning rate 0.0161 step-time 0.13 perplexity 19.01 eval: bucket 0 perplexity 11.30 eval: bucket 1 perplexity 19.55 eval: bucket 2 perplexity 17.67 eval: bucket 3 perplexity 36.59 global step 302400 learning rate 0.0159 step-time 0.12 perplexity 18.30 eval: bucket 0 perplexity 18.77 eval: bucket 1 perplexity 18.99 eval: bucket 2 perplexity 23.41 eval: bucket 3 perplexity 32.10 global step 302600 learning rate 0.0159 step-time 0.14 perplexity 18.21 eval: bucket 0 perplexity 23.11 eval: bucket 1 perplexity 16.44 eval: bucket 2 perplexity 23.13 eval: bucket 3 perplexity 27.36 global step 302800 learning rate 0.0159 step-time 0.14 perplexity 19.13 eval: bucket 0 perplexity 20.57 eval: bucket 1 perplexity 16.66 eval: bucket 2 perplexity 30.14 eval: bucket 3 perplexity 27.05 global step 303000 learning rate 0.0158 step-time 0.13 perplexity 18.88 eval: bucket 0 perplexity 18.52 eval: bucket 1 perplexity 20.32 eval: bucket 2 perplexity 18.23 eval: bucket 3 perplexity 44.80 global step 303200 learning rate 0.0158 step-time 0.13 perplexity 18.16 eval: bucket 0 perplexity 23.45 eval: bucket 1 perplexity 23.80 eval: bucket 2 perplexity 21.35 eval: bucket 3 perplexity 38.04 global step 303400 learning rate 0.0158 step-time 0.14 perplexity 18.41 eval: bucket 0 perplexity 32.55 eval: bucket 1 perplexity 19.13 eval: bucket 2 perplexity 35.40 eval: bucket 3 perplexity 28.64 global step 303600 learning rate 0.0158 step-time 0.13 perplexity 18.83 eval: bucket 0 perplexity 12.91 eval: bucket 1 perplexity 22.65 eval: bucket 2 perplexity 19.19 eval: bucket 3 perplexity 29.43 global step 303800 learning rate 0.0158 step-time 0.13 perplexity 18.19 eval: bucket 0 perplexity 20.83 eval: bucket 1 perplexity 18.75 eval: bucket 2 perplexity 16.41 eval: bucket 3 perplexity 35.43 global step 304000 learning rate 0.0158 step-time 0.13 perplexity 17.79 eval: bucket 0 perplexity 21.05 eval: bucket 1 perplexity 29.46 eval: bucket 2 perplexity 24.25 eval: bucket 3 perplexity 32.76 global step 304200 learning rate 0.0158 step-time 0.12 perplexity 18.62 eval: bucket 0 perplexity 20.26 eval: bucket 1 perplexity 19.18 eval: bucket 2 perplexity 23.52 eval: bucket 3 perplexity 32.10 global step 304400 learning rate 0.0158 step-time 0.13 perplexity 18.18 eval: bucket 0 perplexity 15.53 eval: bucket 1 perplexity 19.96 eval: bucket 2 perplexity 17.73 eval: bucket 3 perplexity 37.23 global step 304600 learning rate 0.0158 step-time 0.14 perplexity 18.82 eval: bucket 0 perplexity 15.42 eval: bucket 1 perplexity 19.91 eval: bucket 2 perplexity 22.57 eval: bucket 3 perplexity 26.01 global step 304800 learning rate 0.0156 step-time 0.13 perplexity 18.22 eval: bucket 0 perplexity 21.11 eval: bucket 1 perplexity 25.47 eval: bucket 2 perplexity 25.91 eval: bucket 3 perplexity 27.47 global step 305000 learning rate 0.0156 step-time 0.13 perplexity 18.73 eval: bucket 0 perplexity 21.04 eval: bucket 1 perplexity 22.90 eval: bucket 2 perplexity 21.43 eval: bucket 3 perplexity 31.05 global step 305200 learning rate 0.0156 step-time 0.13 perplexity 18.50 eval: bucket 0 perplexity 25.95 eval: bucket 1 perplexity 16.36 eval: bucket 2 perplexity 20.34 eval: bucket 3 perplexity 36.00 global step 305400 learning rate 0.0156 step-time 0.13 perplexity 18.54 eval: bucket 0 perplexity 15.85 eval: bucket 1 perplexity 17.47 eval: bucket 2 perplexity 18.16 eval: bucket 3 perplexity 29.92 global step 305600 learning rate 0.0156 step-time 0.13 perplexity 18.40 eval: bucket 0 perplexity 15.04 eval: bucket 1 perplexity 22.10 eval: bucket 2 perplexity 21.91 eval: bucket 3 perplexity 35.73 global step 305800 learning rate 0.0156 step-time 0.13 perplexity 18.31 eval: bucket 0 perplexity 12.21 eval: bucket 1 perplexity 23.09 eval: bucket 2 perplexity 20.95 eval: bucket 3 perplexity 29.09 global step 306000 learning rate 0.0156 step-time 0.13 perplexity 18.93 eval: bucket 0 perplexity 21.56 eval: bucket 1 perplexity 16.96 eval: bucket 2 perplexity 31.30 eval: bucket 3 perplexity 24.21 global step 306200 learning rate 0.0154 step-time 0.13 perplexity 18.90 eval: bucket 0 perplexity 14.98 eval: bucket 1 perplexity 24.89 eval: bucket 2 perplexity 21.61 eval: bucket 3 perplexity 31.36 global step 306400 learning rate 0.0154 step-time 0.13 perplexity 18.99 eval: bucket 0 perplexity 15.52 eval: bucket 1 perplexity 18.88 eval: bucket 2 perplexity 24.27 eval: bucket 3 perplexity 30.56 global step 306600 learning rate 0.0153 step-time 0.13 perplexity 18.33 eval: bucket 0 perplexity 19.85 eval: bucket 1 perplexity 26.58 eval: bucket 2 perplexity 27.36 eval: bucket 3 perplexity 31.77 global step 306800 learning rate 0.0153 step-time 0.13 perplexity 18.90 eval: bucket 0 perplexity 16.60 eval: bucket 1 perplexity 23.04 eval: bucket 2 perplexity 13.45 eval: bucket 3 perplexity 30.06 global step 307000 learning rate 0.0153 step-time 0.13 perplexity 18.65 eval: bucket 0 perplexity 20.85 eval: bucket 1 perplexity 16.31 eval: bucket 2 perplexity 30.07 eval: bucket 3 perplexity 19.04 global step 307200 learning rate 0.0153 step-time 0.13 perplexity 18.48 eval: bucket 0 perplexity 20.62 eval: bucket 1 perplexity 18.73 eval: bucket 2 perplexity 27.83 eval: bucket 3 perplexity 31.85 global step 307400 learning rate 0.0153 step-time 0.12 perplexity 18.90 eval: bucket 0 perplexity 19.94 eval: bucket 1 perplexity 18.00 eval: bucket 2 perplexity 19.15 eval: bucket 3 perplexity 49.56 global step 307600 learning rate 0.0153 step-time 0.13 perplexity 18.45 eval: bucket 0 perplexity 18.59 eval: bucket 1 perplexity 30.72 eval: bucket 2 perplexity 27.61 eval: bucket 3 perplexity 37.47 global step 307800 learning rate 0.0153 step-time 0.13 perplexity 18.40 eval: bucket 0 perplexity 11.68 eval: bucket 1 perplexity 26.53 eval: bucket 2 perplexity 23.65 eval: bucket 3 perplexity 30.25 global step 308000 learning rate 0.0153 step-time 0.13 perplexity 18.53 eval: bucket 0 perplexity 22.87 eval: bucket 1 perplexity 22.83 eval: bucket 2 perplexity 17.35 eval: bucket 3 perplexity 32.69 global step 308200 learning rate 0.0153 step-time 0.14 perplexity 18.66 eval: bucket 0 perplexity 19.89 eval: bucket 1 perplexity 19.14 eval: bucket 2 perplexity 29.98 eval: bucket 3 perplexity 23.33 global step 308400 learning rate 0.0151 step-time 0.14 perplexity 18.78 eval: bucket 0 perplexity 35.57 eval: bucket 1 perplexity 21.00 eval: bucket 2 perplexity 12.46 eval: bucket 3 perplexity 42.81 global step 308600 learning rate 0.0150 step-time 0.13 perplexity 18.35 eval: bucket 0 perplexity 21.84 eval: bucket 1 perplexity 23.75 eval: bucket 2 perplexity 24.19 eval: bucket 3 perplexity 29.20 global step 308800 learning rate 0.0150 step-time 0.12 perplexity 17.96 eval: bucket 0 perplexity 20.95 eval: bucket 1 perplexity 20.86 eval: bucket 2 perplexity 22.64 eval: bucket 3 perplexity 21.73 global step 309000 learning rate 0.0150 step-time 0.14 perplexity 18.49 eval: bucket 0 perplexity 22.43 eval: bucket 1 perplexity 22.26 eval: bucket 2 perplexity 26.13 eval: bucket 3 perplexity 26.50 global step 309200 learning rate 0.0150 step-time 0.12 perplexity 18.06 eval: bucket 0 perplexity 21.18 eval: bucket 1 perplexity 34.61 eval: bucket 2 perplexity 33.18 eval: bucket 3 perplexity 23.41 global step 309400 learning rate 0.0150 step-time 0.14 perplexity 18.77 eval: bucket 0 perplexity 22.13 eval: bucket 1 perplexity 36.47 eval: bucket 2 perplexity 18.14 eval: bucket 3 perplexity 32.16 global step 309600 learning rate 0.0148 step-time 0.14 perplexity 18.89 eval: bucket 0 perplexity 17.27 eval: bucket 1 perplexity 18.73 eval: bucket 2 perplexity 20.56 eval: bucket 3 perplexity 31.75 global step 309800 learning rate 0.0147 step-time 0.13 perplexity 17.57 eval: bucket 0 perplexity 20.68 eval: bucket 1 perplexity 29.21 eval: bucket 2 perplexity 27.05 eval: bucket 3 perplexity 26.47 global step 310000 learning rate 0.0147 step-time 0.13 perplexity 18.74 eval: bucket 0 perplexity 19.11 eval: bucket 1 perplexity 25.70 eval: bucket 2 perplexity 12.36 eval: bucket 3 perplexity 27.96 global step 310200 learning rate 0.0147 step-time 0.13 perplexity 18.36 eval: bucket 0 perplexity 22.44 eval: bucket 1 perplexity 21.56 eval: bucket 2 perplexity 31.38 eval: bucket 3 perplexity 34.45 global step 310400 learning rate 0.0147 step-time 0.14 perplexity 18.37 eval: bucket 0 perplexity 18.07 eval: bucket 1 perplexity 22.18 eval: bucket 2 perplexity 20.37 eval: bucket 3 perplexity 27.15 global step 310600 learning rate 0.0147 step-time 0.14 perplexity 19.03 eval: bucket 0 perplexity 14.52 eval: bucket 1 perplexity 14.08 eval: bucket 2 perplexity 20.36 eval: bucket 3 perplexity 40.22 global step 310800 learning rate 0.0145 step-time 0.13 perplexity 17.78 eval: bucket 0 perplexity 14.33 eval: bucket 1 perplexity 20.87 eval: bucket 2 perplexity 19.07 eval: bucket 3 perplexity 23.41 global step 311000 learning rate 0.0145 step-time 0.14 perplexity 19.14 eval: bucket 0 perplexity 11.61 eval: bucket 1 perplexity 34.02 eval: bucket 2 perplexity 22.64 eval: bucket 3 perplexity 27.65 global step 311200 learning rate 0.0144 step-time 0.12 perplexity 18.33 eval: bucket 0 perplexity 25.91 eval: bucket 1 perplexity 17.40 eval: bucket 2 perplexity 17.23 eval: bucket 3 perplexity 23.71 global step 311400 learning rate 0.0144 step-time 0.13 perplexity 18.30 eval: bucket 0 perplexity 19.28 eval: bucket 1 perplexity 20.18 eval: bucket 2 perplexity 29.52 eval: bucket 3 perplexity 15.75 global step 311600 learning rate 0.0144 step-time 0.13 perplexity 18.21 eval: bucket 0 perplexity 26.73 eval: bucket 1 perplexity 19.60 eval: bucket 2 perplexity 29.38 eval: bucket 3 perplexity 22.57 global step 311800 learning rate 0.0144 step-time 0.13 perplexity 18.58 eval: bucket 0 perplexity 13.63 eval: bucket 1 perplexity 20.06 eval: bucket 2 perplexity 20.58 eval: bucket 3 perplexity 34.79 global step 312000 learning rate 0.0143 step-time 0.14 perplexity 18.61 eval: bucket 0 perplexity 37.90 eval: bucket 1 perplexity 25.55 eval: bucket 2 perplexity 26.01 eval: bucket 3 perplexity 36.63 global step 312200 learning rate 0.0141 step-time 0.13 perplexity 18.15 eval: bucket 0 perplexity 26.31 eval: bucket 1 perplexity 19.29 eval: bucket 2 perplexity 30.88 eval: bucket 3 perplexity 23.36 global step 312400 learning rate 0.0141 step-time 0.14 perplexity 18.31 eval: bucket 0 perplexity 27.14 eval: bucket 1 perplexity 19.11 eval: bucket 2 perplexity 46.46 eval: bucket 3 perplexity 33.08 global step 312600 learning rate 0.0141 step-time 0.13 perplexity 18.51 eval: bucket 0 perplexity 18.09 eval: bucket 1 perplexity 14.85 eval: bucket 2 perplexity 27.14 eval: bucket 3 perplexity 17.52 global step 312800 learning rate 0.0141 step-time 0.14 perplexity 18.87 eval: bucket 0 perplexity 16.10 eval: bucket 1 perplexity 29.45 eval: bucket 2 perplexity 32.81 eval: bucket 3 perplexity 35.65 global step 313000 learning rate 0.0140 step-time 0.14 perplexity 18.44 eval: bucket 0 perplexity 15.32 eval: bucket 1 perplexity 25.53 eval: bucket 2 perplexity 28.63 eval: bucket 3 perplexity 25.80 global step 313200 learning rate 0.0140 step-time 0.12 perplexity 17.85 eval: bucket 0 perplexity 21.37 eval: bucket 1 perplexity 39.28 eval: bucket 2 perplexity 20.13 eval: bucket 3 perplexity 33.82 global step 313400 learning rate 0.0140 step-time 0.13 perplexity 18.93 eval: bucket 0 perplexity 22.39 eval: bucket 1 perplexity 23.68 eval: bucket 2 perplexity 27.14 eval: bucket 3 perplexity 32.54 global step 313600 learning rate 0.0138 step-time 0.13 perplexity 18.29 eval: bucket 0 perplexity 18.45 eval: bucket 1 perplexity 22.71 eval: bucket 2 perplexity 18.55 eval: bucket 3 perplexity 31.84 global step 313800 learning rate 0.0138 step-time 0.13 perplexity 18.30 eval: bucket 0 perplexity 20.17 eval: bucket 1 perplexity 19.18 eval: bucket 2 perplexity 24.03 eval: bucket 3 perplexity 41.15 global step 314000 learning rate 0.0138 step-time 0.14 perplexity 18.48 eval: bucket 0 perplexity 18.23 eval: bucket 1 perplexity 13.49 eval: bucket 2 perplexity 23.82 eval: bucket 3 perplexity 38.45 global step 314200 learning rate 0.0138 step-time 0.13 perplexity 18.11 eval: bucket 0 perplexity 14.40 eval: bucket 1 perplexity 19.59 eval: bucket 2 perplexity 18.94 eval: bucket 3 perplexity 31.26 global step 314400 learning rate 0.0138 step-time 0.13 perplexity 17.87 eval: bucket 0 perplexity 14.17 eval: bucket 1 perplexity 19.60 eval: bucket 2 perplexity 26.30 eval: bucket 3 perplexity 28.97 global step 314600 learning rate 0.0138 step-time 0.13 perplexity 19.02 eval: bucket 0 perplexity 10.44 eval: bucket 1 perplexity 18.26 eval: bucket 2 perplexity 17.85 eval: bucket 3 perplexity 28.06 global step 314800 learning rate 0.0137 step-time 0.14 perplexity 18.88 eval: bucket 0 perplexity 12.70 eval: bucket 1 perplexity 18.28 eval: bucket 2 perplexity 18.16 eval: bucket 3 perplexity 21.25 global step 315000 learning rate 0.0137 step-time 0.13 perplexity 17.86 eval: bucket 0 perplexity 17.18 eval: bucket 1 perplexity 24.67 eval: bucket 2 perplexity 21.34 eval: bucket 3 perplexity 31.19 global step 315200 learning rate 0.0137 step-time 0.13 perplexity 18.60 eval: bucket 0 perplexity 17.15 eval: bucket 1 perplexity 39.66 eval: bucket 2 perplexity 28.37 eval: bucket 3 perplexity 50.63 global step 315400 learning rate 0.0137 step-time 0.12 perplexity 18.15 eval: bucket 0 perplexity 19.83 eval: bucket 1 perplexity 26.65 eval: bucket 2 perplexity 32.64 eval: bucket 3 perplexity 32.94 global step 315600 learning rate 0.0137 step-time 0.13 perplexity 18.69 eval: bucket 0 perplexity 17.58 eval: bucket 1 perplexity 24.48 eval: bucket 2 perplexity 19.73 eval: bucket 3 perplexity 27.04 global step 315800 learning rate 0.0136 step-time 0.12 perplexity 18.15 eval: bucket 0 perplexity 19.50 eval: bucket 1 perplexity 14.37 eval: bucket 2 perplexity 29.21 eval: bucket 3 perplexity 21.09 global step 316000 learning rate 0.0136 step-time 0.13 perplexity 18.72 eval: bucket 0 perplexity 23.07 eval: bucket 1 perplexity 21.52 eval: bucket 2 perplexity 24.30 eval: bucket 3 perplexity 30.06 global step 316200 learning rate 0.0134 step-time 0.14 perplexity 18.35 eval: bucket 0 perplexity 16.48 eval: bucket 1 perplexity 27.33 eval: bucket 2 perplexity 21.47 eval: bucket 3 perplexity 31.39 global step 316400 learning rate 0.0134 step-time 0.13 perplexity 18.73 eval: bucket 0 perplexity 15.56 eval: bucket 1 perplexity 30.79 eval: bucket 2 perplexity 36.79 eval: bucket 3 perplexity 36.58 global step 316600 learning rate 0.0133 step-time 0.13 perplexity 18.38 eval: bucket 0 perplexity 16.72 eval: bucket 1 perplexity 18.97 eval: bucket 2 perplexity 21.22 eval: bucket 3 perplexity 25.27 global step 316800 learning rate 0.0133 step-time 0.13 perplexity 18.59 eval: bucket 0 perplexity 26.88 eval: bucket 1 perplexity 19.33 eval: bucket 2 perplexity 26.12 eval: bucket 3 perplexity 43.46 global step 317000 learning rate 0.0133 step-time 0.12 perplexity 17.88 eval: bucket 0 perplexity 19.05 eval: bucket 1 perplexity 36.13 eval: bucket 2 perplexity 33.00 eval: bucket 3 perplexity 35.18 global step 317200 learning rate 0.0133 step-time 0.14 perplexity 17.92 eval: bucket 0 perplexity 23.09 eval: bucket 1 perplexity 21.31 eval: bucket 2 perplexity 19.74 eval: bucket 3 perplexity 32.46 global step 317400 learning rate 0.0133 step-time 0.13 perplexity 18.10 eval: bucket 0 perplexity 12.59 eval: bucket 1 perplexity 21.16 eval: bucket 2 perplexity 22.82 eval: bucket 3 perplexity 23.52 global step 317600 learning rate 0.0133 step-time 0.13 perplexity 18.07 eval: bucket 0 perplexity 28.57 eval: bucket 1 perplexity 25.96 eval: bucket 2 perplexity 25.70 eval: bucket 3 perplexity 44.88 global step 317800 learning rate 0.0133 step-time 0.13 perplexity 17.84 eval: bucket 0 perplexity 27.66 eval: bucket 1 perplexity 24.00 eval: bucket 2 perplexity 22.18 eval: bucket 3 perplexity 32.08 global step 318000 learning rate 0.0133 step-time 0.14 perplexity 18.63 eval: bucket 0 perplexity 13.93 eval: bucket 1 perplexity 30.19 eval: bucket 2 perplexity 22.31 eval: bucket 3 perplexity 32.72 global step 318200 learning rate 0.0131 step-time 0.13 perplexity 18.16 eval: bucket 0 perplexity 33.10 eval: bucket 1 perplexity 15.21 eval: bucket 2 perplexity 25.65 eval: bucket 3 perplexity 33.20 global step 318400 learning rate 0.0131 step-time 0.13 perplexity 18.07 eval: bucket 0 perplexity 23.81 eval: bucket 1 perplexity 28.63 eval: bucket 2 perplexity 29.79 eval: bucket 3 perplexity 19.99 global step 318600 learning rate 0.0131 step-time 0.13 perplexity 18.18 eval: bucket 0 perplexity 20.31 eval: bucket 1 perplexity 15.55 eval: bucket 2 perplexity 26.41 eval: bucket 3 perplexity 34.27 global step 318800 learning rate 0.0131 step-time 0.13 perplexity 18.24 eval: bucket 0 perplexity 30.20 eval: bucket 1 perplexity 29.47 eval: bucket 2 perplexity 27.79 eval: bucket 3 perplexity 32.68 global step 319000 learning rate 0.0130 step-time 0.14 perplexity 18.20 eval: bucket 0 perplexity 17.12 eval: bucket 1 perplexity 19.04 eval: bucket 2 perplexity 19.49 eval: bucket 3 perplexity 23.32 global step 319200 learning rate 0.0130 step-time 0.14 perplexity 18.84 eval: bucket 0 perplexity 16.59 eval: bucket 1 perplexity 25.90 eval: bucket 2 perplexity 26.06 eval: bucket 3 perplexity 26.96 global step 319400 learning rate 0.0129 step-time 0.14 perplexity 18.72 eval: bucket 0 perplexity 15.41 eval: bucket 1 perplexity 15.67 eval: bucket 2 perplexity 25.94 eval: bucket 3 perplexity 28.53 global step 319600 learning rate 0.0129 step-time 0.14 perplexity 18.88 eval: bucket 0 perplexity 18.64 eval: bucket 1 perplexity 18.44 eval: bucket 2 perplexity 19.53 eval: bucket 3 perplexity 30.34 global step 319800 learning rate 0.0128 step-time 0.13 perplexity 18.27 eval: bucket 0 perplexity 18.49 eval: bucket 1 perplexity 16.41 eval: bucket 2 perplexity 21.38 eval: bucket 3 perplexity 29.33 global step 320000 learning rate 0.0128 step-time 0.13 perplexity 18.27 eval: bucket 0 perplexity 30.64 eval: bucket 1 perplexity 24.04 eval: bucket 2 perplexity 25.79 eval: bucket 3 perplexity 31.60 global step 320200 learning rate 0.0128 step-time 0.13 perplexity 18.20 eval: bucket 0 perplexity 18.60 eval: bucket 1 perplexity 31.84 eval: bucket 2 perplexity 25.23 eval: bucket 3 perplexity 23.96 global step 320400 learning rate 0.0128 step-time 0.13 perplexity 18.15 eval: bucket 0 perplexity 28.97 eval: bucket 1 perplexity 22.48 eval: bucket 2 perplexity 31.76 eval: bucket 3 perplexity 26.77 global step 320600 learning rate 0.0128 step-time 0.14 perplexity 18.80 eval: bucket 0 perplexity 12.93 eval: bucket 1 perplexity 23.49 eval: bucket 2 perplexity 28.77 eval: bucket 3 perplexity 27.25 global step 320800 learning rate 0.0126 step-time 0.14 perplexity 18.34 eval: bucket 0 perplexity 20.89 eval: bucket 1 perplexity 26.13 eval: bucket 2 perplexity 24.79 eval: bucket 3 perplexity 27.55 global step 321000 learning rate 0.0126 step-time 0.13 perplexity 18.04 eval: bucket 0 perplexity 10.89 eval: bucket 1 perplexity 20.18 eval: bucket 2 perplexity 24.78 eval: bucket 3 perplexity 27.36 global step 321200 learning rate 0.0126 step-time 0.14 perplexity 18.01 eval: bucket 0 perplexity 15.39 eval: bucket 1 perplexity 24.52 eval: bucket 2 perplexity 20.92 eval: bucket 3 perplexity 28.76 global step 321400 learning rate 0.0126 step-time 0.13 perplexity 18.32 eval: bucket 0 perplexity 15.44 eval: bucket 1 perplexity 29.20 eval: bucket 2 perplexity 19.84 eval: bucket 3 perplexity 22.88 global step 321600 learning rate 0.0126 step-time 0.14 perplexity 19.34 eval: bucket 0 perplexity 19.14 eval: bucket 1 perplexity 24.47 eval: bucket 2 perplexity 20.93 eval: bucket 3 perplexity 36.42 global step 321800 learning rate 0.0125 step-time 0.12 perplexity 18.06 eval: bucket 0 perplexity 17.98 eval: bucket 1 perplexity 19.50 eval: bucket 2 perplexity 24.69 eval: bucket 3 perplexity 28.41 global step 322000 learning rate 0.0125 step-time 0.13 perplexity 18.26 eval: bucket 0 perplexity 14.21 eval: bucket 1 perplexity 14.89 eval: bucket 2 perplexity 16.60 eval: bucket 3 perplexity 34.81 global step 322200 learning rate 0.0125 step-time 0.12 perplexity 17.96 eval: bucket 0 perplexity 31.83 eval: bucket 1 perplexity 22.07 eval: bucket 2 perplexity 21.07 eval: bucket 3 perplexity 36.44 global step 322400 learning rate 0.0125 step-time 0.12 perplexity 18.21 eval: bucket 0 perplexity 16.95 eval: bucket 1 perplexity 28.23 eval: bucket 2 perplexity 20.79 eval: bucket 3 perplexity 35.64 global step 322600 learning rate 0.0125 step-time 0.13 perplexity 17.95 eval: bucket 0 perplexity 15.77 eval: bucket 1 perplexity 19.72 eval: bucket 2 perplexity 22.73 eval: bucket 3 perplexity 27.24 global step 322800 learning rate 0.0125 step-time 0.13 perplexity 18.65 eval: bucket 0 perplexity 18.06 eval: bucket 1 perplexity 29.94 eval: bucket 2 perplexity 36.92 eval: bucket 3 perplexity 32.67 global step 323000 learning rate 0.0124 step-time 0.14 perplexity 18.89 eval: bucket 0 perplexity 23.01 eval: bucket 1 perplexity 23.63 eval: bucket 2 perplexity 33.18 eval: bucket 3 perplexity 26.18 global step 323200 learning rate 0.0123 step-time 0.12 perplexity 18.00 eval: bucket 0 perplexity 17.75 eval: bucket 1 perplexity 25.11 eval: bucket 2 perplexity 36.74 eval: bucket 3 perplexity 34.04 global step 323400 learning rate 0.0123 step-time 0.12 perplexity 18.34 eval: bucket 0 perplexity 19.08 eval: bucket 1 perplexity 25.19 eval: bucket 2 perplexity 25.10 eval: bucket 3 perplexity 30.27 global step 323600 learning rate 0.0123 step-time 0.13 perplexity 18.62 eval: bucket 0 perplexity 19.43 eval: bucket 1 perplexity 22.61 eval: bucket 2 perplexity 18.64 eval: bucket 3 perplexity 30.15 global step 323800 learning rate 0.0123 step-time 0.13 perplexity 18.38 eval: bucket 0 perplexity 20.58 eval: bucket 1 perplexity 25.34 eval: bucket 2 perplexity 21.86 eval: bucket 3 perplexity 28.23 global step 324000 learning rate 0.0123 step-time 0.14 perplexity 17.83 eval: bucket 0 perplexity 14.61 eval: bucket 1 perplexity 19.38 eval: bucket 2 perplexity 22.23 eval: bucket 3 perplexity 36.87 global step 324200 learning rate 0.0123 step-time 0.13 perplexity 18.27 eval: bucket 0 perplexity 17.95 eval: bucket 1 perplexity 25.03 eval: bucket 2 perplexity 20.91 eval: bucket 3 perplexity 25.36 global step 324400 learning rate 0.0123 step-time 0.13 perplexity 18.27



In [ ]: