Interactive online version:

# Thai Wiki Language Model for Text Generation

This notebook details how you can use pretrained language model on Thai Wikipedia Dump to generate texts.

# #uncomment if you are running from google colab
# !pip install pythainlp
# !pip install fastai
# !pip install emoji

import pandas as pd
import numpy as np
from ast import literal_eval
from tqdm import tqdm_notebook
from collections import Counter
import re

import matplotlib.pyplot as plt
import seaborn as sns

import fastai
from fastai.text import *
from fastai.callbacks import CSVLogger

from pythainlp.ulmfit import *

try:
THWIKI_LSTM = _THWIKI_LSTM
except:
THWIKI_LSTM = THWIKI_LSTM

#get dummy data
imdb = untar_data(URLs.IMDB_SAMPLE)

#get vocab
thwiki_vocab = fastai.text.transform.Vocab(thwiki_itos)

#dummy databunch
tt = Tokenizer(tok_func=ThaiTokenizer, lang='th', pre_rules=pre_rules_th, post_rules=post_rules_th)
processor = [TokenizeProcessor(tokenizer=tt, chunksize=10000, mark_fields=False),
NumericalizeProcessor(vocab=thwiki_vocab, max_vocab=60000, min_freq=3)]
data_lm = (TextList.from_df(dummy_df, imdb, cols=['text'], processor=processor)
.split_by_rand_pct(0.2)
.label_for_lm()
.databunch(bs=64))

data_lm.sanity_check()

#check vocab size
len(data_lm.vocab.itos)

60005

config = dict(emb_sz=400, n_hid=1550, n_layers=4, pad_token=1, qrnn=False, tie_weights=True, out_bias=True,
output_p=0.25, hidden_p=0.1, input_p=0.2, embed_p=0.02, weight_p=0.15)
trn_args = dict(drop_mult=0.9, clip=0.12, alpha=2, beta=1)

learn = language_model_learner(data_lm, AWD_LSTM, config=config, pretrained=False, **trn_args)


LanguageLearner(data=TextLMDataBunch;

Train: LabelList (800 items)
x: LMTextList
Test: None, model=SequentialRNN(
(0): AWD_LSTM(
(encoder_dp): EmbeddingDropout(
)
(rnns): ModuleList(
(0): WeightDropout(
(module): LSTM(400, 1550, batch_first=True)
)
(1): WeightDropout(
(module): LSTM(1550, 1550, batch_first=True)
)
(2): WeightDropout(
(module): LSTM(1550, 1550, batch_first=True)
)
(3): WeightDropout(
(module): LSTM(1550, 400, batch_first=True)
)
)
(input_dp): RNNDropout()
(hidden_dps): ModuleList(
(0): RNNDropout()
(1): RNNDropout()
(2): RNNDropout()
(3): RNNDropout()
)
)
(1): LinearDecoder(
(decoder): Linear(in_features=400, out_features=60005, bias=True)
(output_dp): RNNDropout()
)
learn: LanguageLearner(data=TextLMDataBunch;
learn: LanguageLearner(data=TextLMDataBunch;

Train: LabelList (800 items)
x: LMTextList
Test: None, model=SequentialRNN(
(0): AWD_LSTM(
(encoder_dp): EmbeddingDropout(
)
(rnns): ModuleList(
(0): WeightDropout(
(module): LSTM(400, 1550, batch_first=True)
)
(1): WeightDropout(
(module): LSTM(1550, 1550, batch_first=True)
)
(2): WeightDropout(
(module): LSTM(1550, 1550, batch_first=True)
)
(3): WeightDropout(
(module): LSTM(1550, 400, batch_first=True)
)
)
(input_dp): RNNDropout()
(hidden_dps): ModuleList(
(0): RNNDropout()
(1): RNNDropout()
(2): RNNDropout()
(3): RNNDropout()
)
)
(1): LinearDecoder(
(decoder): Linear(in_features=400, out_features=60005, bias=True)
(output_dp): RNNDropout()
)
), opt_func=functools.partial(<class 'torch.optim.adam.Adam'>, betas=(0.9, 0.99)), loss_func=FlattenedLoss of CrossEntropyLoss(), metrics=[<function accuracy at 0x7f5215ef6ea0>], true_wd=True, bn_wd=True, wd=0.01, train_bn=True, path=PosixPath('/root/.fastai/data/imdb_sample'), model_dir='models', callback_fns=[functools.partial(<class 'fastai.basic_train.Recorder'>, add_time=True, silent=False), functools.partial(<class 'fastai.train.GradientClipping'>, clip=0.12)], callbacks=[...], layer_groups=[Sequential(
(0): WeightDropout(
(module): LSTM(400, 1550, batch_first=True)
)
(1): RNNDropout()
), Sequential(
(0): WeightDropout(
(module): LSTM(1550, 1550, batch_first=True)
)
(1): RNNDropout()
), Sequential(
(0): WeightDropout(
(module): LSTM(1550, 1550, batch_first=True)
)
(1): RNNDropout()
), Sequential(
(0): WeightDropout(
(module): LSTM(1550, 400, batch_first=True)
)
(1): RNNDropout()
), Sequential(
(1): EmbeddingDropout(
)
(2): LinearDecoder(
(decoder): Linear(in_features=400, out_features=60005, bias=True)
(output_dp): RNNDropout()
)
alpha: 2
beta: 1], layer_groups=[Sequential(
(0): WeightDropout(
(module): LSTM(400, 1550, batch_first=True)
)
(1): RNNDropout()
), Sequential(
(0): WeightDropout(
(module): LSTM(1550, 1550, batch_first=True)
)
(1): RNNDropout()
), Sequential(
(0): WeightDropout(
(module): LSTM(1550, 1550, batch_first=True)
)
(1): RNNDropout()
), Sequential(
(0): WeightDropout(
(module): LSTM(1550, 400, batch_first=True)
)
(1): RNNDropout()
), Sequential(
(1): EmbeddingDropout(
)
(2): LinearDecoder(
(decoder): Linear(in_features=400, out_features=60005, bias=True)
(output_dp): RNNDropout()
)

print(learn.predict('กาลครั้งหนึ่งนานมาแล้ว ', 200, temperature=0.8, min_p=0.005, sep=''))

กาลครั้งหนึ่งนานมาแล้ว

ช่วงสองหนุ่มที่มีฐานะร่ำรวย และเป็นลูกสาวของ ดร. นิโคลัส (รับบทโดย อลิสัน คิง) เป็นลูกชายคนโตของ นาย โอลิเวอร์ และ มารดา นิโคลัส ในช่วงแรก เขาเป็นพ่อของ โอลลี เขามีพ่อ และแม่ เป็นคนที่มีจิตใจอ่อนโยน และเป็นเพื่อนสนิทกับ ดร. คาลิส (โรส วิลสัน) ที่เป็นพ่อของเธอนั่นเอง

ในปี ค.ศ. 1967 สมิธได้รับการเลี้ยงดูจาก จอร์จ สปีลเบิร์ก และ ซาร่า ซึ่งต่อมาก็ได้รับการดูแลจากแม่ ซึ่งทำให้เขามีทักษะด้านวิทยาศาสตร์และเทคโนโลยีสูง หลังจากสำเร็จการศึกษาจากมหาวิทยาลัยแล้ว โรส ได้เดินทางไปที่ ประเทศออสเตรเลีย เพื่อเป็นที่ปรึกษา และในช่วงนั้นเอง ที่ได้พบกับ คริส เจ โรส ผู้เป็นมารดา

