tensorflow lstm可以换激活函数么

2024-05-16 22:49

1. tensorflow lstm可以换激活函数么

tensorflow自带很多激活函数可以用：
tf.nn.relu()
tf.nn.sigmoid()
tf.nn.tanh()
tf.nn.elu()
tf.nn.bias_add()
tf.nn.crelu()
tf.nn.relu6()
tf.nn.softplus()
tf.nn.softsign()
tf.nn.dropout()
这些都是可以替换的

2. 如何用Tensorflow开发一个简单的语音识别器

Ubuntu安装tensorflow 先安装python-dev，再安装tensorflow就好了 $ sudo apt-get install python-dev

3. TensorFlow的优势和缺点有哪些

TensorFlow框架的前身是Google的DistBelief V2，是谷歌大脑项目的深度网络工具库，一些人认为TensorFlow是借鉴Theano重构的。
Tensorflow一经开源，马上引起了大量开发者的跟进。Tensorflow广泛支持包括图像、手写字、语音识别、预测和自然语言处理等大量功能。TensorFlow遵循Apache 2.0开源协议。
TensorFlow在2017年2月15号发布了其1.0版本，这个版本是对先前八个不完善版本的整合。以下是TensorFlow取得成功的一些列原因：
TensorFLow提供这些工具：
TensorBroad是一个设计优良的可视化网络构建和展示工具；
TensorFlow Serving通过保持相同的服务器架构和API，可以方便地配置新算法和环境。TensorFlow Serving 还提供开箱即用的模型，并且可以轻松扩展以支持其他的模型和数据。
TensorFlow编程接口包括Python和C++，Java，Go，R和Haskell语言的接口也在alpha版中支持。另外，TensorFlow还支持谷歌和亚马逊的云环境。
TensorFlow的0.12版本支持Windows 7, 8， Server 2016系统。由于采用C++ Eigen库，TensorFlow类库可以在ARM架构平台上编译和优化。这意味着你可以不需要额外实现模型解码器或者Python解释器就可以在多种服务器和移动设备上部署训练好的模型。
TensorFlow提供细致的网络层使用户可以构建新的复杂的层结构而不需要自己从底层实现它们。子图允许用户查看和恢复图的任意边的数据。这对复杂计算的Debug非常有用。
分布式TensorFlow在0.8版本推出，提供了并行计算支持，可以让模型的不同 部分在不同设备上并行训练。
TensorFlow在斯坦福大学，伯克利学院，多伦多大学和Udacity（2016年3月成立的在线学校）均有教学。
TensorFlow的缺点有：
每个计算流必须构建成图，没有符号循环，这样使得一些计算变得困难；
没有三维卷积，因此无法做视频识别；
即便已经比原有版本（0.5）快了58倍，但执行性能仍然不及它的竞争者。

TensorFlow的优势和缺点有哪些

4. 如何利用深度学习技术训练聊天机器人语言模型

数据预处理
模型能聊的内容也取决于选取的语料。如果已经具备了原始聊天数据，可以用SQL通过关键字查询一些对话，也就是从大库里选取出一个小库来训练。从一些论文上，很多算法都是在数据预处理层面的，比如Mechanism-Aware Neural Machine for Dialogue Response Generation就介绍了，从大库中抽取小库，然后再进行融合，训练出有特色的对话来。
对于英语，需要了解NLTK，NLTK提供了加载语料，语料标准化，语料分类，PoS词性标注，语意抽取等功能。
另一个功能强大的工具库是CoreNLP，作为 Stanford开源出来的工具，特色是实体标注，语意抽取，支持多种语言。
下面主要介绍两个内容：
中文分词
现在有很多中文分词的SDK，分词的算法也比较多，也有很多文章对不同SDK的性能做比较。做中文分词的示例代码如下。
# coding:utf8'''  Segmenter with Chinese  '''import jieba  import langiddef segment_chinese_sentence(sentence):'''Return segmented sentence.'''seg_list = jieba.cut(sentence, cut_all=False)seg_sentence = u" ".join(seg_list)return seg_sentence.strip().encode('utf8')def process_sentence(sentence):'''Only process Chinese Sentence.'''if langid.classify(sentence)[0] == 'zh':return segment_chinese_sentence(sentence)return sentenceif __name__ == "__main__":print(process_sentence('飞雪连天射白鹿'))print(process_sentence('I have a pen.'))

以上使用了langid先判断语句是否是中文，然后使用jieba进行分词。
在功能上，jieba分词支持全切分模式，精确模式和搜索引擎模式。
全切分：输出所有分词。
精确：概率上的最佳分词。
所有引擎模式：对精确切分后的长句再进行分词。
jieba分词的实现
主要是分成下面三步：
1、加载字典，在内存中建立字典空间。
字典的构造是每行一个词，空格，词频，空格，词性。
上诉书 3 n上诉人 3 n上诉期 3 b上诉状 4 n上课 650 v

建立字典空间的是使用python的dict，采用前缀数组的方式。
使用前缀数组的原因是树结构只有一层 - word:freq，效率高，节省空间。比如单词"dog", 字典中将这样存储：
{"d": 0,"do": 0,"dog": 1 # value为词频}

字典空间的主要用途是对输入句子建立有向无环图，然后根据算法进行切分。算法的取舍主要是根据模式 - 全切，精确还是搜索。
2、对输入的语句分词，首先是建立一个有向无环图。 有向无环图, Directed acyclic graph (音 /ˈdæɡ/)。

【图 3-2】 DAG
DAG对于后面计算最大概率路径和使用HNN模型识别新词有直接关系。
3、按照模式，对有向无环图进行遍历，比如，在精确模式下，便利就是求最大权重和的路径，权重来自于在字典中定义的词频。对于没有出现在词典中的词，连续的单个字符也许会构成新词。然后用HMM模型和Viterbi算法识别新词。
精确模型切词：使用动态规划对最大概率路径进行求解。
最大概率路径：求route = (w1, w2, w3 ,.., wn)，使得Σweight(wi)最大。Wi为该词的词频。
更多的细节还需要读一下jieba的源码。
自定义字典
jieba分词默认的字典是:1998人民日报的切分语料还有一个msr的切分语料和一些txt小说。开发者可以自行添加字典，只要符合字典构建的格式就行。
jieba分词同时提供接口添加词汇。
Word embedding
使用机器学习训练的语言模型，网络算法是使用数字进行计算，在输入进行编码，在输出进行解码。word embedding就是编解码的手段。

【图 3-3】 word embedding, Ref. #7
word embedding是文本的数值化表示方法。表示法包括one-hot，bag of words，N-gram，分布式表示，共现矩阵等。
Word2vec


近年来，word2vec被广泛采用。Word2vec输入文章或者其他语料，输出语料中词汇建设的词向量空间。详细可参考word2vec数学原理解析。
使用word2vec
安装完成后，得到word2vec命令行工具。
word2vec -train "data/review.txt" \-output "data/review.model" \-cbow 1 \-size 100 \-window 8 \-negative 25 \-hs 0 \-sample 1e-4 \-threads 20 \-binary 1 \-iter 15
-train "data/review.txt" 表示在指定的语料库上训练模型
-cbow 1 表示用cbow模型，设成0表示用skip-gram模型
-size 100 词向量的维度为100
-window 8 训练窗口的大小为8 即考虑一个单词的前八个和后八个单词
-negative 25 -hs 0 是使用negative sample还是HS算法
-sample 1e-4 采用阈值
-threads 20 线程数
-binary 1 输出model保存成2进制
-iter 15 迭代次数
在训练完成后，就得到一个model，用该model可以查询每个词的词向量，在词和词之间求距离，将不同词放在数学公式中计算输出相关性的词。比如：
vector("法国") - vector("巴黎) + vector("英国") = vector("伦敦")"  
对于训练不同的语料库，可以单独的训练词向量模型，可以利用已经训练好的模型。
其它训练词向量空间工具推荐：Glove。
Seq2Seq
2014年，Sequence to Sequence Learning with Neural Networks提出了使用深度学习技术，基于RNN和LSTM网络训练翻译系统，取得了突破，这一方法便应用在更广泛的领域，比如问答系统，图像字幕，语音识别，撰写诗词等。Seq2Seq完成了【encoder + decoder -> target】的映射，在上面的论文中，清晰的介绍了实现方式。

【图 3-4】 Seq2Seq, Ref. #1
也有很多文章解读它的原理。在使用Seq2Seq的过程中，虽然也研究了它的结构，但我还不认为能理解和解释它。下面谈两点感受：
a. RNN保存了语言顺序的特点，这和CNN在处理带有形状的模型时如出一辙，就是数学模型的设计符合物理模型。

【图 3-5】 RNN, Ref. #6
b. LSTM Cell的复杂度对应了自然语言处理的复杂度。

【图 3-6】 LSTM, Ref. #6
理由是，有人将LSTM Cell尝试了多种其它方案传递状态，结果也很好。

【图 3-7】 GRU, Ref. #6
LSTM的一个替代方案：GRU。只要RNN的Cell足够复杂，它就能工作的很好。
使用DeepQA2训练语言模型
准备工作，下载项目：
git clone https://github.com/Samurais/DeepQA2.git  cd DeepQA2  open README.md # 根据README.md安装依赖包  
DeepQA2将工作分成三个过程：
数据预处理：从语料库到数据字典。
训练模型：从数据字典到语言模型。
提供服务：从语言模型到RESt API。
预处理
DeepQA2使用Cornell Movie Dialogs Corpus作为demo语料库。
原始数据就是movie_lines.txt 和movie_conversations.txt。这两个文件的组织形式参考README.txt
deepqa2/dataset/preprocesser.py是将这两个文件处理成数据字典的模块。


train_max_length_enco就是问题的长度，train_max_length_deco就是答案的长度。在语料库中，大于该长度的部分会被截断。
程序运行后，会生成dataset-cornell-20.pkl文件，它加载到python中是一个字典：


word2id存储了{word: id}，其中word是一个单词，id是int数字，代表这个单词的id。
id2word存储了{id: word}。
trainingSamples存储了问答的对话对。
比如 [[[1,2,3],[4,5,6]], [[7,8,9], [10, 11, 12]]]
1，2，3 ... 12 都是word id。
[1,2,3] 和 [4,5,6] 构成一个问答。 [7,8,9] 和 [10, 11, 12] 构成一个问答。
开始训练
cp config.sample.ini config.ini # modify keys  python deepqa2/train.py  
config.ini是配置文件, 根据config.sample.ini进行修改。训练的时间由epoch，learning rate, maxlength和对话对的数量而定。
deepqa2/train.py大约100行，完成数据字典加载、初始化tensorflow的session，saver，writer、初始化神经元模型、根据epoch进行迭代，保存模型到磁盘。
session是网络图，由placeholder, variable, cell, layer, output 组成。
saver是保存model的，也可以用来恢复model。model就是实例化variable的session。
writer是查看loss fn或者其他开发者感兴趣的数据的收集器。writer的结果会被saver保存，然后使用tensorboard查看。
Model
Model的构建要考虑输入，状态，softmax，输出。

定义损耗函数，使用AdamOptimizer进行迭代。

最后，参考一下训练的loop部分。

每次训练，model会被存储在 save路径下，文件夹的命名根据机器的hostname，时间戳生成。

提供服务
在TensorFlow中，提供了标准的serving模块 - tensorflow serving。但研究了很久，还专门看了一遍 《C++ Essentials》，还没有将它搞定，社区也普遍抱怨tensorflow serving不好学，不好用。训练结束后，使用下面的脚本启动服务，DeepQA2的serve部分还是调用TensorFlow的python api。
cd DeepQA2/save/deeplearning.cobra.vulcan.20170127.175256/deepqa2/serve  cp db.sample.sqlite3 db.sqlite3  python manage.py runserver 0.0.0.0:8000  
测试
POST /api/v1/question HTTP/1.1  Host: 127.0.0.1:8000  Content-Type: application/json  Authorization: Basic YWRtaW46cGFzc3dvcmQxMjM=  Cache-Control: no-cache{"message": "good to know"}response  {"rc": 0,"msg": "hello"}
serve的核心代码在serve/api/chatbotmanager.py中。
使用脚本
scripts/start_training.sh 启动训练
scripts/start_tensorboard.sh 启动Tensorboard
scripts/start_serving.sh 启动服务
对模型的评价
目前代码具有很高的维护性，这也是从DeepQA项目进行重构的原因，更清晰的数据预处理、训练和服务。有新的变更可以添加到deepqa2/models中，然后在train.py和chatbotmanager.py变更一下。
有待改进的地方
a. 新建models/rnn2.py, 使用dropout。目前DeepQA中已经使用了Drop.
b. tensorflow rc0.12.x中已经提供了seq2seq network，可以更新成tf版本.
c. 融合训练，目前model只有一个库，应该是设计一个新的模型，支持一个大库和小库，不同权重进行，就如Mechanism-Aware Neural Machine for Dialogue Response Generation的介绍。
d. 代码支持多机多GPU运行。
e. 目前训练的结果都是QA对，对于一个问题，可以有多个答案。
f. 目前没有一个方法进行accuracy测试，一个思路是在训练中就提供干扰项，因为当前只有正确的答案，如果提供错误的答案（而且越多越好），就可以使用recall_at_k方法进行测试。
机器人家上了解到的，希望对你有用

5. 现在tensorflow和mxnet很火，是否还有必要学习scikit-learn等框架

很有必要，但不用太深入，在Kaggle上认真搞2,3个比赛能进10%的程度就够了

现在tensorflow和mxnet很火，是否还有必要学习scikit-learn等框架

6. 如何基于TensorFlow使用LSTM和CNN实现时序分类任务

时序数据经常出现在很多领域中，如金融、信号处理、语音识别和医药。传统的时序问题通常首先需要人力进行特征工程，才能将预处理的数据输入到机器学习算法中。并且这种特征工程通常需要一些特定领域内的专业知识，因此也就更进一步加大了预处理成本。例如信号处理（即EEG信号分类），特征工程可能就涉及到各种频带的功率谱（powerspectra）、Hjorth参数和其他一些特定的统计学特征。

7. tensorflow 是分布式么

TensorFlow的一大功能就是支持异构设备分布式计算，它能够在各个平台上自动运行模型，从手机、单个CPU / GPU到成百上千GPU卡组成的分布式系统。
TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。
TensorFlow可被用于语音识别或图像识别等多项机器深度学习领域，对2011年开发的深度学习基础架构DistBelief进行了各方面的改进，它可在小到一部智能手机、大到数千台数据中心服务器的各种设备上运行。TensorFlow将完全开源，任何人都可以用。TensorFlow 表达了高层次的机器学习计算，大幅简化了第一代系统，并且具备更好的灵活性和可延展性。
从目前的文档看，TensorFlow支持CNN、RNN和LSTM算法，这都是目前在Image，Speech和NLP最流行的深度神经网络模型。

tensorflow 是分布式么

8. 如何用Tensorflow开发一个简单的语音识别器

Theano的一个优势在于代码是在计算时生成并编译的，所以理论上可以达到更高的速度（不需要运行时的polymorphism，而且如果写得好的话可以fuse kernel），但是因为是学术实现，没有花大精力在优化上面，所以实际速度并不占优势。另外现在大家都高度依赖于第三方库比如说cudnn，所以比较速度已经是上个时代的事情了，不必太在意。