Coding01

Coding 点滴

0%

tensorflow_text 简单中文分词使用

本文学习使用 zh_segmentation:基于 Chinese Treebank 6.0 构建的中文分词模型。

安装插件

本模型需要安装 2.4.0b0 或更高版本的 tensorflow_text

1
pip install "tensorflow_text>=2.4.0b0"

分词

对字符串:「新华社北京」分词:

1
2
3
4
5
6
7
8
9
10
import tensorflow_text as text
import tensorflow as tf

# 设定模型的 UR
MODEL_HANDLE = "https://hub.tensorflow.google.cn/google/zh_segmentation/1"
segmenter = text.HubModuleTokenizer(MODEL_HANDLE)

# 分割[新华社北京]。
input_text = ["新华社北京"]
tokens, starts, ends = segmenter.tokenize_with_offsets(input_text)

打印 tokens 看看:

1
print(tokens.to_list())

需要对数组内容进行解析,输出数组:

1
2
3
4
5
first = tokens.to_list()[0][0]
second = tokens.to_list()[0][1]

print(first.decode('utf-8'))
print(second.decode('utf-8'))

试试其他字符串:

总结

下一步就将分词功能用于具体项目中,或者具体去了解源代码。

Welcome to my other publishing channels