“結巴”中文分詞:做最好的 PHP 中文分詞、中文斷詞組件。 / “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best PHP Chinese word segmentation module. http://jieba-php.fukuball.com
基于PSCWS4词库的PHP中文分词工具
基于PSCWS4的PHP中文分词工具词库官方网址:http://www.xunsearch.com/scws/
这是用纯 PHP 代码实现的 C 版 Libscws 的全部功能,即第四版的 PSCWSPSCWS4
使用文档:http://www.xunsearch.com/scws/docs.php#pscws4
安装composer require wxkxklmyt/pscws
安装
composer require wxkxklmyt/pscws4
使用
/**
* SCWS中文分词
*
* @param string $text 分词字符串
* @param number $number 权重高的词数量(默认5个)
* @param string $type 返回类型,默认字符串
* @param string $delimiter 分隔符
* @return string|array 字符串|数组
*/
$scws = new Scws();
$scws -> scws('能做到柔和、善解、忍辱,才有办法与人结好缘。——证严法师《静思语》');
运行结果
静思 善解 法师 柔和 做到
其它说明
- 默认返回结果为字符串,返回字符串支持自定义分隔符,默认为空格
- 支持返回结果为数组
- 支持返回词数量自定义,默认为5个
清除不可见空格
用 $str = preg_replace('/^[\pZ\pC]+|[\pZ\pC]+$/u','',$str);
http://php.net/manual/zh/regexp.reference.unicode.php
在选用 UTF-8模式时用于匹配通用字符类型
pC:所有的unicode“other”
pZ:所有的unicode“separator” ,所有空格和不可见字符
mpdf7 中文乱码 解决办法
<?php
require_once './vendor/autoload.php';
//report errors
error_reporting(E_ALL);
ini_set("display_errors", 1);
$config = [
'mode' => '+aCJK',
// "allowCJKoverflow" => true,
"autoScriptToLang" => true,
// "allow_charset_conversion" => false,
"autoLangToFont" => true,
];
$mpdf=new \Mpdf\Mpdf($config);
$mpdf->WriteHTML('Hello World 中文');
$mpdf->Output();