forked from NLPIR-team/NLPIR
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
b395365
commit c7114b1
Showing
104 changed files
with
1,362 additions
and
22 deletions.
There are no files selected for viewing
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/DocExtractor文档提取授权/DocExtractor.user
Binary file not shown.
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/HtmlParser网页正文提取授权/LJHtmlParser.user
Binary file not shown.
Binary file not shown.
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/KeyExtract关键词提取授权/keyExtract.user
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/KeyScanner九眼智能扫描授权/keyScan.user
Binary file not shown.
Binary file not shown.
Binary file added
BIN
+3.28 KB
License/license for a month/LocationIdentify地域识别/LocationIdentify.user
Binary file not shown.
Binary file not shown.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,2 +1,2 @@ | ||
���� Ac7 | ||
{8p6 fnj=%n�Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�áv}G&jx}~�ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ���������˛��ҹ�����狁�џ�ֆ���������ā�����������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��עЩ������!'$!%5}��΄�Ӳ�ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿ����������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ�����������������������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ������������F���G��ӧ������'��ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ��� | ||
{8p6 fnj=%n�Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�áv}G&jx}~�ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ���������˛��ҹ�����狁�џ�ֆ���������ā�����������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��עЩ������!'$!%5}��΄�Ӳ�ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿ����������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ�����������������������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ������������)����ӧ������'��ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ��� |
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/NewWordFinder新词发现授权/NewWordFinder.user
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/PrivacyEraser脱敏工具/PrivacyEraser.user
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/RedupRemover去重授权/LJRedupRemover.user
Binary file not shown.
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/SentimentNew情感分析授权/sentiment.user
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/SplitSentence分句系统/SplitSentence.user
Binary file not shown.
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/TextSimilarity文本相似度/TextSimilarity.user
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/TxtExtractor文档抽取器/TxtExtractor.user
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/classifier深度学习分类授权/deepclassifier.user
Binary file not shown.
Binary file modified
BIN
+0 Bytes
(100%)
License/license for a month/classifier规则分类授权/classifier.user
Binary file not shown.
Binary file not shown.
Binary file not shown.
Binary file not shown.
Binary file not shown.
Binary file not shown.
Binary file not shown.
Binary file not shown.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,37 @@ | ||
// Sample.cpp : 定义控制台应用程序的入口点。 | ||
// | ||
#include "DocParser.h" | ||
#include <stdio.h> | ||
#ifndef OS_LINUX | ||
|
||
#ifndef WIN64 | ||
#pragma comment(lib, "../../../bin/DocParser/DocParser.lib") | ||
#else | ||
#pragma comment(lib, "../../../bin/DocParser/x64/DocParser.lib") | ||
#endif | ||
#endif | ||
|
||
int main(int argc,char *argv[]) | ||
{ | ||
if (!DP_Init()) | ||
{ | ||
printf("DocParser Init failed! Reason is %s\n",DP_GetLastErrorMsg()); | ||
return -1; | ||
} | ||
if (argc<2) | ||
{ | ||
printf("Usage: %s [filename_list]",argv[0]); | ||
} | ||
for (int i = 1; i < argc; i++) | ||
{ | ||
DP_HANDLE handle; | ||
handle=DP_Parse(argv[i]); | ||
const char *pText = DP_GetText(handle); | ||
const char *pTextE = DP_GetTextE(handle); | ||
const char *pTable = DP_GetTables(handle); | ||
const char *pFigures = DP_GetFigures(handle); | ||
DP_ReleaseHandle(handle); | ||
} | ||
return 0; | ||
} | ||
|
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,192 @@ | ||
/**************************************************************************** | ||
* | ||
* DocParser (c) 2019-2020 | ||
* Dr. Kevin Zhang (Hua-Ping Zhang) | ||
* All rights reserved. | ||
* | ||
* This file is the confidential and proprietary property of | ||
* Kevin Zhang and the possession or use of this file requires | ||
* a written license from the author. | ||
* Filename: | ||
* Abstract: | ||
* DocParser.h: definition of the NLPIR Parser API | ||
* Author: Kevin Zhang | ||
* Email: [email protected] [email protected] | ||
* Weibo: http://weibo.com/drkevinzhang | ||
* Homepage: http://www.nlpir.org | ||
* Date: 2019-12-10 | ||
* | ||
* Notes: | ||
* | ||
****************************************************************************/ | ||
#if !defined(__DOCPARSER_DOC_PARSER_H_INCLUDED__) | ||
#define __DOCPARSER_DOC_PARSER_H_INCLUDED__ | ||
|
||
#ifdef OS_LINUX | ||
#define DOCPARSER_API extern "C" | ||
#else | ||
#ifdef DOCPARSER_EXPORTS | ||
#define DOCPARSER_API extern "C" __declspec(dllexport) | ||
#else | ||
#define DOCPARSER_API extern "C" __declspec(dllimport) | ||
#endif | ||
#endif | ||
|
||
//内部兼容使用 | ||
|
||
#ifdef DOCPARSER_INTERNAL_CALL | ||
#define DOCPARSER_API | ||
#endif | ||
|
||
#define DP_HANDLE size_t | ||
|
||
/********************************************************************* | ||
* | ||
* Func Name : DP_Init | ||
* | ||
* Description: Init Document Parser | ||
* The function must be invoked before any operation listed as following | ||
* | ||
* Parameters : const char * sInitDirPath=NULL | ||
* sDataPath: Path where Data directory stored. | ||
* the default value is NULL, it indicates the initial directory is current working directory path | ||
* encode: encoding code; | ||
* sLicenseCode: license code for unlimited usage. common user ignore it | ||
* Returns : success or fail | ||
* Author : Kevin Zhang | ||
* History : | ||
* 1.create 2013-6-8 | ||
*********************************************************************/ | ||
DOCPARSER_API int DP_Init(const char * sDataPath = 0, const char*sLicenceCode = 0); | ||
|
||
/********************************************************************* | ||
* | ||
* Func Name : DP_Parse | ||
* | ||
* Description: Parse a document file | ||
* | ||
* | ||
* Parameters : DP_HANDLE: the result handle | ||
* | ||
* | ||
* Returns : DP_HANDLE: the result handle | ||
* -1, if failure | ||
* | ||
* Author : Kevin Zhang | ||
* History : | ||
* 1.create 2003-12-22 | ||
*********************************************************************/ | ||
DOCPARSER_API DP_HANDLE DP_Parse(const char *sDocFilename); | ||
|
||
/********************************************************************* | ||
* | ||
* Func Name : DP_GetText | ||
* | ||
* Description: 获取文档的文本正文 | ||
* | ||
* | ||
* Parameters : DP_HANDLE: 文档分析结果的handle | ||
* | ||
* | ||
* Returns : const char *: 文本内容 纯文本内容 | ||
* | ||
* Author : Kevin Zhang | ||
* History : | ||
* 1.create 2019-12-10 | ||
*********************************************************************/ | ||
DOCPARSER_API const char * DP_GetText(DP_HANDLE handle); | ||
|
||
/********************************************************************* | ||
* | ||
* Func Name : DP_GetTextE | ||
* | ||
* Description: 获取文档的文本正文 | ||
* | ||
* | ||
* Parameters : DP_HANDLE: 文档分析结果的handle | ||
* | ||
* | ||
* Returns : const char *: 文本内容,带格式的JSON串 | ||
* | ||
* Author : Kevin Zhang | ||
* History : | ||
* 1.create 2019-12-10 | ||
*********************************************************************/ | ||
DOCPARSER_API const char * DP_GetTextE(DP_HANDLE handle); | ||
|
||
/********************************************************************* | ||
* | ||
* Func Name : DP_GetTables | ||
* | ||
* Description: 获取文档的表格详细信息 | ||
* | ||
* | ||
* Parameters : DP_HANDLE: 文档分析结果的handle | ||
* | ||
* | ||
* Returns : JSON格式的表格内容字符串 | ||
* | ||
* | ||
* Author : Kevin Zhang | ||
* History : | ||
* 1.create 2019-12-10 | ||
*********************************************************************/ | ||
DOCPARSER_API const char * DP_GetTables(DP_HANDLE handle); | ||
|
||
/********************************************************************* | ||
* | ||
* Func Name : DP_GetFigures | ||
* | ||
* Description: 获取文档的图片详细信息 | ||
* | ||
* | ||
* Parameters : DP_HANDLE: 文档分析结果的handle | ||
* | ||
* | ||
* Returns : JSON格式的图片内容字符串 | ||
* | ||
* | ||
* Author : Kevin Zhang | ||
* History : | ||
* 1.create 2019-12-10 | ||
*********************************************************************/ | ||
DOCPARSER_API const char * DP_GetFigures(DP_HANDLE handle); | ||
|
||
/********************************************************************* | ||
* | ||
* Func Name : DP_ReleaseHandle | ||
* | ||
* Description: 释放分析结果 | ||
* | ||
* | ||
* Parameters : DP_HANDLE: 文档分析结果的handle | ||
* | ||
* | ||
* Returns : void | ||
* | ||
* | ||
* Author : Kevin Zhang | ||
* History : | ||
* 1.create 2019-12-10 | ||
*********************************************************************/ | ||
DOCPARSER_API void DP_ReleaseHandle(DP_HANDLE handle); | ||
|
||
/********************************************************************* | ||
* | ||
* Func Name : DP_GetLastErrorMsg | ||
* | ||
* Description: GetLastErrorMessage | ||
* | ||
* | ||
* Parameters : void | ||
* | ||
* | ||
* Returns : the result buffer pointer | ||
* | ||
* Author : Kevin Zhang | ||
* History : | ||
* 1.create 2014-2-27 | ||
*********************************************************************/ | ||
DOCPARSER_API const char * DP_GetLastErrorMsg(); | ||
|
||
#endif |
Binary file not shown.
Binary file not shown.
Oops, something went wrong.