CLUEDatasetSearch

搜索所有中文NLP数据集，附常用英文NLP数据集

4,339

625

4,339

View on GitHub

Top Related Projects

datasets

4,402

TFDS is a collection of datasets ready to use with TensorFlow, Jax, ...

allennlp

11,843

An open-source NLP research library, built on PyTorch.

text

3,542

Models, data loaders and abstractions for language processing, powered by PyTorch

spaCy

31,840

💫 Industrial-strength Natural Language Processing (NLP) in Python

fastText

26,183

Library for fast text representation and classification.

Quick Overview

CLUEDatasetSearch is a GitHub repository that provides a comprehensive collection of Chinese language datasets for various natural language processing (NLP) tasks. It aims to facilitate research and development in Chinese NLP by offering a centralized resource for accessing and exploring diverse datasets.

Pros

Extensive collection of Chinese NLP datasets covering multiple tasks
Well-organized structure with clear categorization of datasets
Includes detailed information about each dataset, such as task type, size, and source
Regularly updated with new datasets and improvements

Cons

Limited to Chinese language datasets, which may not be useful for researchers working on other languages
Some datasets may require additional processing or formatting for specific use cases
Dependency on external sources for some datasets, which may lead to broken links or unavailable data
Lack of standardized evaluation metrics across all datasets

Code Examples

This repository is primarily a collection of datasets and does not include code libraries. Therefore, code examples are not applicable in this case.

Getting Started

As this is not a code library, there are no specific code-based getting started instructions. However, to begin using the datasets:

Visit the repository: https://github.com/CLUEbenchmark/CLUEDatasetSearch
Browse the available datasets in the README file
Click on the dataset of interest to access more detailed information
Follow the provided links or instructions to download or access the specific dataset
Refer to the dataset's documentation for usage guidelines and formatting information

Competitor Comparisons

datasets

4,402

TFDS is a collection of datasets ready to use with TensorFlow, Jax, ...

Pros of datasets

Extensive collection of datasets across various domains
Well-integrated with TensorFlow ecosystem
Robust documentation and community support

Cons of datasets

Primarily focused on machine learning datasets
May have a steeper learning curve for beginners

Code comparison

CLUEDatasetSearch:

from CLUEDatasetSearch import CLUEDatasetSearch

searcher = CLUEDatasetSearch()
results = searcher.search("sentiment analysis")

datasets:

import tensorflow_datasets as tfds

dataset = tfds.load('imdb_reviews')
train_dataset = dataset['train']

Key differences

CLUEDatasetSearch focuses on Chinese language datasets, while datasets covers a broader range of languages and domains
CLUEDatasetSearch provides a search interface for finding relevant datasets, whereas datasets offers direct access to pre-processed datasets
datasets is more tightly integrated with TensorFlow, making it easier to use in TensorFlow-based projects

Use cases

CLUEDatasetSearch is ideal for:

Researchers working on Chinese NLP tasks
Those seeking a curated list of Chinese language datasets

datasets is better suited for:

Machine learning practitioners using TensorFlow
Projects requiring a wide variety of datasets across multiple domains

allennlp

11,843

An open-source NLP research library, built on PyTorch.

Pros of AllenNLP

Comprehensive NLP toolkit with a wide range of pre-built models and components
Extensive documentation and tutorials for easy adoption
Active community and regular updates

Cons of AllenNLP

Steeper learning curve for beginners
Primarily focused on English language tasks
Larger codebase and dependencies

Code Comparison

AllenNLP:

from allennlp.predictors import Predictor

predictor = Predictor.from_path("https://storage.googleapis.com/allennlp-public-models/bert-base-srl-2020.03.24.tar.gz")
result = predictor.predict(sentence="Did Uriah honestly think he could beat the game in under three hours?")

CLUEDatasetSearch:

from CLUEDatasetSearch import CLUEDatasetSearch

searcher = CLUEDatasetSearch()
results = searcher.search("text classification dataset")

AllenNLP offers a more comprehensive toolkit for various NLP tasks, while CLUEDatasetSearch focuses specifically on Chinese language datasets. AllenNLP provides pre-built models and predictors, whereas CLUEDatasetSearch is primarily a search tool for datasets. The code examples demonstrate the different use cases: AllenNLP for model prediction and CLUEDatasetSearch for dataset discovery.

text

3,542

Models, data loaders and abstractions for language processing, powered by PyTorch

Pros of text

Broader scope, covering various NLP tasks and datasets
More extensive documentation and community support
Integrated with PyTorch ecosystem for seamless deep learning workflows

Cons of text

Less focused on Chinese language tasks and datasets
May require more setup and configuration for specific use cases
Potentially steeper learning curve for beginners

Code Comparison

CLUEDatasetSearch:

from CLUEDatasetSearch import CLUEDatasetSearch

searcher = CLUEDatasetSearch()
results = searcher.search("情感分析")
print(results)

text:

from torchtext.datasets import IMDB

train_dataset, test_dataset = IMDB(split=('train', 'test'))
for label, text in train_dataset:
    print(f"Label: {label}, Text: {text[:50]}...")

The CLUEDatasetSearch code demonstrates a simple search for Chinese NLP datasets, while the text example shows how to load and iterate through an English sentiment analysis dataset. text offers more flexibility for various NLP tasks, but CLUEDatasetSearch is more specialized for Chinese language datasets.

spaCy

31,840

💫 Industrial-strength Natural Language Processing (NLP) in Python

Pros of spaCy

Comprehensive NLP library with a wide range of functionalities
Efficient and fast processing, suitable for large-scale applications
Extensive documentation and active community support

Cons of spaCy

Steeper learning curve for beginners
Primarily focused on English, with limited support for other languages
Requires more system resources compared to lightweight alternatives

Code Comparison

spaCy:

import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

for ent in doc.ents:
    print(ent.text, ent.label_)

CLUEDatasetSearch:

from CLUEDatasetSearch import CLUEDatasetSearch

searcher = CLUEDatasetSearch()
results = searcher.search("sentiment analysis dataset")

for result in results:
    print(result.name, result.description)

Summary

spaCy is a powerful NLP library with extensive features and performance optimizations, while CLUEDatasetSearch focuses on dataset discovery for Chinese language tasks. spaCy offers more comprehensive NLP capabilities but may be more complex for beginners, whereas CLUEDatasetSearch provides a simpler interface for finding relevant datasets in the CLUE benchmark collection.

fastText

26,183

Library for fast text representation and classification.

Pros of fastText

Efficient and fast text classification and word representation learning
Supports multiple languages and can handle large datasets
Provides pre-trained models and embeddings for various languages

Cons of fastText

Limited to shallow neural network architectures
May not capture complex semantic relationships as well as more advanced models
Requires careful preprocessing and hyperparameter tuning for optimal performance

Code Comparison

fastText:

import fasttext

model = fasttext.train_supervised("train.txt")
result = model.predict("example text")

CLUEDatasetSearch:

from CLUEDatasetSearch import CLUEDatasetSearch

searcher = CLUEDatasetSearch()
results = searcher.search("query", top_k=5)

While fastText focuses on text classification and word embeddings, CLUEDatasetSearch is primarily designed for searching and retrieving Chinese language datasets. fastText offers more general-purpose text processing capabilities, while CLUEDatasetSearch is specialized for dataset discovery within the CLUE (Chinese Language Understanding Evaluation) benchmark ecosystem.

Convert designs to code with AI

Introducing Visual Copilot: A new AI model to turn Figma designs to high quality code using your components.

Try Visual Copilot

README

CLUEDatasetSearch

ä¸è±æNLPæ°æ®éãå¯ä»¥ç¹å»æç´¢ã

gif

NER
QA
ææåæ
ææ¬åç±»
ææ¬å¹é
ææ¬æè¦
æºå¨ç¿»è¯
ç¥è¯å¾è°±
è¯æåº
éè¯»çè§£
è´¡ç®ä¸åä¸

å¦ææ°æ®éæé®é¢ï¼æ¬¢è¿æåºissueã

NER

ID	æ é¢	æ´æ°æ¥æ	æ°æ®éæä¾è	è¯´æ	å³é®å	ç±»å«	è®ºæå°å	å¤æ³¨
1	CCKS2017ä¸æçµåçä¾å½åå®ä½è¯å«	2017å¹´5æ	åäº¬æç®äºå¥åº·ç§ææéå¬å¸	æ°æ®æ¥æºäºå¶äºå»é¢å¹³å°ççå®çµåçåæ°æ®ï¼å±è®¡800æ¡ï¼åä¸ªçäººåæ¬¡å°±è¯è®°å½ï¼ï¼ç»è±æå¤ç	çµåçå	å½åå®ä½è¯å«	\	ä¸æ
2	CCKS2018ä¸æçµåçä¾å½åå®ä½è¯å«	2018å¹´	å»æ¸¡äºï¼åäº¬ï¼ææ¯æéå¬å¸	CCKS2018ççµåçåå½åå®ä½è¯å«çè¯æµä»»å¡æä¾äº600ä»½æ æ³¨å¥½ççµåçåææ¬ï¼å±éè¯å«å«è§£åé¨ä½ãç¬ç«çç¶ãçç¶æè¿°ãææ¯åè¯ç©äºç±»å®ä½	çµåçå	å½åå®ä½è¯å«	\	ä¸æ
3	å¾®è½¯äºç é¢MSRAå½åå®ä½è¯å«è¯å«æ°æ®é	\	MSRA	æ°æ®æ¥æºäºMSRAï¼æ æ³¨å½¢å¼ä¸ºBIOï¼å±æ46365æ¡è¯æ	Msra	å½åå®ä½è¯å«	\	ä¸æ
4	1998äººæ°æ¥æ¥è¯æéå®ä½è¯å«æ æ³¨é	1998å¹´1æ	äººæ°æ¥æ¥	æ°æ®æ¥æºä¸º98å¹´äººæ°æ¥æ¥ï¼æ æ³¨å½¢å¼ä¸ºBIOï¼å±æ23061æ¡è¯æ	98äººæ°æ¥æ¥	å½åå®ä½è¯å«	\	ä¸æ
5	Boson	\	ç»æ£®æ°æ®	æ°æ®æ¥æºä¸ºBosonï¼æ æ³¨å½¢å¼ä¸ºBMEO,å±æ2000æ¡è¯æ	Boson	å½åå®ä½è¯å«	\	ä¸æ
6	CLUE Fine-Grain NER	2020å¹´	CLUE	CLUENER2020æ°æ®éï¼æ¯å¨æ¸åå¤§å¦å¼æºçææ¬åç±»æ°æ®éTHUCTCåºç¡ä¸ï¼éåºé¨åæ°æ®è¿è¡ç»ç²åº¦å½åå®ä½æ æ³¨ï¼åæ°æ®æ¥æºäºSina News RSSãæ°æ®åå«10ä¸ªæ ç¾ç±»å«ï¼è®ç»éå±æ10748æ¡è¯æï¼éªè¯éå±æ1343æ¡è¯æ	ç»ç²åº¦ï¼CULE	å½åå®ä½è¯å«	\	ä¸æ
7	CoNLL-2003	2003	CNTS - Language Technology Group	æ°æ®æ¥æºäºCoNLL-2003çä»»å¡ï¼è¯¥æ°æ®æ æ³¨äºåæ¬PER, LOC, ORGåMISCçåä¸ªç±»å«	CoNLL-2003	å½åå®ä½è¯å«	è®ºæ	è±æ
8	å¾®åå®ä½è¯å«	2015å¹´	https://github.com/hltcoe/golden-horse		EMNLP-2015	å½åå®ä½è¯å«
9	SIGHAN Bakeoff 2005	2005å¹´	MSR/PKU		bakeoff-2005	å½åå®ä½è¯å«

QA

ID	æ é¢	æ´æ°æ¥æ	æ°æ®éæä¾è	è¯´æ	å³é®å	ç±»å«	è®ºæå°å
1	NewsQA	2019/9/13	å¾®è½¯ç ç©¶é¢	Maluuba NewsQAæ°æ®éçç®çæ¯å¸®å©ç ç©¶ç¤¾åºæå»ºè½å¤åçéè¦äººç±»æ°´å¹³ççè§£åæ¨çæè½çé®é¢çç®æ³ãåå«è¶è¿12000ç¯æ°é»æç« å120,000çæ¡ï¼æ¯ç¯æç« å¹³å616ä¸ªåè¯ï¼æ¯ä¸ªé®é¢æ2ï½3ä¸ªçæ¡ã	è±æ	QA	è®ºæ
2	SQuAD		æ¯å¦ç¦	æ¯å¦ç¦é®çæ°æ®éï¼SQuADï¼æ¯ä¸ä¸ªéè¯»çè§£æ°æ®éï¼ç±ç»´åºç¾ç§çä¸ç»æç« ä¸æåºçé®é¢ç»æï¼å¶ä¸æ¯ä¸ªé®é¢ççæ¡é½æ¯ä¸æ®µææ¬ï¼å¯è½æ¥èªç¸åºçéè¯»æ®µè½ï¼æèé®é¢å¯è½æ¯æªè§£ççã	è±æ	QA	è®ºæ
3	SimpleQuestions		Facebook	åºäºåå¨ç½ç»çå¤§è§æ¨¡ç®åé®çç³»ç», æ°æ®éæä¾äºä¸ä¸ªå¤ä»»å¡é®çæ°æ®éï¼æ°æ®éæ100Kç®åé®é¢çåçã	è±æ	QA	è®ºæ
4	WikiQA	2016/7/14	å¾®è½¯ç ç©¶é¢	ä¸ºäºåæ ä¸è¬ç¨æ·ççå®ä¿¡æ¯éæ±ï¼WikiQAä½¿ç¨Bingæ¥è¯¢æ¥å¿ä½ä¸ºé®é¢æºãæ¯ä¸ªé®é¢é½é¾æ¥å°ä¸ä¸ªå¯è½æçæ¡çç»´åºç¾ç§é¡µé¢ãå ä¸ºç»´åºç¾ç§é¡µé¢çæè¦é¨åæä¾äºå³äºè¿ä¸ªä¸»é¢çåºæ¬ä¸éå¸¸æéè¦çä¿¡æ¯ï¼æä»¥ä½¿ç¨æ¬èä¸çå¥åä½ä¸ºåéçæ¡ãå¨ä¼åçå¸®å©ä¸ï¼æ°æ®éä¸åæ¬3047ä¸ªé®é¢å29258ä¸ªå¥åï¼å¶ä¸1473ä¸ªå¥åè¢«æ è®°ä¸ºå¯¹åºé®é¢çåçå¥åã	è±æ	QA	è®ºæ
5	cMedQA	2019/2/25	Zhang Sheng	å»å¦å¨çº¿è®ºåçæ°æ®ï¼åå«5.4ä¸ä¸ªé®é¢ï¼åå¯¹åºççº¦10ä¸ä¸ªåçã	ä¸æ	QA	è®ºæ
6	cMedQA2	2019/1/9	Zhang Sheng	cMedQAçæ©å±çï¼åå«çº¦10ä¸ä¸ªå»å¦ç¸å³é®é¢ï¼åå¯¹åºççº¦20ä¸ä¸ªåçã	ä¸æ	QA	è®ºæ
7	webMedQA	2019/3/10	He Junqing	ä¸ä¸ªå»å¦å¨çº¿é®çæ°æ®éï¼åå«6ä¸ä¸ªé®é¢å31ä¸ä¸ªåçï¼èä¸åå«é®é¢çç±»å«ã	ä¸æ	QA	è®ºæ
8	XQA	2019/7/29	æ¸åå¤§å¦	è¯¥ç¯æç« ä¸»è¦æ¯éå¯¹å¼æ¾å¼é®çæå»ºäºä¸ä¸ªè·¨è¯è¨çå¼æ¾å¼é®çæ°æ®éï¼è¯¥æ°æ®éï¼è®ç»éãæµè¯éï¼ä¸»è¦åæ¬ä¹ç§è¯è¨ï¼9ä¸å¤ä¸ªé®çã	å¤è¯è¨	QA	è®ºæ
9	AmazonQA	2019/9/29	äºé©¬é	å¡èåºæ¢éå¤§å¦éå¯¹äºé©¬éå¹³å°ä¸é®é¢éå¤åçççç¹ï¼æåºäºåºäºè¯è®ºçQAæ¨¡åä»»å¡ï¼å³å©ç¨ååå¯¹æä¸äº§åçé®çï¼QAç³»ç»èªå¨æ»ç»åºä¸ä¸ªçæ¡ç»å®¢æ·	è±æ	QA	è®ºæ
9	AmazonQA	2019/9/29	äºé©¬é	å¡èåºæ¢éå¤§å¦éå¯¹äºé©¬éå¹³å°ä¸é®é¢éå¤åçççç¹ï¼æåºäºåºäºè¯è®ºçQAæ¨¡åä»»å¡ï¼å³å©ç¨ååå¯¹æä¸äº§åçé®çï¼QAç³»ç»èªå¨æ»ç»åºä¸ä¸ªçæ¡ç»å®¢æ·	è±æ	QA	è®ºæ

ææåæ

ID	æ é¢	æ´æ°æ¥æ	æ°æ®éæä¾è	è®¸å¯	è¯´æ	å³é®å	ç±»å«	è®ºæå°å
1	NLPCC2013	2013	CCF	\	å¾®åè¯æï¼æ æ³¨äº7 emotions: like, disgust, happiness, sadness, anger, surprise, fearãå¤§å°ï¼14 000 æ¡å¾®å, 45 431å¥å	NLPCC2013, Emotion	ææåæ	è®ºæ
2	NLPCC2014 Task1	2014	CCF	\	å¾®åè¯æï¼æ æ³¨äº7 emotions: like, disgust, happiness, sadness, anger, surprise, fearã å¤§å°ï¼20000æ¡å¾®å	NLPCC2014, Emotion	ææåæ	\
3	NLPCC2014 Task2	2014	CCF	\	å¾®åè¯æï¼æ æ³¨äºæ£é¢åè´é¢	NLPCC2014, Sentiment	ææåæ	\
4	Weibo Emotion Corpus	2016	The Hong Kong Polytechnic University	\	å¾®åè¯æï¼æ æ³¨äº7 emotions: like, disgust, happiness, sadness, anger, surprise, fearã å¤§å°ï¼åä¸å¤æ¡å¾®å	weibo emotion corpus	ææåæ	Emotion Corpus Construction Based on Selection from Noisy Natural Labels
5	[RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.)	2009	Fuji Ren	\	æ æ³¨çåå®¢è¯æåºï¼å¨ææ¡£çº§ãæ®µè½çº§åå¥åçº§æ æ³¨äºemotionåsentimentãåå«äº1500ä¸ªåå®¢ï¼11000æ®µè½å35000å¥åã	RenCECPs, emotion, sentiment	ææåæ	Construction of a blog emotion corpus for Chinese emotional expression analysis
6	weibo_senti_100k	ä¸è¯¦	ä¸è¯¦	\	å¸¦æææ æ³¨ æ°æµªå¾®åï¼æ£è´åè¯è®ºçº¦å 5 ä¸æ¡	weibo senti, sentiment	ææåæ	\
7	BDCI2018-æ±½è½¦è¡ä¸ç¨æ·è§ç¹ä¸»é¢åææè¯å«	2018	CCF		æ±½è½¦è®ºåä¸å¯¹æ±½è½¦çè¯è®ºï¼æ æ³¨äºæ±½è½¦çè¯æä¸»é¢ï¼å¨åãä»·æ ¼ãåé¥°ãéç½®ãå®å¨æ§ãå¤è§ãææ§ãæ²¹èãç©ºé´ãèéæ§ãæ¯ä¸ªä¸»é¢æ æ³¨äºæææ ç¾ï¼ææåä¸º3ç±»ï¼åå«ç¨æ°å0ã1ã-1è¡¨ç¤ºä¸ç«ãæ£åãè´åã	å±æ§ææåæ ä¸»é¢ææåæ	ææåæ	\
8	AI Challenger ç»ç²åº¦ç¨æ·è¯è®ºææåæ	2o18	ç¾å¢	\	é¤é¥®è¯è®ºï¼6ä¸ªä¸çº§å±æ§ï¼20ä¸ªäºçº§å±æ§ï¼æ¯ä¸ªå±æ§æ æ³¨æ£é¢ãè´é¢ãä¸æ§ãæªæåã	å±æ§ææåæ	ææåæ	\
9	BDCI2019éèä¿¡æ¯è´é¢åä¸»ä½å¤å®	2019	ä¸åé¶è¡	\	éèé¢åæ°é»ï¼æ¯ä¸ªæ ·æ¬æ è®°äºå®ä½åè¡¨ä»¥åè´é¢å®ä½åè¡¨ãä»»å¡æ¯å¤æä¸ä¸ªæ ·æ¬æ¯å¦æ¯è´é¢ä»¥åå¯¹åºçè´é¢çå®ä½ã	å®ä½ææåæ	ææåæ	\
10	ä¹æ±æ¯çµåè¯è®ºè§ç¹ææå¤§èµ	2019	ä¹æ±å®éªå®¤	\	æ¬æ¬¡åçè¯è®ºè§ç¹ææçä»»å¡æ¯å¨ååè¯è®ºä¸æ½åååå±æ§ç¹å¾åæ¶è´¹èè§ç¹ï¼å¹¶ç¡®è®¤å¶ææææ§åå±æ§ç§ç±»ãå¯¹äºååçæä¸ä¸ªå±æ§ç¹å¾ï¼åå¨çä¸ç³»åæè¿°å®çè§ç¹è¯ï¼å®ä»¬ä»£è¡¨äºæ¶è´¹èå¯¹è¯¥å±æ§ç¹å¾çè§ç¹ãæ¯ä¸ç»{ååå±æ§ç¹å¾ï¼æ¶è´¹èè§ç¹}å·æç¸åºçææææ§ï¼è´é¢ãä¸æ§ãæ£é¢ï¼ï¼ä»£è¡¨äºæ¶è´¹èå¯¹è¯¥å±æ§çæ»¡æç¨åº¦ãæ¤å¤ï¼å¤ä¸ªå±æ§ç¹å¾å¯ä»¥å½å¥æä¸ä¸ªå±æ§ç§ç±»ï¼ä¾å¦å¤è§ãçåçå±æ§ç¹å¾åå¯å½å¥åè£è¿ä¸ªå±æ§ç§ç±»ãåèµéä¼æç»éæäº¤å¯¹æµè¯æ°æ®çæ½åé¢æµä¿¡æ¯ï¼åæ¬å±æ§ç¹å¾è¯ãè§ç¹è¯ãè§ç¹ææ§åå±æ§ç§ç±»4ä¸ªåæ®µã	å±æ§ææåæ	ææåæ	\
11	2019æçæ ¡åç®æ³å¤§èµ	2019	æç	\	ç»å®è¥å¹²æç« ï¼ç®æ æ¯å¤ææç« çæ ¸å¿å®ä½ä»¥åå¯¹æ ¸å¿å®ä½çæææåº¦ãæ¯ç¯æç« è¯å«æå¤ä¸ä¸ªæ ¸å¿å®ä½ï¼å¹¶åå«å¤ææç« å¯¹ä¸è¿°æ ¸å¿å®ä½çææå¾åï¼ç§¯æãä¸ç«ãæ¶æä¸ç§ï¼ãå®ä½ï¼äººãç©ãå°åºãæºæãå¢ä½ãä¼ä¸ãè¡ä¸ãæä¸ç¹å®äºä»¶çåºå®åå¨ï¼ä¸å¯ä»¥ä½ä¸ºæç« ä¸»ä½çå®ä½è¯ãæ ¸å¿å®ä½ï¼æç« ä¸»è¦æè¿°ãææä»»æç« ä¸»è¦è§è²çå®ä½è¯ã	å®ä½ææåæ	ææåæ	\

ææ¬åç±»

ID	æ é¢	æ´æ°æ¥æ	æ°æ®éæä¾è	è®¸å¯	è¯´æ	å³é®å	ç±»å«	è®ºæå°å	å¤æ³¨
1	[2018âè¾¾è§æ¯âææ¬æºè½å¤çææèµ](https://www.pkbigdata.com/common/cmpt/ âè¾¾è§æ¯âææ¬æºè½å¤çææèµ_èµä½ä¸æ°æ®.html)	2018å¹´7æ	è¾¾è§æ°æ®		æ°æ®éæ¥æºäºè¾¾è§æ°æ®ï¼ä¸ºé¿ææ¬åç±»ä»»å¡ï¼å¶ä¸»è¦åæ¬äºidï¼articleï¼word_segåclassåä¸ªåæ®µï¼æ°æ®åå«19ä¸ªç±»å«ï¼å±102275æ¡æ ·æ¬	é¿ææ¬ï¼è±æ	ææ¬åç±»	\	ä¸æ
2	ä»æ¥å¤´æ¡ä¸ææ°é»ï¼ææ¬ï¼åç±»	2018å¹´5æ	ä»æ¥å¤´æ¡		æ°æ®éæ¥æºäºä»æ¥å¤´æ¡ï¼ä¸ºçææ¬åç±»ä»»å¡ï¼æ°æ®åå«15ä¸ªç±»å«ï¼å±382688æ¡æ ·æ¬	çææ¬ï¼æ°é»	ææ¬åç±»	\	ä¸æ
3	THUCNewsä¸æææ¬åç±»	2016å¹´	æ¸åå¤§å¦		THUCNewsæ¯æ ¹æ®æ°æµªæ°é»RSSè®¢éé¢é2005~2011å¹´é´çåå²æ°æ®çéè¿æ»¤çæï¼åä¸ºUTF-8çº¯ææ¬æ ¼å¼ãæä»¬å¨åå§æ°æµªæ°é»åç±»ä½ç³»çåºç¡ä¸ï¼éæ°æ´ååååº14ä¸ªåéåç±»ç±»å«ï¼è´¢ç»ãå½©ç¥¨ãæ¿äº§ãè¡ç¥¨ãå®¶å±ãæè²ãç§æãç¤¾ä¼ãæ¶å°ãæ¶æ¿ãä½è²ãæåº§ãæ¸¸æãå¨±ä¹ï¼å±74ä¸ç¯æ°é»ææ¡£ï¼2.19 GBï¼	ææ¡£ï¼æ°é»	ææ¬åç±»	\	ä¸æ
4	å¤æ¦å¤§å¦ä¸æææ¬åç±»	\	å¤æ¦å¤§å¦è®¡ç®æºä¿¡æ¯ä¸ææ¯ç³»å½éæ°æ®åºä¸å¿èªç¶è¯è¨å¤çå°ç»		æ°æ®éæ¥æºäºå¤æ¦å¤§å¦ï¼ä¸ºçææ¬åç±»ä»»å¡ï¼æ°æ®åå«20ä¸ªç±»å«ï¼å±9804ç¯ææ¡£	ææ¡£ï¼æ°é»	ææ¬åç±»	\	ä¸æ
5	æ°é»æ é¢çææ¬åç±»	2019å¹´12æ	chenfengshf	CC0 å¬å±é¢åå±äº«	æ°æ®éæ¥æºäºKesciå¹³å°ï¼ä¸ºæ°é»æ é¢é¢åçææ¬åç±»ä»»å¡ãåå®¹å¤§å¤ä¸ºçææ¬æ é¢(length<50)ï¼æ°æ®åå«15ä¸ªç±»å«ï¼å±38wæ¡æ ·æ¬	çææ¬ï¼æ°é»æ é¢	ææ¬åç±»	\	ä¸æ
6	2017 ç¥ä¹çå±±æ¯æºå¨å¦ä¹ ææèµ	2017å¹´6æ	ä¸å½äººå·¥æºè½å¦ä¼;ç¥ä¹		æ°æ®éæ¥æºäºç¥ä¹ï¼ä¸ºé®é¢åè¯é¢æ ç¾çç»å®å³ç³»çæ æ³¨æ°æ®ï¼æ¯ä¸ªé®é¢æ 1 ä¸ªæå¤ä¸ªæ ç¾ï¼ç´¯è®¡1999 ä¸ªæ ç¾ï¼å±åå« 300 ä¸ä¸ªé®é¢	é®é¢ï¼çææ¬	ææ¬åç±»	\	ä¸æ
7	2019ä¹æ±æ¯-çµåè¯è®ºè§ç¹ææå¤§èµ	2019å¹´8æ	ä¹æ±å®éªå®¤		æ¬æ¬¡åçè¯è®ºè§ç¹ææçä»»å¡æ¯å¨ååè¯è®ºä¸æ½åååå±æ§ç¹å¾åæ¶è´¹èè§ç¹ï¼å¹¶ç¡®è®¤å¶ææææ§åå±æ§ç§ç±»ãå¯¹äºååçæä¸ä¸ªå±æ§ç¹å¾ï¼åå¨çä¸ç³»åæè¿°å®çè§ç¹è¯ï¼å®ä»¬ä»£è¡¨äºæ¶è´¹èå¯¹è¯¥å±æ§ç¹å¾çè§ç¹ãæ¯ä¸ç»{ååå±æ§ç¹å¾ï¼æ¶è´¹èè§ç¹}å·æç¸åºçææææ§ï¼è´é¢ãä¸æ§ãæ£é¢ï¼ï¼ä»£è¡¨äºæ¶è´¹èå¯¹è¯¥å±æ§çæ»¡æç¨åº¦	è¯è®ºï¼çææ¬	ææ¬åç±»	\	ä¸æ
8	IFLYTEK' é¿ææ¬åç±»	\	ç§å¤§è®¯é£		è¯¥æ°æ®éå±æ1.7ä¸å¤æ¡å³äºappåºç¨æè¿°çé¿ææ¬æ æ³¨æ°æ®ï¼åå«åæ¥å¸¸çæ´»ç¸å³çåç±»åºç¨ä¸»é¢ï¼å±119ä¸ªç±»å«	é¿ææ¬	ææ¬åç±»	\	ä¸æ
9	å¨ç½æ°é»åç±»æ°æ®(SogouCA)	2012å¹´8æ16å·	æç		è¯¥æ°æ®æ¥èªè¥å¹²æ°é»ç«ç¹2012å¹´6æâ7ææé´å½åï¼å½éï¼ä½è²ï¼ç¤¾ä¼ï¼å¨±ä¹ç18ä¸ªé¢éçæ°é»æ°æ®	æ°é»	ææ¬åç±»	\	ä¸æ
10	æçæ°é»æ°æ®(SogouCS)	2012å¹´8æ	æç		æ°æ®æ¥æºä¸ºæçæ°é»2012å¹´6æâ7ææé´å½åï¼å½éï¼ä½è²ï¼ç¤¾ä¼ï¼å¨±ä¹ç18ä¸ªé¢éçæ°é»æ°æ®	æ°é»	ææ¬åç±»	\	ä¸æ
11	ä¸ç§å¤§æ°é»åç±»è¯æåº	2017å¹´11æ	åç¦¹ ä¸å½ç§å¦é¢èªå¨åç ç©¶æç»¼åä¿¡æ¯ä¸å¿		ææ¶ä¸è½ä¸è½½ï¼å·²ç»èç³»ä½èï¼çå¾åé¦	æ°é»
12	ChnSentiCorp_htl_all	2018å¹´3æ	https://github.com/SophonPlus/ChineseNlpCorpus		7000 å¤æ¡éåºè¯è®ºæ°æ®ï¼5000 å¤æ¡æ£åè¯è®ºï¼2000 å¤æ¡è´åè¯è®º
13	waimai_10k	2018å¹´3æ	https://github.com/SophonPlus/ChineseNlpCorpus		æå¤åå¹³å°æ¶éçç¨æ·è¯ä»·ï¼æ£å 4000 æ¡ï¼è´å çº¦ 8000 æ¡
14	online_shopping_10_cats	2018å¹´3æ	https://github.com/SophonPlus/ChineseNlpCorpus		10 ä¸ªç±»å«ï¼å± 6 ä¸å¤æ¡è¯è®ºæ°æ®ï¼æ£ãè´åè¯è®ºåçº¦ 3 ä¸æ¡ï¼ åæ¬ä¹¦ç±ãå¹³æ¿ãææºãæ°´æãæ´åæ°´ãçæ°´å¨ãèçãè¡£æãè®¡ç®æºãéåº
15	weibo_senti_100k	2018å¹´3æ	https://github.com/SophonPlus/ChineseNlpCorpus		10 ä¸å¤æ¡ï¼å¸¦æææ æ³¨ æ°æµªå¾®åï¼æ£è´åè¯è®ºçº¦å 5 ä¸æ¡
16	simplifyweibo_4_moods	2018å¹´3æ	https://github.com/SophonPlus/ChineseNlpCorpus		36 ä¸å¤æ¡ï¼å¸¦æææ æ³¨ æ°æµªå¾®åï¼åå« 4 ç§ææï¼ å¶ä¸åæ¦çº¦ 20 ä¸æ¡ï¼æ¤æãåæ¶ãä½è½åçº¦ 5 ä¸æ¡
17	dmsc_v2	2018å¹´3æ	https://github.com/SophonPlus/ChineseNlpCorpus		28 é¨çµå½±ï¼è¶ 70 ä¸ ç¨æ·ï¼è¶ 200 ä¸æ¡ è¯å/è¯è®º æ°æ®
18	yf_dianping	2018å¹´3æ	https://github.com/SophonPlus/ChineseNlpCorpus		24 ä¸å®¶é¤é¦ï¼54 ä¸ç¨æ·ï¼440 ä¸æ¡è¯è®º/è¯åæ°æ®
19	yf_amazon	2018å¹´3æ	https://github.com/SophonPlus/ChineseNlpCorpus		52 ä¸ä»¶ååï¼1100 å¤ä¸ªç±»ç®ï¼142 ä¸ç¨æ·ï¼720 ä¸æ¡è¯è®º/è¯åæ°æ®

ææ¬å¹é

ID	æ é¢	æ´æ°æ¥æ	æ°æ®éæä¾è	è®¸å¯	è¯´æ	å³é®å	ç±»å«	è®ºæå°å
1	LCQMC	2018/6/6	åå·¥å¤§(æ·±å³)æºè½è®¡ç®ç ç©¶ä¸å¿	Creative Commons Attribution 4.0 International License	è¯¥æ°æ®éå±åå«æ¥èªå¤ä¸ªé¢åç260068ä¸ªä¸æé®å¥å¯¹ï¼ç¸åè¯¢é®æå¾çå¥åå¯¹æ è®°ä¸º1ï¼å¦åä¸º0ï¼å¹¶é¢åå°å¶ååä¸ºäºè®ç»éï¼238766å¯¹ï¼éªè¯éï¼8802å¯¹ï¼æµè¯éï¼12500å¯¹	å¤§è§æ¨¡é®å¥å¹éï¼æå¾å¹é	çææ¬å¹éï¼é®å¥å¹é	è®ºæ
2	The BQ Corpus	2018/9/4	åå·¥å¤§(æ·±å³)æºè½è®¡ç®ç ç©¶ä¸å¿ï¼å¾®ä¼é¶è¡		è¯¥æ°æ®éå±æ120000ä¸ªå¥åå¯¹ï¼æ¥èªé¶è¡ä¸å¹´ä¸çå¨è¯¢æå¡æ¥å¿ï¼å¥åå¯¹åå«ä¸åçæå¾ï¼æ è®°æ£è´æ ·æ¬æ¯ä¾ä¸º1:1	é¶è¡æå¡é®å¥ï¼æå¾å¹é	çææ¬å¹éï¼é®å¥ä¸è´æ§æ£æµ	è®ºæ
3	AFQMC èèéèè¯ä¹ç¸ä¼¼åº¦	2018/4/25	èèéæ		æä¾10ä¸å¯¹çæ æ³¨æ°æ®ï¼åæ¹æ¬¡æ´æ°ï¼å·²æ´æ°å®æ¯ï¼ï¼ä½ä¸ºè®ç»æ°æ®ï¼åæ¬åä¹å¯¹åä¸åä¹å¯¹	éèé®å¥	çææ¬å¹éï¼é®å¥å¹é
4	ç¬¬ä¸å±ææè´·âééæ¯âå¤§èµ	2018/6/10	ææè´·æºæ§éèç ç©¶é¢		train.csvæä»¶åå«3åï¼åå«æ¯æ ç¾ï¼labelï¼è¡¨ç¤ºé®é¢1åé®é¢2æ¯å¦è¡¨ç¤ºç¸åçææï¼1è¡¨ç¤ºç¸åï¼0è¡¨ç¤ºä¸åï¼ï¼é®é¢1çç¼å·ï¼q1ï¼åé®é¢2çç¼å·ï¼q2ï¼ãæ¬æä»¶ä¸åºç°çææé®é¢ç¼å·åå¨question.csvä¸åºç°è¿	éèäº§å	çææ¬å¹éï¼é®å¥å¹é
5	CAIL2019ç¸ä¼¼æ¡ä¾å¹éå¤§èµ	2019/6	æ¸åå¤§å¦ï¼ä¸å½è£å¤æä¹¦ç½		å¯¹äºæ¯ä»½æ°æ®ï¼ç¨ä¸åç»(A,B,C)æ¥ä»£è¡¨è¯¥ç»æ°æ®ï¼å¶ä¸A,B,Cåå¯¹åºæä¸ç¯æä¹¦ãæä¹¦æ°æ®Aä¸Bçç¸ä¼¼åº¦æ»æ¯å¤§äºAä¸Bçç¸ä¼¼åº¦çï¼å³sim(A,B)>sim(A,C)	æ³å¾æä¹¦ï¼ç¸ä¼¼æ¡ä¾	é¿ææ¬å¹é
6	CCKS 2018 å¾®ä¼é¶è¡æºè½å®¢æé®å¥å¹éå¤§èµ	2018/4/5	åå·¥å¤§(æ·±å³)æºè½è®¡ç®ç ç©¶ä¸å¿ï¼å¾®ä¼é¶è¡			é¶è¡æå¡é®å¥ï¼æå¾å¹é	çææ¬å¹éï¼é®å¥å¹é
7	ChineseTextualInference	2018/12/15	åçåï¼ä¸å½ç§å¦é¢è½¯ä»¶ç ç©¶æ		ä¸æææ¬æ¨æé¡¹ç®,åæ¬88ä¸ææ¬è´å«ä¸æææ¬è´å«æ°æ®éçç¿»è¯ä¸æå»º,åºäºæ·±åº¦å¦ä¹ çææ¬è´å«å¤å®æ¨¡åæå»º	ä¸æNLI	ä¸æææ¬æ¨æï¼ææ¬è´å«
8	NLPCC-DBQA	2016/2017/2018	NLPCC		ç»å®é®é¢-çæ¡ï¼ä»¥åè¯¥çæ¡æ¯å¦æ¯è¯¥é®é¢ççæ¡ä¹ä¸çæ è®°ï¼1è¡¨ç¤ºæ¯ï¼0è¡¨ç¤ºä¸æ¯	DBQA	é®çå¹é
9	âææ¯éæ±âä¸âææ¯ææâé¡¹ç®ä¹é´å³èåº¦è®¡ç®æ¨¡å	201/8/32	CCF		ç»å®ææ¬å½¢å¼çææ¯éæ±åææ¯ææï¼ä»¥åéæ±ä¸ææçå³èåº¦æ ç¾ï¼å¶ä¸ææ¯éæ±ä¸ææ¯ææä¹é´çå³èåº¦åä¸ºåä¸ªå±çº§ï¼ å¼ºç¸å³ãè¾å¼ºç¸å³ãå¼±ç¸å³ãæ ç¸å³	é¿ææ¬ï¼éæ±ä¸ææå¹é	é¿ææ¬å¹é
10	CNSD / CLUE-CMNLI	2019/12	ZengJunjun		ä¸æèªç¶è¯è¨æ¨çæ°æ®éï¼æ¬æ°æ®åéè¿ç¿»è¯å é¨åäººå·¥ä¿®æ£çæ¹æ³ï¼ä»è±æåæ°æ®éçæï¼å¯ä»¥ä¸å®ç¨åº¦ç¼è§£ä¸æèªç¶è¯è¨æ¨çåè¯ä¹ç¸ä¼¼åº¦è®¡ç®æ°æ®éä¸å¤çé®é¢	ä¸æNLI	ä¸æèªç¶è¯è¨æ¨æ	è®ºæ
11	cMedQA v1.0	2017/4/5	å¯»è¯å¯»å»ç½ åå½é²ç§æå¤§å¦ ä¿¡æ¯ç³»ç»åç®¡ç å¦é¢		è¯¥æ°æ®éæ¥æºä¸ºå¯»å»å¯»è¯ç½ç«ä¸çæé®ååçï¼ æ°æ®éåè¿å¿åå¤çï¼æä¾çæ¯åå« è®ç»éä¸æ50,000ä¸ªé®é¢ï¼94,134ä¸ªçæ¡ï¼å¹³åæ¯ä¸ªé®é¢ãçæ¡åç¬¦æ°åå«ä¸ºä¸º120ã212ä¸ªï¼ éªè¯éæ2,000ä¸ªé®é¢ï¼æ3774ä¸ªçæ¡ï¼é®é¢åçæ¡çå¹³ååç¬¦æ°åå«ä¸º117å212ä¸ªï¼ æµè¯éæ2,000ä¸ªé®é¢ï¼æ3835ä¸ªçæ¡ï¼é®é¢åçæ¡çå¹³ååç¬¦æ°åå«ä¸º119å211ä¸ªï¼ æ°æ®éæ»éæ54,000ä¸ªé®é¢ï¼101,743ä¸ªçæ¡ï¼å¹³åæ¯ä¸ªé®é¢åçæ¡çåç¬¦æ°åå«ä¸º119ã212ä¸ªï¼	å»çé®çå¹é	é®çå¹é	è®ºæ
12	cMedQA2	2018/11/8	å¯»è¯å¯»å»ç½ åå½é²ç§æå¤§å¦ ä¿¡æ¯ç³»ç»åç®¡ç å¦é¢		è¯¥æ°æ®éæ¥æºä¸ºå¯»å»å¯»è¯ç½ç«ä¸çæé®ååçï¼ æ°æ®éåè¿å¿åå¤çï¼æä¾çæ¯åå« è®ç»éä¸æ100,000ä¸ªé®é¢ï¼188,490ä¸ªçæ¡ï¼å¹³åæ¯ä¸ªé®é¢ãçæ¡åç¬¦æ°åå«ä¸ºä¸º48ã101ä¸ªï¼ éªè¯éæ4,000ä¸ªé®é¢ï¼æ7527ä¸ªçæ¡ï¼é®é¢åçæ¡çå¹³ååç¬¦æ°åå«ä¸º49å101ä¸ªï¼ æµè¯éæ4,000ä¸ªé®é¢ï¼æ7552ä¸ªçæ¡ï¼é®é¢åçæ¡çå¹³ååç¬¦æ°åå«ä¸º49å100ä¸ªï¼ æ°æ®éæ»éæ108,000ä¸ªé®é¢ï¼203,569ä¸ªçæ¡ï¼å¹³åæ¯ä¸ªé®é¢åçæ¡çåç¬¦æ°åå«ä¸º49ã101ä¸ªï¼	å»çé®çå¹é	é®çå¹é	è®ºæ
13	ChineseSTS	2017/9/21	ååæ, ç½äºæ¦, é©¬ä»ç. è¥¿å®ç§æå¤§å¦		è¯¥æ°æ®éæä¾äº12747å¯¹ä¸æç¸ä¼¼æ°æ®éï¼å¨æ°æ®éå ä½èç»åºäºä»ä»¬ç¸ä¼¼åº¦çæåï¼è¯æç±çå¥ææã	çå¥ç¸ä¼¼åº¦ å¹é	ç¸ä¼¼åº¦å¹é
14	ä¸å½å¥åº·ä¿¡æ¯å¤çä¼è®® ä¸¾åçå»çé®é¢ç¸ä¼¼åº¦ è¡¡éç«èµæ°æ®é	2018	CHIP 2018-ç¬¬åå±ä¸å½å¥åº·ä¿¡æ¯å¤çä¼è®®ï¼CHIPï¼		æ¬æ¬¡è¯æµä»»å¡çä¸»è¦ç®æ æ¯éå¯¹ä¸æççå®æ£èå¥åº·å¨è¯¢è¯æï¼è¿è¡é®å¥æå¾å¹éã ç»å®ä¸¤ä¸ªè¯å¥ï¼è¦æ±å¤å®ä¸¤èæå¾æ¯å¦ç¸åæèç¸è¿ã ææè¯ææ¥èªäºèç½ä¸æ£èçå®çé®é¢ï¼å¹¶ç»è¿äºçéåäººå·¥çæå¾å¹éæ æ³¨ã æ°æ®éç»è¿è±æå¤çï¼é®é¢ç±æ°åæ ç¤º è®ç»éåå«20000æ¡å·¦å³æ æ³¨å¥½çæ°æ®ï¼ç»è¿è±æå¤çï¼åå«æ ç¹ç¬¦å·ï¼ï¼ æµè¯éåå«10000æ¡å·¦å³æ labelçæ°æ®ï¼ç»è¿è±æå¤çï¼åå«æ ç¹> ç¬¦å·ï¼ã	å»çé®é¢ç¸ä¼¼åº¦ å¹é	ç¸ä¼¼åº¦å¹é
15	COS960: A Chinese Word Similarity Dataset of 960 Word Pairs	2019/6/6	æ¸åå¤§å¦		è¯¥æ°æ®éä¸åå«äº960å¯¹åè¯ï¼ å¹¶ä¸æ¯å¯¹åè¯é½è¢«15ä¸ªæ¯è¯èç¨ç¸ä¼¼åº¦åæ°æ¥è¡¡é è¿960ä¸ªè¯å¯¹æ ¹æ®æ ç¾è¢«åæä¸ç»ï¼ åå«480å¯¹åè¯ï¼240å¯¹å¨è¯å240å¯¹å½¢å®¹è¯ã	åè¯ä¹é´çç¸ä¼¼åº¦	åä¹è¯	è®ºæ
16	OPPOææºæç´¢æåºquery-titleè¯ä¹å¹éæ°æ®éã(https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw å¯ç 7p3n)	2018/11/6	OPPO		è¯¥æ°æ®éæ¥èªäºOPPOææºæç´¢æåºä¼åå®æ¶æç´¢åºæ¯, è¯¥åºæ¯å°±æ¯å¨ç¨æ·ä¸æè¾å¥è¿ç¨ä¸ï¼å®æ¶è¿åæ¥è¯¢ç»æã è¯¥æ°æ®éå¨æ¤åºç¡ä¸åäºç¸åºçç®åï¼ æä¾äºä¸ä¸ªquery-titleè¯ä¹å¹éï¼å³ctré¢æµçé®é¢ã	é®é¢æ é¢å¹éï¼ ctré¢æµ	ç¸ä¼¼åº¦å¹é
17	ç½é¡µæç´¢ç»æè¯ä»·(SogouE)	2012å¹´	æç	æçå®éªå®¤æ°æ®ä½¿ç¨è®¸å¯åè®®	è¯¥æ°æ®éåå«äºæ¥è¯¢è¯ï¼ç¸å³URLä»¥åæ¥è¯¢ç±»å«çæç´¢æ°æ®ï¼æ ¼å¼å¦ä¸ æ°æ®æ ¼å¼è¯´æï¼æ¥è¯¢è¯]\tç¸å³çURL\tæ¥è¯¢ç±»å« å¶ä¸URLä¿è¯åå¨äºå¯¹åºçäºèç½è¯æåºï¼ æ¥è¯¢ç±»å«ä¸â1âè¡¨ç¤ºå¯¼èªç±»æ¥è¯¢ï¼â2âè¡¨ç¤ºä¿¡æ¯ç±»æ¥è¯¢	Automatic Search Engine Performance Evaluation with Click-through Data Analysis	æ¥è¯¢ç±»åå¹éé¢æµ

ææ¬æè¦

ID	æ é¢	æ´æ°æ¥æ	æ°æ®éæä¾è	è®¸å¯	è¯´æ	å³é®å	ç±»å«	è®ºæå°å	å¤æ³¨
1	LCSTS	2015/8/6	Qingcai Chen		æ°æ®éæ¥æºäºæ°æµªå¾®åï¼åå«ä¸¤ç¾ä¸å·¦å³çå®ä¸æçææ¬ï¼æ¯æ¡æ°æ®åæ¬ç±ä½èæ æ³¨çæè¦åæ£æä¸¤ä¸ªåæ®µãå¦å¤æ10,666æ¡æ°æ®ç±äººå·¥æ æ³¨åºçææ¬ä¸æè¦çç¸å³æ§ï¼ä»1-5ç¸å³æ§ä¾æ¬¡å¢å ã	åææ¬æè¦ï¼çææ¬ï¼ææ¬ç¸å³æ§	ææ¬æè¦	è®ºæ
2	ä¸æçææ¬æè¦æ°æ®é	2018/6/20	He Zhengfang		æ°æ®æ¥æºäºæ°æµªå¾®åä¸»æµåªä½åå¸çå¾®åï¼å±679898æ¡æ°æ®ã	åææ¬æè¦ï¼çææ¬	ææ¬æè¦	\
3	æè²å¹è®è¡ä¸æ½è±¡å¼èªå¨æè¦ä¸æè¯æåº	2018/6/5	å¿å		è¯æåºæ¶éäºæè²å¹è®è¡ä¸ä¸»æµåç´åªä½çåå²æç« ï¼çº¦24500æ¡æ°æ®ï¼æ¯æ¡æ°æ®åæ¬ç±ä½èæ æ³¨çæè¦åæ£æä¸¤ä¸ªåæ®µã	åææ¬æè¦ï¼æè²å¹è®	ææ¬æè¦	\
4	NLPCC2017 Task3	2017/11/8	NLPCC2017ä¸»åæ¹		æ°æ®éæ¥æºäºæ°é»é¢åï¼æ¯NLPCC2017ä¸¾åæä¾çä»»å¡æ°æ®ï¼å¯ç¨äºåææ¬æè¦ã	åææ¬æè¦ï¼æ°é»	ææ¬æè¦	\
5	ç¥çæ¯2018	2018/10/11	DCç«èµä¸»åæ¹		æ°æ®æ¥æºäºæ°é»ææ¬ï¼ç±DCç«èµä¸»åæ¹æä¾ï¼æ¨¡æä¸å¡åºæ¯ï¼ä»¥æ°é»ææ¬çæ ¸å¿è¯æåä¸ºç®çï¼æç»ç»æè¾¾å°æåæ¨èåç¨æ·ç»åçææã	ææ¬å³é®åï¼æ°é»	ææ¬æè¦	\
6	Byte Cup 2018å½éæºå¨å¦ä¹ ç«èµ	2018/12/4	åèè·³å¨		æ°æ®æ¥èªåèè·³å¨æä¸äº§åTopBuzzåå¼æ¾çæçæç« ï¼è®ç»éåæ¬äºçº¦ 130 ä¸ç¯ææ¬çä¿¡æ¯ï¼éªè¯é 1000 ç¯æç« ï¼ æµè¯é 800 ç¯æç« ã æ¯æ¡æµè¯éåéªè¯éçæ°æ®ç»ç±äººå·¥ç¼è¾æå·¥æ æ³¨å¤ä¸ªå¯è½çæ é¢ï¼ä½ä¸ºçæ¡å¤éã	åææ¬æè¦ï¼è§é¢ï¼æ°é»	ææ¬æè¦	\	è±æ
7	NEWSROOM	2018/6/1	Grusky		æ°æ®æ¯ä»1998å¹´å°2017å¹´çæç´¢åç¤¾äº¤åæ°æ®ä¸è·å¾ï¼å¹¶ä½¿ç¨äºå¤ç§æååæ½è±¡ç¸ç»åçæè¦çç¥ï¼åå«ä½èåç¼è¾å¨38ä¸ªä¸»è¦åºçç©ç¼è¾é¨æ°åç130ä¸ç¯æç« åæè¦ã	åææ¬æè¦ï¼ç¤¾äº¤åæ°æ®ï¼æç´¢	ææ¬æè¦	è®ºæ	è±æ
8	[DUC/TAC](https://duc.nist.gov/ https://tac.nist.gov//)	2014/9/9	NIST		å¨ç§°Document Understanding Conferences/Text Analysis Conferenceï¼æ°æ®éæ¥æºäºæ¯å¹´çTAC KBPï¼TAC Knowledge Base Populationï¼æ¯èµä½¿ç¨çè¯æåºä¸çæ°é»ä¸çº¿åç½ç»ææ¬ã	åææ¬/å¤ææ¬æè¦ï¼æ°é»	ææ¬æè¦	\	è±æ
9	CNN/Daily Mail	2017/7/31	Standford	GNU v3	æ°æ®éæ¯ä»ç¾å½æçº¿æ°é»ç½ï¼CNNï¼åæ¯æ¥é®æ¥(DailyMail)ä¸ææºå¤§çº¦ä¸ç¾ä¸æ¡æ°é»æ°æ®ä½ä¸ºæºå¨éè¯»çè§£è¯æåºã	å¤ææ¬æè¦ï¼é¿ææ¬ï¼æ°é»	ææ¬æè¦	è®ºæ	è±æ
10	Amazon SNAP Review	2013/3/1	Standford		æ°æ®æ¥æºäºAmazonç½ç«è´ç©è¯è®ºï¼å¯ä»¥è·åæ¯ä¸ªå¤§ç±»å«ï¼å¦ç¾é£ãçµå½±çï¼ä¸çæ°æ®ï¼ä¹å¯ä»¥ä¸æ¬¡æ§è·åæææ°æ®ã	å¤ææ¬æè¦ï¼è´ç©è¯è®º	ææ¬æè¦	\	è±æ
11	Gigaword	2003/1/28	David Graff, Christopher Cieri		æ°æ®éåæ¬çº¦950w ç¯æ°é»æç« ï¼ç¨æç« æ é¢åæè¦ï¼å±äºåå¥æè¦æ°æ®éã	åææ¬æè¦ï¼æ°é»	ææ¬æè¦		è±æ
12	RA-MDS	2017/9/11	Piji Li		å¨ç§°Reader-Aware Multi-Document Summarizationï¼æ°æ®éæ¥æºäºæ°é»æç« ï¼ç±ä¸å®¶æ¶éãæ æ³¨åå®¡æ¥ãæ¶µçäº45ä¸ªä¸»é¢ï¼æ¯ä¸ªä¸»é¢åå«10ä¸ªæ°é»ææ¡£å4ä¸ªæ¨¡åæè¦ï¼æ¯ä¸ªæ°é»ææ¡£å¹³ååå«27ä¸ªå¥åï¼æ¯ä¸ªå¥åå¹³ååå«25ä¸ªåè¯ã	å¤ææ¬æè¦ï¼æ°é»ï¼äººå·¥æ æ³¨	ææ¬æè¦	è®ºæ	è±æ
13	TIPSTER SUMMAC	2003/5/21	The MITRE Corporation and the University of Edinburgh		æ°æ®ç±183ç¯Computation and Language (cmp-lg) collectionæ è®°çææ¡£ç»æï¼ææ¡£åèªACLä¼è®®åè¡¨è®ºæã	å¤ææ¬æè¦ï¼é¿ææ¬	ææ¬æè¦	\	è±æ
14	WikiHow	2018/10/18	Mahnaz Koupaee		æ¯æ¡æ°æ®ä¸ºä¸ç¯æç« ï¼æ¯ç¯æç« ç±å¤ä¸ªæ®µè½ç»æï¼æ¯ä¸ªæ®µè½ä»¥ä¸ä¸ªæ»ç»å®çå¥åå¼å¤´ãéè¿åå¹¶æ®µè½å½¢ææç« åæ®µè½å¤§çº²å½¢ææè¦ï¼æ°æ®éçæç»çæ¬åå«äºè¶è¿200,000ä¸ªé¿åºåå¯¹ã	å¤ææ¬æè¦ï¼é¿ææ¬	ææ¬æè¦	è®ºæ	è±æ
15	Multi-News	2019/12/4	Alex Fabbri		æ°æ®æ¥èª1500å¤ä¸ªä¸åç½ç«çè¾å¥æç« ä»¥åä»ç½ç«newser.comè·å¾ç56,216ç¯è¿äºæç« çä¸ä¸æè¦ã	å¤ææ¬æè¦	ææ¬æè¦	è®ºæ	è±æ
16	MED Summaries	2018/8/17	D.Potapov		æ°æ®éç¨äºå¨æè§é¢æè¦è¯ä¼°ï¼åå«160ä¸ªè§é¢çæ³¨éï¼å¶ä¸éªè¯é60ãæµè¯é100ï¼æµè¯éä¸æ10ä¸ªäºä»¶ç±»å«ã	åææ¬æè¦ï¼è§é¢æ³¨é	ææ¬æè¦	è®ºæ	è±æ
17	BIGPATENT	2019/7/27	Sharma		æ°æ®éåæ¬130ä¸ä»½ç¾å½ä¸å©æç®è®°å½ä»¥åäººç±»ä¹¦é¢æ½è±¡æè¦ï¼æè¦åå«æ´ä¸°å¯çè¯è¯ç»æåæ´å¤çå¸¸ç¨å®ä½ã	åææ¬æè¦ï¼ä¸å©ï¼ä¹¦é¢è¯	ææ¬æè¦	è®ºæ	è±æ
18	[NYT]( https://catalog.ldc.upenn.edu/LDC2008T19)	2008/10/17	Evan Sandhaus		å¨ç§°The New York Times,æ°æ®éåå«150ç¯æ¥èªçº½çº¦æ¶æ¥çåä¸æç« ,æåäºä»2009å¹´11æå°2010å¹´1æçº½çº¦æ¶æ¥ç½ç«ä¸çæææç« ã	åææ¬æè¦ï¼åä¸æç«	ææ¬æè¦	\	è±æ
19	The AQUAINT Corpus of English News Text	2002/9/26	David Graff		æ°æ®éç±æ°åç¤¾(ä¸åäººæ°å±åå½)ãçº½çº¦æ¶æ¥æ°é»æå¡åç¾èç¤¾ä¸çæ°é»æå¡çè±ææ°é»ææ¬æ°æ®ç»æï¼åå«å¤§çº¦3.75äº¿åãæ°æ®éæ¶è´¹ã	åææ¬æè¦ï¼æ°é»	ææ¬æè¦	\	ä¸æåè±æ
20	Legal Case Reports Data Set	2012/10/19	Filippo Galgani		æ°æ®éæ¥èª2006-2009å¹´æ¾³å¤§å©äºèé¦æ³é¢(FCA)çæ¾³å¤§å©äºæ³å¾æ¡ä¾ï¼åå«çº¦4000ä¸ªæ³å¾æ¡ä»¶åå¶æè¦ã	åææ¬æè¦ï¼æ³å¾æ¡ä»¶	ææ¬æè¦	\	è±æ
21	17 Timelines	2015/5/29	G. B. Tran		æ°æ®æ¯ä»æ°é»æç« ç½é¡µä¸æåçåå®¹ï¼åå«ååãå©æ¯äºãä¹é¨ãåå©äºåä¸ªå½å®¶çæ°é»ã	åææ¬æè¦ï¼æ°é»	ææ¬æè¦	è®ºæ	å¤è¯è¨
22	PTS Corpus	2018/10/9	Fei Sun		å¨ç§°Product Title Summarization Corpusï¼æ°æ®ä¸ºç§»å¨è®¾å¤æ¾ç¤ºçµååå¡åºç¨ä¸çäº§ååç§°æè¦	åææ¬æè¦ï¼çææ¬	ææ¬æè¦	è®ºæ
23	Scientific Summarization DataSets	2019/10/26	Santosh Gupta		æ°æ®éåèªSemantic Scholar CorpusåArXivãæ¥èªSemantic Scholarè¯æåºçæ é¢/æè¦å¯¹ï¼è¿æ»¤æçç©å»å¦é¢åçææè®ºæï¼åå«580ä¸æ¡æ°æ®ãæ¥èªArXivçæ°æ®ï¼åå«äºä»1991å¹´å¼å§å°2019å¹´7æ5æ¥çæ¯ç¯è®ºæçæ é¢/æè¦å¯¹ãæ°æ®éåå«éèç±»æ°æ®10kï¼çç©å¦ç±»26kï¼æ°å¦ç±»417kï¼ç©çç±»157ä¸ï¼CSç±»221kã	åææ¬æè¦ï¼è®ºæ	ææ¬æè¦	\	è±æ
24	Scientific Document Summarization Corpus and Annotations from the WING NUS group	2019/3/19	Jaidka		æ°æ®éåæ¬ACLè®¡ç®è¯è¨å¦åèªç¶è¯è¨å¤çç ç©¶è®ºæï¼ä»¥ååèªçå¼ç¨è®ºæåä¸ä¸ªè¾åºæè¦:ä¼ ç»ä½èçè®ºææè¦(æè¦)ãç¤¾åºæè¦(å¼ç¨è¯å¥âå¼æâçæ¶é)åç±è®ç»æç´ çæ³¨éåæ°åçäººç±»æè¦ï¼è®ç»éåå«40ç¯æç« åå¼ç¨è®ºæã	åææ¬æè¦ï¼è®ºæ	ææ¬æè¦	è®ºæ	è±æ

æºå¨ç¿»è¯

ID	æ é¢	æ´æ°æ¥æ	æ°æ®éæä¾è	è®¸å¯	è¯´æ	å³é®å	ç±»å«	è®ºæå°å	å¤æ³¨
1	WMT2017	2017/2/1	EMNLP 2017 Workshop on Machine Translation		æ°æ®ä¸»è¦æ¥æºäº Europarl corpusåUN corpusä¸¤ä¸ªæºæï¼ éå¸¦2017å¹´ä»News Commentary corpus ä»»å¡ä¸éæ°æ½åçæç« ã è¿æ¯ç±EMNLPä¼è®®æä¾çç¿»è¯è¯æï¼ ä½ä¸ºå¾å¤è®ºæææ çbenchmarkæ¥æ£æµ	Benchmark, WMT2017	ä¸è±ç¿»è¯ è¯æ	è®ºæ
2	WMT2018	2018/11/1	EMNLP 2018 Workshop on Machine Translation		æ°æ®ä¸»è¦æ¥æºäº Europarl corpusåUN corpusä¸¤ä¸ªæºæï¼ éå¸¦2018å¹´ä»News Commentary corpus ä»»å¡ä¸éæ°æ½åçæç« ã è¿æ¯ç±EMNLPä¼è®®æä¾çç¿»è¯è¯æï¼ ä½ä¸ºå¾å¤è®ºæææ çbenchmarkæ¥æ£æµ	Benchmark, WMT2018	ä¸è±ç¿»è¯ è¯æ	è®ºæ
3	WMT2019	2019/1/31	EMNLP 2019 Workshop on Machine Translation		æ°æ®ä¸»è¦æ¥æºäº Europarl corpusåUN corpusä¸¤ä¸ªæºæ, ä»¥åéå äº news-commentary corpus and the ParaCrawl corpusä¸æ¥å¾æ°æ®	Benchmark, WMT2019	ä¸è±ç¿»è¯ è¯æ	è®ºæ
4	UM-Corpus:A Large English-Chinese Parallel Corpus	2014/5/26	Department of Computer and Information Science, University of Macau, Macau		ç±æ¾³é¨å¤§å¦åå¸ç ä¸è±æå¯¹ç§ç é«è´¨éç¿»è¯è¯æ	UM-Corpus;English; Chinese;large	ä¸è±ç¿»è¯ è¯æ	è®ºæ
5	[Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA æåç : stjf)	2017/8/14	åæ°å·¥åºãæçå ä»æ¥å¤´æ¡èååèµ·ç AIç§æç«èµ		è§æ¨¡æå¤§çå£è¯é¢åè±ä¸åè¯å¯¹ç§æ°æ®éã æä¾äºè¶è¿1000ä¸çè±ä¸å¯¹ç§çå¥åå¯¹ä½ä¸ºæ°æ®éåã ææåè¯å¥å¯¹ç»è¿äººå·¥æ£æ¥ï¼ æ°æ®éä»è§æ¨¡ãç¸å³åº¦ãè´¨éä¸é½æä¿éã è®ç»éï¼10,000,000 å¥ éªè¯éï¼åå£°ä¼ è¯ï¼ï¼934 å¥ éªè¯éï¼ææ¬ç¿»è¯ï¼ï¼8000 å¥	AI challenger 2017	ä¸è±ç¿»è¯ è¯æ
6	MultiUN	2010	Department of Linguistics and Philology Uppsala University, Uppsala/Sweden		è¯¥æ°æ®éç±å¾·å½äººå·¥æºè½ç ç©¶ä¸å¿æä¾ï¼ é¤æ¤æ°æ®éå¤ï¼è¯¥ç½ç«è¿æä¾äºå¾å¤çå« çè¯è¨ä¹é´çç¿»è¯å¯¹ç§è¯æä¾ä¸è½½	MultiUN	ä¸è±ç¿»è¯ è¯æ	MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010
7	NIST 2002 Open Machine Translation (OpenMT) Evaluation	2010/5/14	NIST Multimodal Information Group	LDC User Agreement for Non-Members	æ°æ®æ¥æºäºXinhua æ°é»æå¡åå«70ä¸ªæ°é»æäºï¼ ä»¥åæ¥èªäºZaobaoæ°é»æå¡ç30ä¸ªæ°é»æäºï¼å±100ä¸ª ä»ä¸¤ä¸ªæ°é»éä¸éæ©åºæ¥çæäºçé¿åº¦é½å212å°707ä¸ª ä¸æåç¬¦ä¹é´ï¼Xinhuaé¨åå±ææ25247ä¸ªåç¬¦ï¼ Zaobaoæ39256ä¸ªåç¬¦	NIST	ä¸è±ç¿»è¯ è¯æ	è®ºæ	è¯¥ç³»åæå¤å¹´çæ°æ®ï¼ è¯¥æ°æ®ä½¿ç¨éè¦ä»è´¹
8	The Multitarget TED Talks Task (MTTT)	2018	Kevin Duh, JUH		è¯¥æ°æ®éåå«åºäºTEDæ¼è®²çå¤ç§è¯è¨çå¹³è¡è¯æï¼åå«ä¸è±æçå±è®¡20ç§è¯è¨	TED	ä¸è±ç¿»è¯ è¯æ	The Multitarget TED Talks Task
9	ASPEC Chinese-Japanese	2019	Workshop on Asian Translation		è¯¥æ°æ®éä¸»è¦ç ç©¶äºæ´²åºåçè¯è¨ï¼å¦ä¸æåæ¥è¯ä¹é´ï¼ æ¥è¯åè±æä¹é´çç¿»è¯ä»»å¡ ç¿»è¯è¯æä¸»è¦æ¥èªè¯ç§æè®ºæï¼è®ºææè¦ï¼åææè¿°ï¼ä¸å©ççï¼	Asian scientific patent Japanese	ä¸æ¥ç¿»è¯è¯æ	http://lotus.kuee.kyoto-u.ac.jp/WAT/
10	casia2015	2015	research group in Institute of Automation , Chinese Academy of Sciences		è¯æåºåå«ä»ç½ç»èªå¨æ¶éçå¤§çº¦ä¸ç¾ä¸ä¸ªå¥åå¯¹	casia CWMT 2015	ä¸è±ç¿»è¯è¯æ
11	casict2011	2011	research group in Institute of Computing Technology , Chinese Academy of Sciences		è¯æåºåå«2ä¸ªé¨åï¼æ¯ä¸ªé¨ååå«ä»ç½ç»èªå¨æ¶é çå¤§çº¦1ç¾ä¸ï¼æ»è®¡2ç¾ä¸ï¼ä¸ªå¥åå¯¹ã å¥åçº§å«çå¯¹é½ç²¾åº¦çº¦ä¸º90ï¼ã	casict CWMT 2011	ä¸è±ç¿»è¯è¯æ
12	casict2015	2015	research group in Institute of Computing Technology , Chinese Academy of Sciences		è¯æåºåå«å¤§çº¦200ä¸ä¸ªå¥åå¯¹ï¼åæ¬ä»ç½ç»ï¼60ï¼ï¼ï¼ çµå½±åå¹ï¼20ï¼ï¼åè±è¯/æ±è¯è¯åºï¼20ï¼ï¼æ¶éçå¥åã å¥åæ°´å¹³å¯¹é½ç²¾åº¦é«äº99ï¼ã	casict CWMT 2015	ä¸è±ç¿»è¯è¯æ
13	datum2015	2015	Datum Data Co., Ltd.		è¯æåºåå«ä¸ç¾ä¸å¯¹å¥åï¼æ¶µçä¸åç±»åï¼ ä¾å¦ç¨äºè¯è¨æè²çæç§ä¹¦ï¼åè¯ä¹¦ç±ï¼ ææ¯ææ¡£ï¼åè¯æ°é»ï¼æ¿åºç½ç®ä¹¦ï¼ æ¿åºææ¡£ï¼ç½ç»ä¸çåè¯èµæºçã è¯·æ³¨æï¼æ°æ®ä¸æé¨åçæäºé¨åæ¯æè¯æ®µååçã	datum CWMT 2015	ä¸è±ç¿»è¯è¯æ
14	datum2017	2017	Datum Data Co., Ltd.		è¯æåºåå«20ä¸ªæä»¶ï¼æ¶µçä¸åç±»åï¼ä¾å¦æ°é»ï¼å¯¹è¯ï¼æ³å¾æä»¶ï¼å°è¯´çã æ¯ä¸ªæä»¶æ50,000ä¸ªå¥åã æ´ä¸ªè¯æåºåå«ä¸ç¾ä¸ä¸ªå¥åã å10ä¸ªæä»¶ï¼Book1-Book10ï¼çä¸æè¯åå·²åæ®µã	datum CWMT 2017	ä¸è±ç¿»è¯è¯æ
15	neu2017	2017	NLP lab of Northeastern University, China		è¯æåºåå«ä»ç½ç»èªå¨æ¶éç200ä¸ä¸ªå¥åå¯¹ï¼åæ¬æ°é»ï¼ææ¯ææ¡£çã å¥åçº§å«çå¯¹é½ç²¾åº¦çº¦ä¸º90ï¼ã	neu CWMT 2017	ä¸è±ç¿»è¯è¯æ
16	ç¿»è¯è¯æ(translation2019zh)	2019	å¾äº®		å¯ä»¥ç¨äºè®ç»ä¸è±æç¿»è¯ç³»ç»ï¼ä»ä¸æç¿»è¯å°è±æï¼æä»è±æç¿»è¯å°ä¸æï¼ ç±äºæä¸ç¾ä¸çä¸æå¥åï¼å¯ä»¥åªæ½åä¸æçå¥åï¼åä¸ºéç¨ä¸æè¯æï¼è®ç»è¯åéæåä¸ºé¢è®ç»çè¯æãè±æä»»å¡ä¹å¯ä»¥ç±»ä¼¼æä½ï¼

ç¥è¯å¾è°±

ID	æ é¢	æ´æ°æ¥æ	æ°æ®éæä¾è	è®¸å¯	è¯´æ	å³é®å	ç±»å«	è®ºæå°å	å¤æ³¨
1	NLPIRå¾®åå³æ³¨å³ç³»è¯æåº100ä¸æ¡	2017/12/2	åäº¬çå·¥å¤§å¦ç½ç»æç´¢ææä¸å®å¨å®éªå®¤å¼ åå¹³åå£«		NLPIRå¾®åå³æ³¨å³ç³»è¯æåºè¯´æ 1.NLPIRå¾®åå³æ³¨å³ç³»è¯æåºç±åäº¬çå·¥å¤§å¦ç½ç»æç´¢ææä¸å®å¨å®éªå®¤å¼ åå¹³åå£«ï¼éè¿å¬å¼ééä¸æ½åä»æ°æµªå¾®åãè¾è®¯å¾®åä¸è·å¾ãä¸ºäºæ¨è¿å¾®åè®¡ç®çç ç©¶ï¼ç°éè¿èªç¶è¯è¨å¤çä¸ä¿¡æ¯æ£ç´¢å±äº«å¹³å°(127.0.0.1/wordpress)äºä»¥å¬å¼å±äº«å¶ä¸ç1000ä¸æ¡æ°æ®ï¼ç®åå·²ææ°æ®æ¥è¿10äº¿ï¼å·²ç»åé¤äºå¤§éçåä½æ°æ®ï¼ï¼ 2.æ¬è¯æåºå¨å¬å¼è¿ç¨ä¸ï¼å·²ç»æå¤§éåº¦å°éç¨ææ¯ææ®µå±è½äºç¨æ·çå®å§ååurlï¼å¦ææ¶åå°çç¨æ·éè¦å¨é¢ä¿æ¤ä¸ªäººéç§çï¼å¯ä»¥Emailç»å¼ åå¹³åå£«kevinzhang@bit.edu.cnäºä»¥å é¤ï¼å¯¹ç»æ¨é æçå°æ°è¡¨ç¤ºæ±æï¼å¹¶å¸æè°è§£ï¼ 3.åªéç¨äºç§ç æå¦ç¨éï¼ä¸å¾ä½ä¸ºåç¨ï¼å¼ç¨æ¬è¯æåºï¼æè¯·å¨è½¯ä»¶æèè®ºæçææç¹å®ä½ç½®è¡¨æåºå¤ä¸ºï¼NLPIRå¾®åè¯æåºï¼åºå¤ä¸ºèªç¶è¯è¨å¤çä¸ä¿¡æ¯æ£ç´¢å±äº«å¹³å°(http://www.nlpir.org/)ã 4.åæ®µè¯´æï¼ person_id äººç©çid guanzhu_id æå³æ³¨äººçid

è¯æåº

ID	æ é¢	æ´æ°æ¥æ	æ°æ®éæä¾è	è¯´æ
1	NLPIRå¾®ååå®¹è¯æåº-23ä¸æ¡	2017å¹´12æ	åäº¬çå·¥å¤§å¦ç½ç»æç´¢ææä¸å®å¨å®éªå®¤å¼ åå¹³åå£«	NLPIRå¾®ååå®¹è¯æåºè¯´æ 1.NLPIRå¾®ååå®¹è¯æåºç±åäº¬çå·¥å¤§å¦ç½ç»æç´¢ææä¸å®å¨å®éªå®¤å¼ åå¹³åå£«ï¼éè¿å¬å¼ééä¸æ½åä»æ°æµªå¾®åãè¾è®¯å¾®åä¸è·å¾ãä¸ºäºæ¨è¿å¾®åè®¡ç®çç ç©¶ï¼ç°éè¿èªç¶è¯è¨å¤çä¸ä¿¡æ¯æ£ç´¢å±äº«å¹³å°(127.0.0.1/wordpress)äºä»¥å¬å¼å±äº«å¶ä¸ç23ä¸æ¡æ°æ®ï¼ç®åå·²ææ°æ®æ¥è¿1000ä¸ï¼å·²ç»åé¤äºå¤§éçåä½æ°æ®ï¼ã 2.æ¬è¯æåºå¨å¬å¼è¿ç¨ä¸ï¼å·²ç»æå¤§éåº¦å°éç¨ææ¯ææ®µå±è½äºç¨æ·çå®å§ååurlï¼å¦ææ¶åå°çç¨æ·éè¦å¨é¢ä¿æ¤ä¸ªäººéç§çï¼å¯ä»¥Emailç»å¼ åå¹³åå£«kevinzhang@bit.edu.cnäºä»¥å é¤ï¼å¯¹ç»æ¨é æçå°æ°è¡¨ç¤ºæ±æï¼å¹¶å¸æè°è§£ï¼ 3.åªéç¨äºç§ç æå¦ç¨éï¼ä¸å¾ä½ä¸ºåç¨ï¼å¼ç¨æ¬è¯æåºï¼æè¯·å¨è½¯ä»¶æèè®ºæçææç¹å®ä½ç½®è¡¨æåºå¤ä¸ºï¼NLPIRå¾®åè¯æåºï¼åºå¤ä¸ºèªç¶è¯è¨å¤çä¸ä¿¡æ¯æ£ç´¢å±äº«å¹³å°(http://www.nlpir.org/)ã 4.åæ®µè¯´æï¼ id æç« ç¼å· article æ£æ discuss è¯è®ºæ°ç® insertTime æ£ææå¥æ¶é´ origin æ¥æº person_id æå±äººç©çid time æ£æåå¸æ¶é´ transmit è½¬å
2	500ä¸å¾®åè¯æ	2018å¹´1æ	åäº¬çå·¥å¤§å¦ç½ç»æç´¢ææä¸å®å¨å®éªå®¤å¼ åå¹³åå£«	ã500ä¸å¾®åè¯æãåçå·¥æç´¢ææå®éªå®¤ä¸»ä»»@ICTCLASå¼ åå¹³åå£« æä¾500ä¸å¾®åè¯æä¾å¤§å®¶ä½¿ç¨ï¼æä»¶ä¸ºsqlæä»¶ï¼åªè½å¯¼å¥mysqlæ°æ®åºï¼åå«å»ºè¡¨è¯å¥ï¼å±500ä¸æ°æ®ãè¯æåªéç¨äºç§ç æå¦ç¨éï¼ä¸å¾ä½ä¸ºåç¨ï¼å¼ç¨æ¬è¯æåºï¼è¯·å¨è½¯ä»¶æèè®ºæçææç¹å®ä½ç½®è¡¨æåºå¤ ã ãçèµ·æ¥è¿ä»½æ°æ®æ¯ä¸é¢é£ä¸ä»½è¦æç³ä¸äºï¼æ²¡æåè¿å¤çã
3	NLPIRæ°é»è¯æåº-2400ä¸å	2017å¹´7æ	www.NLPIR.org	NLPIRæ°é»è¯æåºè¯´æ 1.è§£åç¼©åæ°æ®éä¸º48MBï¼å¤§çº¦2400ä¸åçæ°é»ï¼ 2.ééçæ°é»æ¶é´è·¨åº¦ä¸º2009å¹´10æ12æ¥è³2009å¹´12æ14æ¥ã 3.æä»¶åä¸ºæ°é»çæ¶é´ï¼æ¯ä¸ªæä»¶åæ¬å¤ä¸ªæ°é»æ£æåå®¹ï¼å·²ç»å»é¤äºæ°é»çåå¾ä¿¡æ¯ï¼ï¼ 4.æ°é»æ¬èº«åå®¹ççæå±äºåä½èæèæ°é»æºæï¼ 5.æ´çåçè¯æåºçæå±äºwww.NLPIR.orgï¼ 6.å¯ä¾æ°é»åæãèªç¶è¯è¨å¤çãæç´¢çåºç¨æä¾æµè¯æ°æ®åºæ¯ï¼ å¦éæ´å¤§è§æ¨¡çè¯æåºï¼å¯ä»¥èç³»NLPIR.orgç®¡çåã
4	NLPIRå¾®åå³æ³¨å³ç³»è¯æåº100ä¸æ¡	2017å¹´12æ	åäº¬çå·¥å¤§å¦ç½ç»æç´¢ææä¸å®å¨å®éªå®¤å¼ åå¹³åå£«	NLPIRå¾®åå³æ³¨å³ç³»è¯æåºè¯´æ 1.NLPIRå¾®åå³æ³¨å³ç³»è¯æåºç±åäº¬çå·¥å¤§å¦ç½ç»æç´¢ææä¸å®å¨å®éªå®¤å¼ åå¹³åå£«ï¼éè¿å¬å¼ééä¸æ½åä»æ°æµªå¾®åãè¾è®¯å¾®åä¸è·å¾ãä¸ºäºæ¨è¿å¾®åè®¡ç®çç ç©¶ï¼ç°éè¿èªç¶è¯è¨å¤çä¸ä¿¡æ¯æ£ç´¢å±äº«å¹³å°(127.0.0.1/wordpress)äºä»¥å¬å¼å±äº«å¶ä¸ç1000ä¸æ¡æ°æ®ï¼ç®åå·²ææ°æ®æ¥è¿10äº¿ï¼å·²ç»åé¤äºå¤§éçåä½æ°æ®ï¼ï¼ 2.æ¬è¯æåºå¨å¬å¼è¿ç¨ä¸ï¼å·²ç»æå¤§éåº¦å°éç¨ææ¯ææ®µå±è½äºç¨æ·çå®å§ååurlï¼å¦ææ¶åå°çç¨æ·éè¦å¨é¢ä¿æ¤ä¸ªäººéç§çï¼å¯ä»¥Emailç»å¼ åå¹³åå£«kevinzhang@bit.edu.cnäºä»¥å é¤ï¼å¯¹ç»æ¨é æçå°æ°è¡¨ç¤ºæ±æï¼å¹¶å¸æè°è§£ï¼ 3.åªéç¨äºç§ç æå¦ç¨éï¼ä¸å¾ä½ä¸ºåç¨ï¼å¼ç¨æ¬è¯æåºï¼æè¯·å¨è½¯ä»¶æèè®ºæçææç¹å®ä½ç½®è¡¨æåºå¤ä¸ºï¼NLPIRå¾®åè¯æåºï¼åºå¤ä¸ºèªç¶è¯è¨å¤çä¸ä¿¡æ¯æ£ç´¢å±äº«å¹³å°(http://www.nlpir.org/)ã 4.åæ®µè¯´æï¼ person_id äººç©çid guanzhu_id æå³æ³¨äººçid
5	NLPIRå¾®ååä¸»è¯æåº100ä¸æ¡	2017å¹´9æ	åäº¬çå·¥å¤§å¦ç½ç»æç´¢ææä¸å®å¨å®éªå®¤å¼ åå¹³åå£«	NLPIRå¾®ååä¸»è¯æåºè¯´æ 1.NLPIRå¾®ååä¸»è¯æåºç±åäº¬çå·¥å¤§å¦ç½ç»æç´¢ææä¸å®å¨å®éªå®¤å¼ åå¹³åå£«ï¼éè¿å¬å¼ééä¸æ½åä»æ°æµªå¾®åãè¾è®¯å¾®åä¸è·å¾ãä¸ºäºæ¨è¿å¾®åè®¡ç®çç ç©¶ï¼ç°éè¿èªç¶è¯è¨å¤çä¸ä¿¡æ¯æ£ç´¢å±äº«å¹³å°(127.0.0.1/wordpress)äºä»¥å¬å¼å±äº«å¶ä¸ç100ä¸æ¡æ°æ®ï¼ç®åå·²ææ°æ®æ¥è¿1äº¿ï¼å·²ç»åé¤äºå¤§éçåä½ä¸æºå¨ç²ä¸ï¼ 2.æ¬è¯æåºå¨å¬å¼è¿ç¨ä¸ï¼å·²ç»æå¤§éåº¦å°éç¨ææ¯ææ®µå±è½äºç¨æ·çå®å§ååurlï¼å¦ææ¶åå°çç¨æ·éè¦å¨é¢ä¿æ¤ä¸ªäººéç§çï¼å¯ä»¥Emailç»å¼ åå¹³åå£«kevinzhang@bit.edu.cnäºä»¥å é¤ï¼å¯¹ç»æ¨é æçå°æ°è¡¨ç¤ºæ±æï¼å¹¶å¸æè°è§£ï¼ 3.åªéç¨äºç§ç æå¦ç¨éï¼ä¸å¾ä½ä¸ºåç¨ï¼å¼ç¨æ¬è¯æåºï¼æè¯·å¨è½¯ä»¶æèè®ºæçææç¹å®ä½ç½®è¡¨æåºå¤ä¸ºï¼NLPIRå¾®åè¯æåºï¼åºå¤ä¸ºèªç¶è¯è¨å¤çä¸ä¿¡æ¯æ£ç´¢å±äº«å¹³å°(http://www.nlpir.org/)ã 4.åæ®µè¯´æï¼ id åé¨id sex æ§å« address å®¶åºä½å fansNum ç²ä¸æ°ç® summary ä¸ªäººæè¦ wbNum å¾®åæ°é gzNum å³æ³¨æ°é blog åå®¢å°å edu æè²æåµ work å·¥ä½æåµ renZh æ¯å¦è®¤è¯ brithday çæ¥ï¼
6	NLPIRçææ¬è¯æåº-40ä¸å	2017å¹´8æ	åäº¬çå·¥å¤§å¦ç½ç»æç´¢ææä¸å®å¨å®éªå®¤ (SMS@BIT)	NLPIRçææ¬è¯æåºè¯´æ 1.è§£åç¼©åæ°æ®éä¸º48ä¸åï¼å¤§çº¦8704ç¯çææ¬åå®¹ï¼ 2.æ´çåçè¯æåºçæå±äºwww.NLPIR.orgï¼ 3.å¯ä¾çææ¬èªç¶è¯è¨å¤çãæç´¢ãèæåæçåºç¨æä¾æµè¯æ°æ®åºæ¯ï¼
7	ç»´åºç¾ç§è¯æåº	\	ç»´åºç¾ç§	ç»´åºç¾ç§ä¼å®ææååå¸è¯æåº
8	å¤è¯è¯æ°æ®åº	2020å¹´	githubä¸»ç¬è«ï¼http://shici.store
9	ä¿é©è¡ä¸è¯æåº	2017å¹´		è¯¥è¯æåºåå«ä»ç½ç«Insurance Library æ¶éçé®é¢åçæ¡ã æ®æä»¬æç¥ï¼è¿æ¯ä¿é©é¢åé¦ä¸ªå¼æ¾çQAè¯æåºï¼ è¯¥è¯æåºçåå®¹ç±ç°å®ä¸ççç¨æ·æåºï¼é«è´¨éççæ¡ç±å·ææ·±åº¦é¢åç¥è¯çä¸ä¸äººå£«æä¾ã æä»¥è¿æ¯ä¸ä¸ªå·æçæ£ä»·å¼çè¯æï¼èä¸æ¯ç©å·ã å¨ä¸è¿°è®ºæä¸ï¼è¯æåºç¨äºçå¤éæ©ä»»å¡ã å¦ä¸æ¹é¢ï¼è¿ç§è¯æåºçå¶ä»ç¨æ³ä¹æ¯å¯è½çã ä¾å¦ï¼éè¿éè¯»çè§£çæ¡ï¼è§å¯å¦ä¹ çèªä¸»å¦ä¹ ï¼ä½¿ç³»ç»è½å¤æç»æ¿åºèªå·±ççä¸è§çé®é¢ççæ¡ã æ°æ®éåä¸ºä¸¤ä¸ªé¨åâé®çè¯æâåâé®çå¯¹è¯æâãé®çè¯ææ¯ä»åå§è±ææ°æ®ç¿»è¯è¿æ¥ï¼æªç»å¶ä»å¤ççãé®çå¯¹è¯ææ¯åºäºé®çè¯æï¼ååäºåè¯åå»æ å»åï¼æ·»å labelãæä»¥ï¼"é®çå¯¹è¯æ"å¯ä»¥ç´æ¥å¯¹æ¥æºå¨å¦ä¹ ä»»å¡ãå¦æå¯¹äºæ°æ®æ ¼å¼ä¸æ»¡ææèå¯¹åè¯ææä¸æ»¡æï¼å¯ä»¥ç´æ¥å¯¹"é®çè¯æ"ä½¿ç¨å¶ä»æ¹æ³è¿è¡å¤çï¼è·å¾å¯ä»¥ç¨äºè®ç»æ¨¡åçæ°æ®ã
10	æ±è¯æååå¸	1905å¹´7æ		æ¬ååº«å«éæ¾è©å¸ç¶²ç¨ä»¥æä¾åæåé¨ä»¶æ¥è©¢çæååå¸æ¸æåº«ï¼æä¾¿å©ä½¿ç¨èæ¥é£ææ¼¢åçç¨éãç®åæ¸æåº«æ¶é17,803ä¸åæ¼¢åçææ³ï¼åçºç¹é«åï¼chaizi-ft.txtï¼åç°¡é«åï¼chaizi-jt.txtï¼å©åçæ¬ã æåæ³æå¥æ¼åºæççé ååº«ãæåèéæ¼åéææ¯ååææå©åä»¥ä¸ççµæé¨ä»¶ï¼èä¸æ¯æææå¯«åææä½¿ç¨ççç«ã
11	æ°é»é¢æ	2016å¹´	å¾äº®	å¯ä»¥åä¸ºãéç¨ä¸æè¯æãï¼è®ç»ãè¯åéãæåä¸ºãé¢è®ç»ãçè¯æï¼ ä¹å¯ä»¥ç¨äºè®ç»ãæ é¢çæãæ¨¡åï¼æè®ç»ãå³é®è¯çæãæ¨¡åï¼éå³é®è¯åå®¹ä¸åäºæ é¢çæ°æ®ï¼ï¼ äº¦å¯ä»¥éè¿æ°é»æ¸ éåºååºæ°é»çç±»åã
12	ç¾ç§ç±»é®çjsonç(baike2018qa)	2018å¹´	å¾äº®	å¯ä»¥åä¸ºéç¨ä¸æè¯æï¼è®ç»è¯åéæåä¸ºé¢è®ç»çè¯æï¼ä¹å¯ä»¥ç¨äºæå»ºç¾ç§ç±»é®çï¼å¶ä¸ç±»å«ä¿¡æ¯æ¯è¾æç¨ï¼å¯ä»¥ç¨äºåçç£è®ç»ï¼ä»èæå»º æ´å¥½å¥åè¡¨ç¤ºçæ¨¡åãå¥åç¸ä¼¼æ§ä»»å¡çã
13	ç¤¾åºé®çjsonç(webtext2019zh) ï¼å¤§è§æ¨¡é«è´¨éæ°æ®é	2019å¹´	å¾äº®	1ï¼æå»ºç¾ç§ç±»é®çï¼è¾å¥ä¸ä¸ªé®é¢ï¼æå»ºæ£ç´¢ç³»ç»å¾å°ä¸ä¸ªåå¤æçäº§ä¸ä¸ªåå¤ï¼ææ ¹æ®ç¸å³å³é®è¯ä»ï¼ç¤¾åºé®çåºä¸çéåºä½ ç¸å³çé¢åæ°æ® 2ï¼è®ç»è¯é¢é¢æµæ¨¡åï¼è¾å¥ä¸ä¸ªé®é¢(åææè¿°)ï¼é¢æµå±äºè¯é¢ã 3ï¼è®ç»ç¤¾åºé®ç(cQA)ç³»ç»ï¼éå¯¹ä¸é®å¤ççåºæ¯ï¼è¾å¥ä¸ä¸ªé®é¢ï¼æ¾å°æç¸å³çé®é¢ï¼å¨è¿ä¸ªåºç¡ä¸åºäºä¸åçæ¡åå¤çè´¨éã é®é¢ä¸çæ¡çç¸å³æ§ï¼æ¾å°æå¥½ççæ¡ã 4ï¼åä¸ºéç¨ä¸æè¯æï¼åå¤§æ¨¡åé¢è®ç»çè¯ææè®ç»è¯åéãå¶ä¸ç±»å«ä¿¡æ¯ä¹æ¯è¾æç¨ï¼å¯ä»¥ç¨äºåçç£è®ç»ï¼ä»èæå»ºæ´å¥½å¥åè¡¨ç¤ºçæ¨¡åãå¥åç¸ä¼¼æ§ä»»å¡çã 5ï¼ç»åç¹èµæ°éè¿ä¸é¢å¤ä¿¡æ¯ï¼é¢æµåå¤çåæ¬¢è¿ç¨åº¦æè®ç»çæ¡è¯åç³»ç»ã
14	.ç»´åºç¾ç§jsonç(wiki2019zh)	2019å¹´	å¾äº®	å¯ä»¥åä¸ºéç¨ä¸æè¯æï¼åé¢è®ç»çè¯æææå»ºè¯åéï¼ä¹å¯ä»¥ç¨äºæå»ºç¥è¯é®çããä¸åäºwikiåå§éæ¾çæ°æ®éï¼è¿ä¸ªå¤çè¿äºã

éè¯»çè§£

ID	æ é¢	æ´æ°æ¥æ	æ°æ®éæä¾è	è®¸å¯	è¯´æ	å³é®å	ç±»å«	è®ºæå°å	å¤æ³¨
1	ç¾åº¦WebQA	2016	ç¾åº¦	\	æ¥èªäºç¾åº¦ç¥éï¼æ ¼å¼ä¸ºä¸ä¸ªé®é¢å¤ç¯ææåºæ¬ä¸è´çæç« ï¼åä¸ºäººä¸ºæ æ³¨ä»¥åæµè§å¨æ£ç´¢	éè¯»çè§£ãç¾åº¦ç¥éçå®é®é¢	ä¸æéè¯»çè§£	è®ºæ
2	DuReader 1.0	2018/3/1	ç¾åº¦	Apache2.0	æ¬æ¬¡ç«èµæ°æ®éæ¥èªæç´¢å¼æçå®åºç¨åºæ¯ï¼å¶ä¸çé®é¢ä¸ºç¾åº¦æç´¢ç¨æ·ççå®é®é¢ï¼æ¯ä¸ªé®é¢å¯¹åº5ä¸ªåéææ¡£ææ¬åäººå·¥æ´ççä¼è´¨çæ¡ã	éè¯»çè§£ãç¾åº¦æç´¢çå®é®é¢	ä¸æéè¯»çè§£	è®ºæ
3	SogouQA	2018	æç	\	CIPS-SOGOUé®çæ¯èµæ°æ®ï¼æ¥èªäºæçæç´¢å¼æçå®ç¨æ·æäº¤çæ¥è¯¢è¯·æ±ï¼å«æäºå®ç±»ä¸éäºå®ç±»æ°æ®	éè¯»çè§£ãæçæç´¢å¼æçå®é®é¢	ä¸æéè¯»çè§£	\
4	ä¸ææ³å¾éè¯»çè§£æ°æ®éCJRC	2019/8/17	åå·¥å¤§è®¯é£èåå®éªå®¤ï¼HFLï¼	\	æ°æ®éåå«çº¦10,000ç¯ææ¡£ï¼ä¸»è¦æ¶åæ°äºä¸å®¡å¤å³ä¹¦ååäºä¸å®¡å¤å³ä¹¦ãéè¿æ½åè£å¤æä¹¦çäºå®æè¿°åå®¹ï¼éå¯¹äºå®æè¿°åå®¹æ æ³¨é®é¢ï¼æç»å½¢æçº¦50,000ä¸ªé®çå¯¹	éè¯»çè§£ãä¸ææ³å¾é¢å	ä¸æéè¯»çè§£	è®ºæ
5	2019âè®¯é£æ¯âä¸ææºå¨éè¯»çè§£æ°æ®éï¼CMRC ï¼	2019å¹´10æ	åå·¥å¤§è®¯é£èåå®éªå®¤ï¼HFLï¼	CC-BY-SA-4.0	æ¬æ¬¡éè¯»çè§£çä»»å¡æ¯å¥åçº§å¡«ç©ºåéè¯»çè§£ã æ ¹æ®ç»å®çä¸ä¸ªåäºç¯ç« ä»¥åè¥å¹²ä¸ªä»ç¯ç« ä¸æ½ååºçå¥åï¼åèµèéè¦å»ºç«æ¨¡åå°åéå¥åç²¾åçå¡«ååç¯ç« ä¸ï¼ä½¿ä¹æä¸ºå®æ´çä¸ç¯æç« ã	å¥åçº§å¡«ç©ºåéè¯»çè§£	ä¸æéè¯»çè§£	\	èµäºå®ç½ï¼https://hfl-rc.github.io/cmrc2019/
6	2018âè®¯é£æ¯âä¸ææºå¨éè¯»çè§£æ°æ®éï¼CMRC ï¼	2018/10/19	åå·¥å¤§è®¯é£èåå®éªå®¤ï¼HFLï¼	CC-BY-SA-4.0	CMRC 2018æ°æ®éåå«äºçº¦20,000ä¸ªå¨ç»´åºç¾ç§ææ¬ä¸äººå·¥æ æ³¨çé®é¢ãåæ¶ï¼æä»¬è¿æ æ³¨äºä¸ä¸ªææéï¼å¶ä¸åå«äºéè¦å¤å¥æ¨çæè½å¤æ£ç¡®è§£ççé®é¢ï¼æ´å¯ææææ§	éè¯»çè§£ãåºäºç¯ç« çæ®µæ½å	ä¸æéè¯»çè§£	è®ºæ	èµäºå®ç½ï¼https://hfl-rc.github.io/cmrc2018/
7	2017âè®¯é£æ¯âä¸ææºå¨éè¯»çè§£æ°æ®éï¼CMRC ï¼	2017/10/14	åå·¥å¤§è®¯é£èåå®éªå®¤ï¼HFLï¼	CC-BY-SA-4.0	é¦ä¸ªä¸æå¡«ç©ºåéè¯»çè§£æ°æ®éPD&CFT	å¡«ç©ºåéè¯»çè§£	ä¸æéè¯»çè§£	è®ºæ	èµäºå®ç½
8	è±æ¯æ¯ï¼å¨å½ç¬¬äºå±âåäºæºè½æºå¨éè¯»âææèµ	2019/9/3	ä¸çµè±æ¯ä¿¡æ¯ç³»ç»æéå¬å¸	\	é¢ååäºåºç¨åºæ¯çå¤§è§æ¨¡ä¸æéè¯»çè§£æ°æ®éï¼å´ç»å¤ææ¡£æºå¨éè¯»çè§£è¿è¡ç«èµï¼æ¶åçè§£ãæ¨ççå¤æææ¯ã	å¤ææ¡£æºå¨éè¯»çè§£	ä¸æéè¯»çè§£	\	èµäºå®ç½
9	ReCO	2020	æç	\	æ¥æºäºæççæµè§å¨ç¨æ·è¾å¥ï¼æå¤éåç´æ¥çæ¡	éè¯»çè§£ãæçæç´¢	ä¸æéè¯»çè§£	è®ºæ	\
10	DuReader-checklist	2021/3	ç¾åº¦	Apache-2.0	å»ºç«äºç»ç²åº¦çãå¤ç»´åº¦çè¯æµæ°æ®éï¼ä»è¯æ±çè§£ãçè¯çè§£ãè¯ä¹è§è²çè§£ãé»è¾æ¨ççå¤ä¸ªç»´åº¦æ£æµæ¨¡åçä¸è¶³ä¹å¤ï¼ä»èæ¨å¨éè¯»çè§£è¯æµè¿å¥âç²¾ç»åâæ¶ä»£	ç»ç²åº¦éè¯»çè§£	ä¸æéè¯»çè§£	\	èµäºå®ç½
11	DuReader-Robust	2020/8	ç¾åº¦	Apache-2.0	ä»è¿æææ§ï¼è¿ç¨³å®æ§ä»¥åæ³åæ§å¤ä¸ªç»´åº¦æå»ºäºæµè¯éè¯»çè§£é²æ£æ§çæ°æ®	ç¾åº¦æç´¢ãé²æ£æ§éè¯»çè§£	ä¸æéè¯»çè§£	è®ºæ	èµäºå®ç½
12	DuReader-YesNo	2020/8	ç¾åº¦	Apache-2.0	DuReader yesnoæ¯ä¸ä¸ªä»¥è§ç¹ææ§å¤æä¸ºç®æ ä»»å¡çæ°æ®éï¼å¯ä»¥å¼¥è¡¥æ½åç±»æ°æ®éè¯æµææ çç¼ºé·ï¼ä»èæ´å¥½å°è¯ä»·æ¨¡åå¯¹è§ç¹ææ§ççè§£è½åã	è§ç¹åéè¯»çè§£	ä¸æéè¯»çè§£	\	èµäºå®ç½
13	DuReader2.0	2021	ç¾åº¦	Apache-2.0	DuReader2.0æ¯å¨æ°çå¤§è§æ¨¡ä¸æéè¯»çè§£æ°æ®ï¼æ¥æºäºç¨æ·çå®è¾å¥ï¼çå®åºæ¯	éè¯»çè§£	ä¸æéè¯»çè§£	è®ºæ	èµäºå®ç½
14	CAIL2020	2020	åå·¥å¤§è®¯é£èåå®éªå®¤ï¼HFLï¼	\	ä¸æå¸æ³éè¯»çè§£ä»»å¡ï¼ä»å¹´æä»¬å°æåºåçº§çï¼ä¸ä»æä¹¦ç§ç±»ç±æ°äºãåäºæ©å±ä¸ºæ°äºãåäºãè¡æ¿ï¼é®é¢ç±»åä¹ç±åæ¥é¢æµæ©å±ä¸ºå¤æ¥æ¨çï¼é¾åº¦ææåçº§ã	æ³å¾éè¯»çè§£	ä¸æéè¯»çè§£	\	èµäºå®ç½
15	CAIL2021	2021	åå·¥å¤§è®¯é£èåå®éªå®¤ï¼HFLï¼	\	ä¸ææ³å¾éè¯»çè§£æ¯èµå¼å¥å¤çæ®µåççé®é¢ç±»åï¼å³é¨åé®é¢éè¦æ½åæç« ä¸çå¤ä¸ªçæ®µç»åææç»çæ¡ãå¸æå¤çæ®µé®é¢ç±»åçå¼å¥ï¼è½å¤æ©å¤§ä¸ææºå¨éè¯»çè§£çåºæ¯éç¨æ§ãæ¬æ¬¡æ¯èµä¾æ§ä¿çåçæ®µãæ¯å¦ç±»åæçç±»çé®é¢ç±»åã	æ³å¾éè¯»çè§£	ä¸æéè¯»çè§£	\	èµäºå®ç½
16	CoQA	2018/9	æ¯å¦ç¦å¤§å¦	CC BY-SA 4.0ãApacheç	CoQAæ¯é¢åå»ºç«å¯¹è¯å¼é®çç³»ç»çå¤§åæ°æ®éï¼ææçç®æ æ¯è¡¡éæºå¨å¯¹ææ¬ççè§£è½åï¼ä»¥åæºå¨é¢åå¯¹è¯ä¸åºç°çå½¼æ¤ç¸å³çé®é¢çåçè½åçé«ä½	å¯¹è¯é®ç	è±æéè¯»çè§£	è®ºæ	å®æ¹ç½ç«
17	SQuAD2.0	2018/1/11	æ¯å¦ç¦å¤§å¦	\	è¡ä¸åå¬è®¤çæºå¨éè¯»çè§£é¢åçé¡¶çº§æ°´å¹³æµè¯ï¼å®æå»ºäºä¸ä¸ªåå«åä¸ä¸ªé®é¢çå¤§è§æ¨¡æºå¨éè¯»çè§£æ°æ®éï¼éåè¶è¿ 500 ç¯çç»´åºç¾ç§æç« ãæ°æ®éä¸æ¯ä¸ä¸ªéè¯»çè§£é®é¢ççæ¡æ¯æ¥èªç»å®çéè¯»æç« çä¸å°æ®µææ¬ ââ ä»¥åï¼ç°å¨å¨ SQuAD 2.0 ä¸è¿è¦å¤æè¿ä¸ªé®é¢æ¯å¦è½å¤æ ¹æ®å½åçéè¯»ææ¬ä½ç	é®çãåå«æªç¥çæ¡	è±æéè¯»çè§£	è®ºæ
18	SQuAD1.0	2016	æ¯å¦ç¦å¤§å¦	\	æ¯å¦ç¦å¤§å¦äº2016å¹´æ¨åºçéè¯»çè§£æ°æ®éï¼ç»å®ä¸ç¯æç« åç¸åºé®é¢ï¼éè¦ç®æ³ç»åºé®é¢ççæ¡ãæ¤æ°æ®éæææç« éèªç»´åºç¾ç§ï¼ä¸å±æ107,785é®é¢ï¼ä»¥åéå¥ç 536 ç¯æç«	é®çãåºäºç¯ç« çæ®µæ½å	è±æéè¯»çè§£	è®ºæ
19	MCTest	2013	å¾®è½¯	\	100,000ä¸ªå¿åºBingé®é¢åäººå·¥çæççæ¡ãä»é£æ¶èµ·ï¼ç¸ç»§åå¸äº1,000,000ä¸ªé®é¢æ°æ®éï¼èªç¶è¯è¨çææ°æ®éï¼æ®µè½æåæ°æ®éï¼å³é®è¯æåæ°æ®éï¼ç¬ç½æ°æ®éåä¼è¯æç´¢ã	é®çãæç´¢	è±æéè¯»çè§£	è®ºæ
20	CNN/Dailymail	2015	DeepMind	Apache-2.0	å¡«ç©ºåå¤§è§æ¨¡è±ææºå¨çè§£æ°æ®éï¼çæ¡æ¯åæä¸çæä¸ä¸ªè¯ã CNNæ°æ®éåå«ç¾å½æçº¿çµè§æ°é»ç½çæ°é»æç« åç¸å³é®é¢ãå¤§çº¦æ90kæç« å380ké®é¢ã Dailymailæ°æ®éåå«æ¯æ¥æ°é»çæç« åç¸å³é®é¢ãå¤§çº¦æ197kæç« å879ké®é¢ã	é®çå¯¹ãå¡«ç©ºåéè¯»çè§£	è±æéè¯»çè§£	è®ºæ
21	RACE	2017	å¡èåºæ¢éå¤§å¦	/	æ°æ®éä¸ºä¸å½ä¸å¦çè±è¯éè¯»çè§£é¢ç®ï¼ç»å®ä¸ç¯æç« å 5 é 4 é 1 çé¢ç®ï¼åæ¬äº 28000+ passages å 100,000 é®é¢ã	éæ©é¢å½¢å¼	è±æéè¯»çè§£	è®ºæ	ä¸è½½éé®ä»¶ç³è¯·
22	HEAD-QA	2019	aghie	MIT	ä¸ä¸ªé¢åå¤ææ¨ççå»çä¿å¥ãå¤éé®çæ°æ®éãæä¾è±è¯ãè¥¿ççè¯ä¸¤ç§å½¢å¼çæ°æ®	å»çé¢åãéæ©é¢å½¢å¼	è±æéè¯»çè§£ è¥¿ççè¯éè¯»çè§£	è®ºæ
23	Consensus Attention-based Neural Networks for Chinese Reading Comprehension	2018	åå·¥å¤§è®¯é£èåå®éªå®¤	/	ä¸æå®å½¢å¡«ç©ºåéè¯»çè§£	å¡«ç©ºåéè¯»çè§£	ä¸æéè¯»çè§£	è®ºæ
24	WikiQA	2015	å¾®è½¯	/	WikiQAè¯æåºæ¯ä¸ä¸ªæ°çå¬å¼çé®é¢åå¥åå¯¹éï¼æ¶éå¹¶æ³¨éç¨äºå¼æ¾åé®çç ç©¶	çæ®µæ½åéè¯»çè§£	è±æéè¯»çè§£	è®ºæ
25	Childrenâs Book Test (CBT)	2016	Facebook	/	æµè¯è¯è¨æ¨¡åå¦ä½å¨å¿ç«¥ä¹¦ç±ä¸æææä¹ãä¸æ åè¯è¨å»ºæ¨¡åºåä¸åï¼å®å°é¢æµå¥æ³åè½è¯çä»»å¡ä¸é¢æµè¯ä¹åå®¹æ´ä¸°å¯çä½é¢è¯çä»»å¡åºåå¼æ¥	å¡«ç©ºåéè¯»çè§£	è±æéè¯»çè§£	è®ºæ
26	NewsQA	2017	Maluuba Research	/	ä¸ä¸ªå·ææææ§çæºå¨çè§£æ°æ®éï¼åå«è¶è¿100000ä¸ªäººå·¥çæçé®çå¯¹ï¼æ ¹æ®CNNç10000å¤ç¯æ°é»æç« æä¾é®é¢åçæ¡ï¼çæ¡ç±ç¸åºæç« çææ¬è·¨åº¦ç»æã	çæ®µæ½åéè¯»çè§£	è±æéè¯»çè§£	è®ºæ
27	Frames dataset	2017	å¾®è½¯	/	ä»ç»äºä¸ä¸ªç±1369ä¸ªäººç±»å¯¹è¯ç»æçæ¡æ¶æ°æ®éï¼å¹³åæ¯ä¸ªå¯¹è¯15è½®ãå¼åè¿ä¸ªæ°æ®éæ¯ä¸ºäºç ç©¶è®°å¿å¨ç®æ å¯¼åå¯¹è¯ç³»ç»ä¸çä½ç¨ã	éè¯»çè§£ãå¯¹è¯	è±æéè¯»çè§£	è®ºæ
28	Quasar	2017	å¡ååºæ¢éå¤§å¦	BSD-2-Clause	æåºäºä¸¤ä¸ªå¤§è§æ¨¡æ°æ®éãQuasar-Sæ°æ®éç±37000ä¸ªå®å½¢å¡«ç©ºå¼æ¥è¯¢ç»æï¼è¿äºæ¥è¯¢æ¯æ ¹æ®æµè¡ç½ç« Stack overflow ä¸çè½¯ä»¶å®ä½æ è®°çå®ä¹æé çãç½ç«ä¸çå¸ååè¯è®ºæ¯åçå®å½¢å¡«ç©ºé®é¢çèæ¯è¯æåºãQuasar-Tæ°æ®éåå«43000ä¸ªå¼æ¾åçäºé®é¢åå¶ä»åç§äºèç½æ¥æºè·å¾ççæ¡ã	çæ®µæ½åéè¯»çè§£	è±æéè¯»çè§£	è®ºæ
29	MS MARCO	2018	å¾®è½¯	/	å¾®è½¯åºäºæç´¢å¼æ BING æå»ºçå¤§è§æ¨¡è±æéè¯»çè§£æ°æ®éï¼åå«10ä¸ä¸ªé®é¢å20ä¸ç¯ä¸éå¤çææ¡£ãMARCO æ°æ®éä¸çé®é¢å¨é¨æ¥èªäº BING çæç´¢æ¥å¿ï¼æ ¹æ®ç¨æ·å¨ BING ä¸è¾å¥ççå®é®é¢æ¨¡ææç´¢å¼æä¸ççå®åºç¨åºæ¯ï¼æ¯è¯¥é¢åææåºç¨ä»·å¼çæ°æ®éä¹ä¸ã	å¤ææ¡£	è±æéè¯»çè§£	è®ºæ
30	ä¸æå®å½¢å¡«ç©º	2016å¹´	å´ä¸é¸£		é¦ä¸ªä¸æå¡«ç©ºåéè¯»çè§£æ°æ®éPD&CFTï¼ å¨ç§°People Daily and Children's Fairy Taleï¼ æ°æ®æ¥æºäºäººæ°æ¥æ¥åå¿ç«¥æäºã	å¡«ç©ºåéè¯»çè§£	ä¸æå®å½¢å¡«ç©º	è®ºæ
31	NLPCC ICCPOL2016	2016.12.2	NLPCCä¸»åæ¹		åºäºææ¡£ä¸çå¥åäººå·¥åæ14659ä¸ªé®é¢ï¼åæ¬14Kä¸æç¯ç« ã	é®çå¯¹éè¯»çè§£	ä¸æéè¯»çè§£	\

è´¡ç®ä¸åä¸

æè°¢ä»¥ä¸åå¦çè´¡ç®ï¼æåä¸åååï¼

éå°æ£ãææç£ãæé²ãå¶çãèå¸æ¦ãç« é¦å·ãæå°æãæä¿æ¯

Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,

or join QQ group: 836811304

Top Related Projects

Convert designs to code with AI

Introducing Visual Copilot: A new AI model to turn Figma designs to high quality code using your components.

Try Visual Copilot

Top Related Projects

Quick Overview

Pros

Cons

Code Examples

Getting Started

Competitor Comparisons

Pros of datasets

Cons of datasets

Code comparison

Key differences

Use cases

Pros of AllenNLP

Cons of AllenNLP

Code Comparison

Pros of text

Cons of text

Code Comparison

Pros of spaCy

Cons of spaCy

Code Comparison

Summary

Pros of fastText

Cons of fastText

Code Comparison

Convert designs to code with AI

README

CLUEDatasetSearch

NER

QA

æ æåæ

ææ¬åç±»

ææ¬å¹é 

ææ¬æè¦

æºå¨ç¿»è¯

ç¥è¯å¾è°±

è¯­æåº

é è¯»çè§£

è´¡ç®ä¸åä¸

Top Related Projects

Convert designs to code with AI

ææåæ

ææ¬åç±»

ææ¬å¹é

ææ¬æè¦

æºå¨ç¿»è¯

ç¥è¯å¾è°±

è¯æåº

éè¯»çè§£

è´¡ç®ä¸åä¸