`generic.pipelines`#

Module Contents#

`GenericPipeline`
`DropMissingTextPipeline`	Drops items without text.
`FeedStoragePipeline`	Save FeedItem on local disk.
`FileItemPipeline`	Process FileItem. This pipeline should be placed before FileItemStoragePipeline.
`FileItemStoragePipeline`	Save FileItem on local disk. This pipeline should be at the end of ITEM_PIPELINES.
`SpacyTokenizePipeline`
`CleanSentencesPipeline`

class generic.pipelines.GenericPipeline#

class generic.pipelines.DropMissingTextPipeline#

Drops items without text.

class generic.pipelines.FeedStoragePipeline#

Save FeedItem on local disk.

class generic.pipelines.FileItemPipeline#

Process FileItem. This pipeline should be placed before FileItemStoragePipeline.

This pipeline expects FileItem to have filename with a proper file extention.

The purpose of the pipeline is:

Generate a unique, hashed file name.
Process FileItems if necessary, e.g., adding contexts or metadata to the FileItem.

process_item(item: generic.items.FileItem, spider: scrapy.Spider) → generic.items.FileItem#

Process FileItem.

process_pdf_item(item: generic.items.FileItem, spider: scrapy.Spider) → generic.items.FileItem#

Process PDF FileItem.

class generic.pipelines.FileItemStoragePipeline#

Save FileItem on local disk. This pipeline should be at the end of ITEM_PIPELINES.

class generic.pipelines.SpacyTokenizePipeline(spacy_url)#

Initialization

class generic.pipelines.CleanSentencesPipeline#